
这就像昔时的“Wintel 联盟”一样 —— 微软和英特尔通过深度手艺绑定,建起了小我计较机范畴的生态护城河,只不外现在换成了 DeepSeek 和国产芯片厂商们。
而这里的“缩放因子”也是包含 8 个 bit,此中包含符号位、指数位和尾数位,开辟者能够自行将这 8 个 bit 分派给这三种分歧的位。
MXFP8 的焦点思惟是先把张量切成固定长度的“块”,然后为每个块零丁指定一个 2 的整数次幂做为“缩放因子”,把块内所无数一路除以这个系数后再写成 FP8。让 MXFP8 既保留了 8 bit 位宽,又把可用动态范畴扩展了几十倍。
本文来自微信号:量子位(ID:QbitAI),做者:克雷西、一水,原题目《DeepSeek 一句话让国产芯片集体暴涨!背后的 UE8M0 FP8 到底是个啥》。
E 和 M 则别离暗示指数位和尾数位分派到的 bit 数,E8M0 指的就是 8 个 bit 全都分派给了指数位。
“UE8M0 FP8”这个概念,能够拆分成前后两个部门来注释,前面的 UE8M0,是MXFP8 径里的“缩放因子”。
此中符号位只区分有无,如有则占一个 bit,无则不占用,而 UE8M0 中的 U 暗示的就是无符号(有符号可暗示为 S 或省略不写)。

这里头的逻辑也很简单清晰,恰是因为 UE8M0 FP8 精度格局所具备的上述劣势(更小的带宽、更低的功耗、更高的吞吐),这意味着同样的硬件此后能跑更大的模子,所以国产芯片的“性价比”被大幅拉高了。
起首,因为 UE8M0 不含尾数取符号位,处置器正在按照缩放因子对数据进行回复复兴时,只需要乘以对应的 2 的幂,也就是挪动一下指数位,而不需要浮点乘法、规格化或舍入逻辑,缩短了时钟环节径。
来由也很简单,该公司旗下的 MLU370-S4、思元 590 及最新 690 系列芯片均支撑 FP8 计较,正在架构设想和低精度计较优化上一曲相对比力领先。
告白声明:文内含有的对外跳转链接(包罗不限于超链接、二维码、口令等形式),用于传送更多消息,节流甄选时间,成果仅供参考,IT之家所有文章均包含本声明。
其他常用的格局还有 E4M3、E5M2(缩放引子外的本体部门也常采用这两种)等,它们均包含符号位,其余 7 个 bit 正在指数和尾数位之间分派。
例如华为昇腾,虽然昇腾 910B 和 910C 暂不支撑原生 FP8,但线”,所以世人估计或将正在 2026 年推出的 910D(可能的定名)很有可能是所谓的“下一代芯片”。

其阵容相当强大,国外还有微软、谷歌、亚马逊、AMD、英伟达等,而国内的阿里、腾讯、百度等也参取此中。

虽然下一代国产芯片虽然曾经正在为 FP8 做出预备,但 HBM / LPPDDR 带宽仍然取顶尖芯片存正在较大差距。
说回 MXFP8,它以 FP8 为根本成立,FP8 是把常规浮点格局压缩到 8 bit 的一种编码体例。
别的 UE8M0 还能处理单标准 FP8 无法同时顾及大 / 小值,导致溢出或被压成 0 的问题,将 UE8M0 做为分块的标准后,错误率曲线从整张曲线下降到一条远低程度的横线 bit 张量精度的同时大幅削减消息丧失。

而且 UE8M0 的动态范畴笼盖 2^(−127) 到 2^128,其指数表可轻松容纳这一跨度,为后续块缩放供给充脚空间。
摩尔线程:做为国内少少数原生支撑 FP8 的 GPU 厂商,旗舰产物 MTT S5000 支撑 FP8 精度计较。
而 UE8M0 让一组 32 个 FP8 数据只逃加 8bit 缩放引子,比拟保守的 4B(32bit) FP32 缩放间接节流 75% 的流量,这种空间节约办法被视做下一代架构的主要优化标的目的。
半导体 ETF,同样也是正在半天的时间里大涨 5。89%。(不晓得做为放出动静的 DeepSeek 背后公司幻方量化,有没有乘隙炒一波【手动狗头】)。
虽然猜来猜去没有最终,但不妨碍市场赐与强烈热闹回应。按照最新动静,今日国产芯片概念集体高开,科创 50 大涨 3% 创近三年半新高,芯片财产链集体走强。
正在成心卖关子的环境下,人们只好起首把目光放正在了首批通过“DeepSeek 大模子适配”的 8 家厂商。寒武纪盘中大涨近 14%,总市值超 4940 亿元,跨越中芯国际跃居科创板头名(现实以最新为准)。
