炒股就看金麒麟剖析师研报,,,,,,,权威,,,,,,,专业,,,,,,,实时,,,,,,,周全,,,,,,,助您挖掘潜力主题时机! 泉源:量子位 上市后的仅15天,,,,,,,?摩尔线程,,,,,,,便将首个大行动直接指向了生态的焦点——开发者。。。。。。。 在这次首届、也是海内首个聚焦全功效GPU的开发者大会中,,,,,,,围绕着MUSA这个要害词,,,,,,,新品可谓是目接不暇:一个全新GPU架构:花港,,,,,,,密度提升50%,,,,,,,效能提升10倍。。。。。。。三款新芯片:西岳、庐山、长江,,,,,,,划分聚焦AI训推一体、图形渲染和智能SoC。。。。。。。一个智算集群:夸娥万卡集群(KUAE2.0),,,,,,,定位国产自主研发的AI Foundry。。。。。。。两款硬件产品:专为开发者打造的AIBOOK和AICube。。。。。。。 这并非零星的产品更新,,,,,,,而是摩尔线程用一套从云到端、从算力到生态的组合拳。。。。。。。 在长达2个多小时的宣布中,,,,,,,最直观的感受就是,,,,,,,摩尔线程,,,,,,,已经把国产GPU推向了下一个level。。。。。。。 接下来,,,,,,,我们就从最最最焦点的全新GPU架构花港为起点,,,,,,,对此次开发者大会一探事实。。。。。。。 MUSA,,,,,,,已经成了全功效GPU架构的代名词 什么是MUSA??????? 它的全名叫做Meta-computing Unified System Architecture,,,,,,,是摩尔线程自主研发的元盘算统一盘算架构。。。。。。。 该怎么明确???????可以说,,,,,,,从芯片架构、指令集、编程模子,,,,,,,到软件运行库及驱动程序框架,,,,,,,都属于MUSA的领域。。。。。。。 历经五年的生长,,,,,,,MUSA已经完整界说了全功效GPU从芯片设计到软件生态的统一手艺标准,,,,,,,并且支持AI盘算、图形渲染、物理仿真和科学盘算、超高清视频编解码等全场景高性能盘算。。。。。。。 若是纵观MUSA硬件架构这几年的迭代,,,,,,,从苏堤、春晓、曲院,,,,,,,再到平湖,,,,,,,每一次的升级都是在探索着GPU算力的界线。。。。。。。 最新宣布的第五代全功效GPU架构花港,,,,,,,亦是云云:算力密度提升50%:在一律芯片面积下,,,,,,,可安排更多盘算单位;;;;;;;;盘算能效提升10倍:单位瓦特征能大幅优化,,,,,,,为大规模智算集群提供绿色底座;;;;;;;;新增FP4盘算:从FP4、FP6、FP8到FP16、BF16以致FP64,,,,,,,实现全精度端到端盘算,,,,,,,笼罩AI、HPC、图形等全场景需求;;;;;;;;支持十万卡集群:通过MTLink高速互联,,,,,,,为超大规模模子训练铺平蹊径。。。。。。。 尤为值得关注的是,,,,,,,花港在低精度盘算上的深度优化。。。。。。。架构新增了MTFP6/MTFP4及混淆低精度端到端加速手艺,,,,,,,专为未来AI主流场景——低比特训练与推理而生。。。。。。。 在Attention机制的要害路径上,,,,,,,花港原生支持矩阵rowmax盘算,,,,,,,大幅提升混淆精度SIMT吞吐量,,,,,,,并内置在线量化/反量化、随机舍入等硬件加速能力,,,,,,,为下一代Transformer引擎(如MT Transformer Engine)提供底层支持。。。。。。。 若是说硬件架构是能力的基石,,,,,,,那么软件栈,,,,,,,就是将这些能力交到开发者手中的详细路径。。。。。。。 除了架构自己之外,,,,,,,摩尔线程这次还同步推出了MUSA软件栈5.0,,,,,,,构建从编译器、算子库到AI框架的全栈工具链:AI框架普遍适配:除PyTorch、PaddlePaddle外,,,,,,,新增对JAX、TensorFlow的支持;;;;;;;;训练生态扩展:在Megatron、DeepSpeed基础上,,,,,,,新增强化学习训练框架MT VeRL;;;;;;;;推理引擎富厚:深度优化自研MTT推理引擎与TensorX,,,,,,,同时适配SGLang、vLLM、Ollama等新兴推理框架;;;;;;;;焦点库极致优化:muDNN实现GEMM/FlashAttention效率超98%,,,,,,,通讯效率达97%,,,,,,,编译器性能提升3倍;;;;;;;;编程语言立异:推出面向AI+渲染融合的muLang,,,,,,,兼容TileLang、Triton,,,,,,,原生支持MUSA C,,,,,,,并宣布GPU中心体现语言MTX 1.0,,,,,,,提升开发者调优自由度。。。。。。。 更要害的是,,,,,,,摩尔线程宣布将逐步开源MATE算子库、MUTLASS、MT DeepEP通讯库、KUAE云原生工具包等焦点组件,,,,,,,向开发者社区开放底层能力,,,,,,,加速生态构建。。。。。。。 不难看出,,,,,,,MUSA并未将自身定位为纯粹的AI加速器,,,,,,,而是以“全功效 GPU”为锚点,,,,,,,将 AI 能力深度嵌入图形渲染、物理仿真、量子盘算等高价值笔直场景。。。。。。。 这种从通用底座向工业纵深延伸的架构哲学,,,,,,,使其区别于纯粹的大模子训练卡,,,,,,,而更靠近英伟达 CUDA 生态早期“以通用可编程性撬动多元应用”的战略路径。。。。。。。 可以说,,,,,,,MUSA 不但是中国首个全功效GPU架构,,,,,,,更是对“下一代 AI 基础设施应长什么样”的一次系统性回覆—— 它不再只是算力的提供者,,,,,,,而是多模态智能、具身智能以致物理AI时代的要害使能平台。。。。。。。在这一意义上,,,,,,,摩尔线程的架构立异,,,,,,,已不但是手艺突破,,,,,,,更是对未来 AI 工业名堂的一次自动界说。。。。。。。 而围绕着新升级的MUSA,,,,,,,摩尔线程这次还祭出了更多重磅产品。。。。。。。 三个新芯片,,,,,,,两个新硬件,,,,,,,一个万卡集群 首先基于花港架构,,,,,,,摩尔线程宣布了两款芯片蹊径。。。。。。。 第一个即是聚焦在AI训推一体及高性能盘算的GPU——西岳。。。。。。。 它的焦点亮点可以总结为:全精度支持:从 FP4 到 FP64,,,,,,,笼罩低精度训练与高精度科学盘算;;;;;;;;MTFP4/MTFP6 混淆低精度加速:Attention 盘算从 BF16 向 FP8 甚至 FP6 演进,,,,,,,大幅提升 Transformer 吞吐;;;;;;;;硬件级优化:原生支持矩阵 rowmax 盘算、在线量化/反量化、随机舍入等算法,,,,,,,专为大模子训练定制;;;;;;;;新一代异步编程模子:支持常驻核函数、线程束特化,,,,,,,极大提升并行效率。。。。。。。 并且从浮点算力、访存宽带、访存容量和高速互联宽带等维度来看,,,,,,,西岳正在追赶英伟达的系列产品。。。。。。。 西岳的推出,,,,,,,标记着摩尔线程正式具备支持万亿参数大模子训练的能力,,,,,,,为国产AI基础设施补上要害一环。。。。。。。 若是说西岳主攻A 算力,,,,,,,那么接下来的GPU——庐山,,,,,,,则专为图形盘算而生。。。。。。。 相比上一代产品,,,,,,,其AI盘算性能提升了惊人的64倍,,,,,,,3A游戏渲染性能提升15倍。。。。。。。 庐山引入了AI天生式渲染架构(AGR)和硬件光追引擎,,,,,,,支持DirectX 12 Ultimate。。。。。。。这意味着,,,,,,,国产显卡正式迈入“光追+AI渲染”的新范式,,,,,,,不但仅是“算”画面,,,,,,,更是“天生”画面。。。。。。。 除此之外,,,,,,,在端侧,,,,,,,摩尔线程还首次推出了智能SoC芯片——长江。。。。。。。 据相识,,,,,,,长江芯片不局限于古板PC或效劳器,,,,,,,而是面向具身智能、车载、AI盘算终端等端侧场景,,,,,,,提供50 TOPS的异构AI算力。。。。。。。 有了芯片,,,,,,,自然要有承载的载体。。。。。。。 基于长江芯片,,,,,,,摩尔线程这次还宣布了两个很是亮眼的硬件产品。。。。。。。 首先就是MTT AIBOOK。。。。。。。 这个算力本是专门为AI学习与开发者打造的小我私家智算平台,,,,,,,运行基于Linux内核的MT AIOS操作系统,,,,,,,具备多系统兼容能力,,,,,,,并预置完整AI开发情形与工具链,,,,,,,通过虚拟化和安卓容器,,,,,,,可无缝运行Windows与安卓应用。。。。。。。 云云一来,,,,,,,你就可以直接在上面跑大模子、搞Agent开发。。。。。。。 MTT AIBOOK内置的智能体小麦,,,,,,,还支持2K高清渲染、外地大模子(如 MUSAChat-72B)、端侧 ASR/TTS,,,,,,,这就让它从工具酿成了超等个体助手。。。。。。。 并且MTT AIBOOK还预装了智源悟界Emu3.5多模态模子,,,,,,,开箱即可文本生图、编辑图像。。。。。。。 除此之外,,,,,,,针对端侧场景,,,,,,,摩尔线程还推出了桌面上的AI小钢炮——AICube。。。。。。。 它更像是一个高性能的AI盘算魔方,,,,,,,闪开发者在桌面上就能轻松获取算力支持,,,,,,,处置惩罚重大的推理使命。。。。。。。 最后,,,,,,,也是最重磅的——夸娥(KUAE 2.0)万卡智算集群;;;;;;;;事实在大模子领域,,,,,,,万卡集群是公认的入场券。。。。。。。 摩尔线程此次宣布,,,,,,,其万卡集群在Dense大模子上的算力使用率(MFU)达60%,,,,,,,在MOE大模子上达40%,,,,,,,有用训练时间占比凌驾90%。。。。。。。 最硬核的新闻是:摩尔线程已完整复现了DeepSeek V3的FP8训练。。。。。。。 依赖S5000对低精度算子的优化,,,,,,,其自研FP8 GEMM算力使用率高达90%。。。。。。。 在这次大会上,,,,,,,摩尔线程还前瞻性地披露了下一代高密硬件基石——MTT C256超节点。。。。。。。 这款产品接纳了盘算与交流一体化的高密设计。。。。。。。它的泛起,,,,,,,是为了系统性地提升万卡集群在超大规模智算中心里的能效比和训练效能。。。。。。。 这个量级的体现,,,,,,,意味着它已经具备了正面硬刚国际主流Hopper架构AI GPU的底气,,,,,,,是未来超大规模大模子训练和实时推理的国产标准谜底。。。。。。。 并且就在最近,,,,,,,摩尔线程还和硅基流动(SiliconFlow)团结宣布: 基于硅基流动高性能推理引擎,,,,,,,双方已在摩尔线程MTT S5000 GPU上乐成完成对DeepSeek V3 671B满血版大模子的深度适配与性能验证。。。。。。。 在FP8低精度推理手艺加持下,,,,,,,MTT S5000单卡实测Prefill吞吐突破4000 tokens/s,,,,,,,Decode吞吐超1000 tokens/s,,,,,,,创下目今国产GPU在大模子推理场景下的新高。。。。。。。 这一效果不但刷新了国产GPU的推理性能基准,,,,,,,更转达出一个要害信号: 在成熟软件工程系统(如MUSA架构与硅基流动推理引擎)的协同优化下,,,,,,,国产算力硬件正从“能跑”迈向“跑得快、跑得稳、跑得值”。。。。。。。 换句话说:单位算力的有用使用率,,,,,,,正在成为国产AI芯片真正落地的要害指标——而摩尔线程,,,,,,,这次交出了一份高分答卷。。。。。。。 生态,,,,,,,生态,,,,,,,还得看生态 在全球算力竞争日益白热化的今天,,,,,,,简单芯片的性能优势已缺乏以构建护城河。。。。。。。 真正的壁垒,,,,,,,在于软件生态、硬件协同、场景落地与开发者信托的综合能力。。。。。。。 摩尔线程深谙此道,,,,,,,它的选择也很是清晰:不走局部替换蹊径,,,,,,,而是以“MUSA架构+国产GPU+全场景产品”三位一体,,,,,,,打造一个从底层指令集到上层应用的完整生态闭环。。。。。。。 这不但包括人才生态,,,,,,,更涵盖昌盛的软件开爆发态——从自研编译器、高性能算子库,,,,,,,到对主流AI框架的普遍适配,,,,,,,摩尔线程提供了释放算力所需的全套软件工具链;;;;;;;;同时,,,,,,,通过AIBOOK等面向开发者的硬件入口产品,,,,,,,闪开发者能够随时随地接入并高效使用MUSA算力,,,,,,,真正实现软硬协同、端云一体的全场景笼罩。。。。。。。 但除此之外,,,,,,,开发者和开爆发态,,,,,,,亦是其中很是要害的一环。。。。。。。 这即是摩尔线程打造摩尔学院(MUSA开发者的生长平台)的缘故原由了。。。。。。。 阻止2025年12月,,,,,,,摩尔学院已经汇聚了20万名开发者。。。。。。。摩尔线程的目的更弘大:培育百万规模的MUSA开发者社群。。。。。。。 为此,,,,,,,他们不但提供了从入门到巨匠的专业课程,,,,,,,还把根扎到了人才源头——走进天下200所高校。。。。。。。通过产教融合、团结实验室以及“繁星妄想”等竞赛,,,,,,,摩尔线程正在从象牙塔最先,,,,,,,作育属于自己的、懂国产架构的原生代开发者。。。。。。。 这也印证了中国工程院院士、清华大学盘算机系教授郑伟民的看法:“国产GPU的要害,,,,,,,在于要从能跑到愿意用。。。。。。。” 整体来看,,,,,,,当别人还在争论“国产 GPU 能不可用”时,,,,,,,摩尔线程已经通过从软件栈工具、硬件入口到人才培育的全链路结构,,,,,,,闪开发者问出另一个问题:“我的下一个项目,,,,,,,能不可全在 MUSA 生态里完成???????” 这,,,,,,,或许才是真正的突破。。。。。。。 .appendQr_wrap{border:1px solid #E6E6E6;padding:8px;} .appendQr_normal{float:left;} .appendQr_normal img{width:100px;} .appendQr_normal_txt{float:left;font-size:20px;line-height:100px;padding-left:20px;color:#333;} 海量资讯、精准解读,,,,,,,尽在新浪财经APP 责任编辑:杨红卜