摩尔线程MTTS5000：80GB显存，单卡算力突破千万亿次！

时间：2026-02-12 12:32:40

2月12日消息，智谱发布新一代大模型GLM-5之后，摩尔线程立即宣布，在旗舰级AI训推一体全功能GPU MTT S5000上完成了Day-0全流程适配与验证，第一时间提供支持。

MTT S5000是摩尔线程专为大模型训练、推理及高性能计算设计的全功能GPU智算卡，基于第四代MUSA架构“平湖”，原生适配PyTorch、Megatron-LM、vLLM、SGLang等主流框架。

它早在2024年就已经低调推出，但是具体造型、参数、性能一直没有对外公开，非常神秘。

这次在宣布适配GLM-5的同时，摩尔线程首次公布了MTT S5000的部分参数和性能，非常惊喜！

据悉，MTT S5000单卡配备多达80GB显存，显存带宽高达1.6TB/s，对比上代MTT S4000分别提升了67%、113%，多卡间的互联带宽也有784GB/s。

它完整支持从FP8到FP64的全精度计算，而且是国内最早原生支持FP8精度的训练GPU之一，配置了硬件级FP8 Tensor Core加速单元。

FP8相比BF16/FP16可将数据位宽减半、显存带宽压力降低50%、理论计算吞吐量翻倍，并全面支持DeepSeek、Qwen等架构，训练性能可提升30%以上。

MTT S5000的单卡FP8 AI算力最高可达1000 TFLOPS，首次达到PFLOPS级别，也就是每秒1千万亿次计算。

相比之下，MTT S4000的算力为INT8 256 TOPS、BF16 128 TFLOPS、FP32/64 32/64 TFLOPS。

据业内人士称，MTT S5000实测性能可以对标NVIDIA H100，尤其是在多模态大模型微调任务中，部分性能更是超越H100，甚至开始接近最新的Blackwell架构。

2026年1月，智源研究院基于MTT S5000千卡集群，完成了前沿具身大脑模型RoboBrain 2.5(数千亿参数)的端到端训练与对齐验证，MTT S5000表现出了与H100集群极高的结果一致性，练损失值(loss)差异仅为0.62%，整体训练效果甚至实现小幅超越。

另据互联网厂商的场景实测，MTT S5000在典型端到端推理及训练任务中，性能可以达到NVIDIA H20的2.5倍左右。

目前，MTT S5000已广泛应用于人工智能、深度学习、高性能计算等领域，成为国内AI计算领域的领军者。

文章版权归作者所有，未经允许请勿转载。

THE END