

IT之家援引博文介绍,本次测试中最亮眼的成绩是,GB300 NVL72 平台仅用时 10 分钟,便完成训练拥有 4050 亿参数的 Llama 3.1 大模型。
该媒体指出这一性能突破的背后,是软硬件协同创新的结果。硬件方面,GB300 NVL72 系统集成了速率高达 800 GB/s 的 Quantum-X800 InfiniBand 高速网络,并为每块 GPU 配备了 279GB 的 HBM3e 高带宽内存,整个系统的总内存容量(GPU+CPU)更是达到了惊人的 40TB。
在软件层面,FP4 精度的全面采用是关键。英伟达通过在模型训练的每一层都应用 FP4 精度,将计算速度提升至 FP8 的两倍,而 Blackwell Ultra 架构则将这一优势进一步放大至 3 倍。