

在科技飞速发展的今天,9月10日,ArmUnlocked2025AI技术峰会如期召开,成为业界关注的焦点。在此次盛会上,Arm正式推出了其新一代计算子系统——Arm Lumex平台,标志着在人工智能(AI)领域的又一次重要跃进。同时,Arm也展示了C1系列CPU IP和Mali G1 GPU IP的完整阵容,展现出其在AI计算方面的雄心壮志。
Arm终端事业部的高管们,James McNiven和Ronan Naughton,分别在技术分享会上深入剖析了Arm的未来战略。他们强调,Arm在AI时代的目标并非单纯追求极致的峰值算力,而是致力于构建一个高效、普惠、开放的异构计算生态系统。这个生态系统将通过多种技术手段,推动AI从云端向终端设备的全面普及,融入到每一个用户的日常体验中。
在此次分享中,Arm推出了第二代可伸缩矩阵扩展(SME2)技术,赋予CPU全新的AI能力。虽然提供的额外2到6TOPS的算力看似微不足道,但这正是Arm对终端AI工作负载深刻理解的体现。
McNiven特别指出,许多AI任务的瓶颈并不在于算力,而是在于内存带宽的限制。SME2技术的优势在于,它能直接在CPU内核中执行,使得CPU能够即时访问缓存和系统内存,从而大幅降低延迟,提升整体性能。
Arm明确表示,SME2并非为运行数百亿参数的大语言模型(LLM)而设计,而是专注于低延迟、小模型、持续在线的任务。比如,设备的语音唤醒、图像实时预处理和情境感知建议等任务,都需要毫秒级的响应速度,并且对能效要求极高。
Arm指出,目前AI性能的关键瓶颈在于内存带宽。许多NPU的峰值算力受到数据获取速度的限制,导致性能无法充分发挥。SME2技术的核心优势在于其集成于CPU核心,使得数据能够以极低延迟访问高速缓存和系统内存,从而在实际应用中提升效率。
与固定功能的NPU不同,搭载SME2的CPU具备完全的可编程性。这意味着开发者能够灵活适配快速演进的AI模型和算法,无需等待硬件更新。更为重要的是,CPU是Arm生态中唯一100%存在的硬件,这为开发者提供了一个一致且免于碎片化的AI加速基础,确保AI功能能够在所有设备上无缝运行。
正如Arm所述,CPU始终是异构计算系统的核心,AI将在CPU、GPU、NPU和云端之间灵活运行。通过SME2,Arm并不打算用CPU取代NPU,而是强化CPU在异构计算系统中的地位,以满足对延迟和灵活性的高要求。
在Arm的AI蓝图中,GPU扮演着不可或缺的角色。Arm的终端事业部副总裁James McNiven表示,AI正在重塑图形领域,未来GPU不仅是图形渲染的工具,更将成为智能视觉的平台。
Arm推出的神经图形(Neural Graphics)概念,强调通过AI技术实现超分辨率、帧生成和降噪等功能,进一步提升用户的视觉体验。Mali G1-Ultra通过在架构中增加专用指令和优化微架构,实现了在典型的int8和FP16 AI工作负载上近乎翻倍的性能提升,为AI超分、游戏内AI增强等应用提供了强有力的支持。
Arm的Neural Technology通过AI驱动帧优化、超级采样和降噪的全新技术,标志着Arm开始将AI深度融入图形管线,为未来的移动光追、AI超分(类似DLSS/FSR)和帧生成技术奠定了坚实的基础。尽管Arm并不制造设备,但其技术正成为移动高性能游戏的基石。
Arm坚持专注于最具价值的核心计算IP(CPU/GPU),并将NPU、ISP等系统级组件的创新空间完全开放给合作伙伴。这种策略不仅保证了基础计算的持续演进,也使得三星、联发科等合作伙伴能够打造出各具特色的SoC产品。
目前,KleidiAI已集成到多个知名框架中,包括PyTorch ExecuTorch、Google LiteRT、阿里巴巴MNN和微软ONNX Runtime。开发者几乎无需额外修改代码,就能直接获得SME2的加速能力,这种“开箱即用”的方式大幅降低了开发门槛,为生态伙伴的快速验证提供了良好的基础。
Arm预计,到2030年,SME与SME2技术将覆盖超过30亿台设备,新增超过100亿TOPS的算力。这无疑将推动整个行业向前迈进,为AI技术的普及和应用提供强大动力。
Arm在本次技术分享日中展现出的前瞻性思维和技术创新,预示着在AI时代,Lumex将成为未来智能生态的基石。随着AI技术的不断发展,Arm的异构计算策略将为终端设备赋予更强大的智能能力,推动AI从云端走向每一个用户的日常生活中。未来,基于Arm架构的设备将无处不在,真正实现智能化的普惠与高效。返回搜狐,查看更多