

(Broadcom)水涨船高的订单量和股价大涨背后,少不了众多云服务厂商寻求GPU生态之外技术路线的支持,以谷歌(Google)为代表的TPU(张量计算单元)芯片、Groq为代表的LPU芯片都是其中典型。
对于目前市场中XPU广泛发展的情况,中昊芯英联合创始人兼CTO郑瀚寻接受21世纪经济报道记者专访时指出,“在计算技术发展迭代过程中,产业界持续追求更高费效比的路径,可能会逐渐向某个方向收敛,这是可以预见的趋势。”
他进一步表示,过去,业界普遍认为ASIC芯片从流片到最终落地应用过程中,需要付出较高成本,但随着专用芯片持续发展,其成本不再那么高昂时,会有越来越多厂商愿意借力自研专用芯片架构,探索推进个性化AI能力落地。这是ASIC芯片备受关注的原因。“好比在架构方面,天下大势,合久必分、分久必合。”
郑瀚寻对记者分析,近些年间硅谷涌现出的芯片新玩家,如Groq、SambaNova和Cerebras等,均没有选择GPU或类似GPU架构,而是致力于通过架构创新实现性能和能效突破。
“渐进式能力提升难以缩小与的差距,唯有求新求变,才有可能实现类似新能源汽车领域的‘弯道超车’。”他指出。此外,GPU芯片如今取得的成功,更大程度在于的成功,其多年来累积了深厚的工程化实验团队,这已经不是所有后来者可以直接照搬复制的路线。
在GPU之外,定制化ASIC芯片早已受到更大关注,无论是近期再度“炸裂”市场的百亿美元订单,还是谷歌持续对TPU自研芯片的演进,都显示出,市场的确对GPU之外的AI计算芯片同样有关注度。
中昊芯英选择的就是与谷歌类似的GPTPU路线世纪经济报道记者分析,自从英伟达在旗下Tesla V100系列芯片中加入Tensor Core(张量处理单元)以来,其对CUDA Core在处理单元方面其实并没有呈现剧烈波动、功能实现也没有太大变化,反而是对Tensor Core的数量、支撑功能等方面,每一次迭代都有新亮点。
”他进一步指出,尤其在大模型时代,随着处理数据规模的持续扩大,每多N倍数据传输量,张量运算单元就能够完成N的计算量,意味着能实现相对划算的计算效果。倘若简单类比的话,郑瀚寻指出,传统CUDA Core可以理解为是让一群大学生同时完成一道题目,其中CPU是博士生,可以处理很复杂的题目,但该群体中只有一位博士生;GPU由于是多人共同进行运算,看起来会比CPU更能胜任有较大计算量的工作;但TPU更像是一台
车产业的发展,在车型内部设计过程中调整了传统燃油车的变速箱、传动装置等配置,由此虽然在物理空间方面有一定限制,但在同样算力数量级的前提下,可以实现更好的数据迁移和存储表现,同时实现更低的能源消耗。“因此可以看到,
,不仅在传统深度学习领域,甚至在AI for science和科学模拟等领域,也已经可以通过采用Tensor Core的计算架构受益。”他补充道。
大模型持续发展,Scaling Law仍未失效,这意味着运行模型对底层AI算力集群在提出更高要求。如何把“单点能效”持续放大到“集群能效”,是国产XPU芯片面对的进一步挑战。
产业链厂商分别针对芯片间、机柜间、间等不同维度,着力应对庞大规模的高速数据传输需求。郑瀚寻对记者表示,很显然,
“一方面,在这里可以发挥Tensor Core的优势,通过传输N倍的数据量,完成N的计算量;另一方面,在算力提升后,就要对互联能力发力。TPU芯片的优势在于,谷歌此前推出第三代产品时,已经支持多达千片芯片规模的片间互联。”据介绍,中昊芯英能够支持千卡集群内1024片芯片直接光模块高速片间互联,并且有了千卡集群的落地实践也在探索借助OCS全光互联等新技术方案,来进一步增强自身互联能力。
从英伟达的路线来看,其是通过构建InfiniBand高速互联协议,形成公司的一条护城河,市场也一度有声音提到,InfiniBand是更适合大规模
集群部署的连接协议。但也因为英伟达相对封闭的态度,令其竞争对手更积极推进以太网协议的发展。这也是多数国产
”郑瀚寻对记者分析道,近两年来,头部AI芯片厂商在积极构建以太网联盟,而该技术路线本身无论是物理介质还是带宽能力都实现大幅提升,已经十分具竞争力。“例如特斯拉基于以太网介质和底层推出的TTPoE(Tesla Transport Protocol Over Ethernet)连接协议,能够实现很低延迟。我们基于类似做法,对比特斯拉发布的论文后发现,中昊芯英的互联延迟已经做得比表现更好。”软件生态建设同样不容忽视。由于英伟达建设十余年的CUDA生态为闭源状态,
平台均绕不过自主建设软件栈和工具链的过程。“类比手机生态来说,在安卓系统刚起步时,国产手机为了能顺畅运行一款大型
,各家也需要对自身系统投入大量精力进行具体优化。”他指出,未来国产AI芯片也将通过持续的工具链完善,实现不同平台间的兼容与流畅体验。当然对于模型本身而言,Transformer架构自2017年提出以来,经历了各种优化和改进,如今,越来越多多模态大模型甚至世界模型也在探索落地。
郑瀚寻对21世纪经济报道记者指出,虽然目前大模型仍在迭代,但“万变不离其宗”。“今天市面上绝大多数大语言模型,
虽然后续有模型在某些细微环节提出优化方案,但整体结构并未出现根本性变化。”他续称,这也给了AI芯片厂商发展机会,按照1-2年的产品迭代周期,有序推进研发进程。此外,公司团队也在持续关注模型的演进方向,如果有需要,会及时把相关功能落地到芯片中。