中昊芯英CTO郑瀚寻：国产AI芯片也将兼容不同平台-Kaiyun科技股份有限公司

中昊芯英CTO郑瀚寻：国产AI芯片也将兼容不同平台

2025-09-26 20:24:57 小编大中小

中昊芯英CTO郑瀚寻：国产AI芯片也将兼容不同平台

　　（Broadcom）水涨船高的订单量和股价大涨背后，少不了众多云服务厂商寻求GPU生态之外技术路线的支持，以谷歌（Google）为代表的TPU（张量计算单元）芯片、Groq为代表的LPU芯片都是其中典型。

　　对于目前市场中XPU广泛发展的情况，中昊芯英联合创始人兼CTO郑瀚寻接受21世纪经济报道记者专访时指出，“在计算技术发展迭代过程中，产业界持续追求更高费效比的路径，可能会逐渐向某个方向收敛，这是可以预见的趋势。”

　　他进一步表示，过去，业界普遍认为ASIC芯片从流片到最终落地应用过程中，需要付出较高成本，但随着专用芯片持续发展，其成本不再那么高昂时，会有越来越多厂商愿意借力自研专用芯片架构，探索推进个性化AI能力落地。这是ASIC芯片备受关注的原因。“好比在架构方面，天下大势，合久必分、分久必合。”

　　郑瀚寻对记者分析，近些年间硅谷涌现出的芯片新玩家，如Groq、SambaNova和Cerebras等，均没有选择GPU或类似GPU架构，而是致力于通过架构创新实现性能和能效突破。

　　“渐进式能力提升难以缩小与的差距，唯有求新求变，才有可能实现类似新能源汽车领域的‘弯道超车’。”他指出。此外，GPU芯片如今取得的成功，更大程度在于的成功，其多年来累积了深厚的工程化实验团队，这已经不是所有后来者可以直接照搬复制的路线。

　　在GPU之外，定制化ASIC芯片早已受到更大关注，无论是近期再度“炸裂”市场的百亿美元订单，还是谷歌持续对TPU自研芯片的演进，都显示出，市场的确对GPU之外的AI计算芯片同样有关注度。

　　中昊芯英选择的就是与谷歌类似的GPTPU路线世纪经济报道记者分析，自从英伟达在旗下Tesla V100系列芯片中加入Tensor Core（张量处理单元）以来，其对CUDA Core在处理单元方面其实并没有呈现剧烈波动、功能实现也没有太大变化，反而是对Tensor Core的数量、支撑功能等方面，每一次迭代都有新亮点。

　　”他进一步指出，尤其在大模型时代，随着处理数据规模的持续扩大，每多N倍数据传输量，张量运算单元就能够完成N的计算量，意味着能实现相对划算的计算效果。倘若简单类比的话，郑瀚寻指出，传统CUDA Core可以理解为是让一群大学生同时完成一道题目，其中CPU是博士生，可以处理很复杂的题目，但该群体中只有一位博士生；GPU由于是多人共同进行运算，看起来会比CPU更能胜任有较大计算量的工作；但TPU更像是一台

　　车产业的发展，在车型内部设计过程中调整了传统燃油车的变速箱、传动装置等配置，由此虽然在物理空间方面有一定限制，但在同样算力数量级的前提下，可以实现更好的数据迁移和存储表现，同时实现更低的能源消耗。“因此可以看到，

　　，不仅在传统深度学习领域，甚至在AI for science和科学模拟等领域，也已经可以通过采用Tensor Core的计算架构受益。”他补充道。

　　大模型持续发展，Scaling Law仍未失效，这意味着运行模型对底层AI算力集群在提出更高要求。如何把“单点能效”持续放大到“集群能效”，是国产XPU芯片面对的进一步挑战。

　　产业链厂商分别针对芯片间、机柜间、间等不同维度，着力应对庞大规模的高速数据传输需求。郑瀚寻对记者表示，很显然，

　　“一方面，在这里可以发挥Tensor Core的优势，通过传输N倍的数据量，完成N的计算量；另一方面，在算力提升后，就要对互联能力发力。TPU芯片的优势在于，谷歌此前推出第三代产品时，已经支持多达千片芯片规模的片间互联。”据介绍，中昊芯英能够支持千卡集群内1024片芯片直接光模块高速片间互联，并且有了千卡集群的落地实践也在探索借助OCS全光互联等新技术方案，来进一步增强自身互联能力。

　　从英伟达的路线来看，其是通过构建InfiniBand高速互联协议，形成公司的一条护城河，市场也一度有声音提到，InfiniBand是更适合大规模

　　集群部署的连接协议。但也因为英伟达相对封闭的态度，令其竞争对手更积极推进以太网协议的发展。这也是多数国产

　　”郑瀚寻对记者分析道，近两年来，头部AI芯片厂商在积极构建以太网联盟，而该技术路线本身无论是物理介质还是带宽能力都实现大幅提升，已经十分具竞争力。“例如特斯拉基于以太网介质和底层推出的TTPoE（Tesla Transport Protocol Over Ethernet）连接协议，能够实现很低延迟。我们基于类似做法，对比特斯拉发布的论文后发现，中昊芯英的互联延迟已经做得比表现更好。”软件生态建设同样不容忽视。由于英伟达建设十余年的CUDA生态为闭源状态，

　　平台均绕不过自主建设软件栈和工具链的过程。“类比手机生态来说，在安卓系统刚起步时，国产手机为了能顺畅运行一款大型

　　，各家也需要对自身系统投入大量精力进行具体优化。”他指出，未来国产AI芯片也将通过持续的工具链完善，实现不同平台间的兼容与流畅体验。当然对于模型本身而言，Transformer架构自2017年提出以来，经历了各种优化和改进，如今，越来越多多模态大模型甚至世界模型也在探索落地。

　　郑瀚寻对21世纪经济报道记者指出，虽然目前大模型仍在迭代，但“万变不离其宗”。“今天市面上绝大多数大语言模型，

　　虽然后续有模型在某些细微环节提出优化方案，但整体结构并未出现根本性变化。”他续称，这也给了AI芯片厂商发展机会，按照1-2年的产品迭代周期，有序推进研发进程。此外，公司团队也在持续关注模型的演进方向，如果有需要，会及时把相关功能落地到芯片中。

上一篇：今日上会！国产GPU摩尔线程下一篇：AI算力深度报告：计算、网络、存储持续升级AI算力行业投资建返回

免费获取策划方案及报价

联系专业的商务顾问，制定方案，专业设计，一对一咨询及其报价详情

服务热线 027-83317177

热门标签

GPU计算

开云（中国大陆官方网站）Kaiyun科技股份有限公司 - 领先的GPU计算与AI算力解决方案

中昊芯英CTO郑瀚寻：国产AI芯片也将兼容不同平台

和讯投顾付斌：英伟达将50亿美元入股英特尔引爆三大产业链机会

大白话解释GPU的算力是怎么算出来的？

交付+安全+运营+部署F5ADSP平台用多维能力助用户赢战A

“渲追光影智形相随”SMARAY渲染引擎产品发布会在横琴圆满