产业丨ASIC赶超GPU？-Kaiyun科技股份有限公司

当前位置：首页 > 新闻资讯 > 公司新闻

产业丨ASIC赶超GPU？

2025-09-01 01:15:07 小编大中小

　　TPU的消息在AI圈传开时，整个行业都嗅到了不一样的味道。如今，谷歌、亚马逊AWS、Meta等云服务巨头集体押注自研ASIC，野村证券甚至预测2026年ASIC出货量将首次超越

　　数据显示，其AI GPU在市场价值中的占比超过80%，而ASIC仅为8%-11%。

　　更具颠覆性的是，随着Meta计划2026年量产100万-150万颗MTIA芯片，以及微软2027年启动大规模ASIC部署。

　　野村证券判断：ASIC整体出货量有望在2026年某个时间点超越英伟达GPU。

　　以日均处理海量数据的谷歌为例，其最新一代TPU针对Transformer架构深度优化，计算效率较上一代提升30%以上；

　　亚马逊AWS的Trainium 2则聚焦分布式训练场景，支持千亿参数模型的并行计算。

　　在特定场景下，这些ASIC的表现已逼近甚至部分超越英伟达A100 GPU。

　　谷歌每天处理数十亿次搜索请求，AWS承载着全球数百万企业的云计算需求，Meta的社交平台每秒产生海量交互数据，这些场景的AI任务相对固定，恰好匹配ASIC[定制化]的核心优势。

　　据测算，同等算力下ASIC的功耗可控制在GPU的30%以内，对需要部署数万张卡的云服务商来说，每年节省的电费相当于一个小型电厂的年发电量。

　　如果把芯片世界比作一个工具箱，那么ASIC就是为特定任务量身打造的[专业工匠]，而GPU则是能应对多种场景的[全能选手]。

　　ASIC的核心优势，在于对特定算法的[极致适配]。以大模型推理为例，一旦模型部署，其算法逻辑（如Transformer的注意力机制）、计算流程（输入输出格式、精度需求）会长期固定。

　　ASIC可以直接将这些逻辑[固化]到硬件架构中，去掉GPU中用于通用计算的冗余模块，让硬件资源100%服务于目标任务。

　　谷歌TPU v5e的能效比是英伟达H100的3倍，AWS Trainium 2在推理任务中的性价比比H100高30%-40%，正是这种优化的直接体现。

　　对比更为直观的是运维成本。一块NVIDIAGPU功耗约700瓦，运行大模型时每小时电费约0.56元（按0.8元/度计）；而同等算力的ASIC芯片功耗可控制在200瓦内，同样任务每小时电费仅0.16元。

　　对ChatGPT这样需要数十万台推理芯片支撑的应用来说，这种差距意味着每年数亿元的成本节省。

　　ASIC的崛起还踩中了AI产业的[阶段红利]。当前大模型已从[野蛮生长]的训练阶段，逐步转向[规模化落地]的推理阶段。

　　巴克莱预测，到2026年推理计算需求将占通用人工智能总计算需求的70%以上，是训练需求的4.5倍。

　　推理场景的[算法固化]特性，与ASIC的[专用性]形成完美契合，这也是谷歌、Meta等巨头加速布局的核心逻辑。

　　比特币挖矿早期用CPU，后来转向GPU，但真正实现产业化的是比特大陆的ASIC矿机，其单位能耗的挖矿效率是GPU的千倍级别。

　　当AI模型架构从快速迭代走向相对稳定，ASIC正在重复类似的[效率革命]。

　　尽管ASIC的优势显著，但规模化部署并非坦途。这场算力竞赛的背后，隐藏着产能、技术与风险的多重挑战。

　　产能瓶颈首当其冲。以Meta计划2026年量产的MTIA芯片为例，其依赖台积电CoWoS技术，而当前CoWoS晶圆产能仅能支持30万-40万片，远低于其100万-150万颗的出货目标。

　　更严峻的是，谷歌、AWS、微软等厂商若同步扩产，高端封装产能将成为制约ASIC放量的[卡脖子]环节。

　　台积电虽然计划2025年将CoWoS产能提升50%，但从产能建设到实际投产需12-18个月，短期内难以缓解供需矛盾。

　　技术门槛同样高企。大尺寸CoWoS封装对芯片设计、材料一致性要求极高，系统调试周期长达6-9个月。

　　Meta的MTIA T-V1芯片采用36层高规格PCB与液冷+空冷混合散热，其复杂程度堪比航天级设备，任何设计瑕疵都可能导致量产延期。

　　更隐蔽的风险在于ASIC的[专用性陷阱]。AI模型架构并非一成不变，若未来从Transformer转向新型架构，前期投入的ASIC可能面临[瞬间过时]的风险。

　　黄仁勋曾直言：[一个完美的ASIC在某些工作上表现出色，但在其他方面却很糟糕。一旦AI的工作内容改变，它就会变得毫无用处。]

　　这也是为何谷歌Gemini模型仍同时部署在英伟达GPU上通过[通用+专用]的混合架构对冲技术迭代风险。

　　供应链的[蝴蝶效应]也不容忽视。若Meta、AWS等云服务商集中拉货，高端ABF载板、HBM3E存储芯片、液冷组件等关键物料极易短缺，进一步推高成本并拖慢量产节奏。

　　2024年下半年，HBM内存价格因需求激增上涨30%，这一情景可能在ASIC扩产潮中重演。

　　面对ASIC的挑战，英伟达并未坐以待毙，而是通过技术迭代与生态强化构筑[三重壁垒]。

　　这一策略看似[妥协]，实则通过开放接口扩大生态覆盖，同时保持自身在计算核心上的主导权。

　　硬件参数上，英伟达H100的计算密度较同期ASIC高出约20%，NVLink互连带宽是自研ASIC的1.5倍以上，在训练千亿参数大模型等复杂任务中仍不可替代。

　　生态壁垒更是英伟达的[王牌]。全球超90%的企业AI解决方案基于CUDA开发，从模型训练到部署，开发者已形成深度路径依赖。

　　即便ASIC算力接近GPU，企业也需投入数亿甚至数十亿元重构软件生态，这种[转换成本]构成了最坚固的护城河。

　　正如摩根士丹利分析：[CUDA生态就像一座高速公路网，所有的车都在上面跑，想换路就要重建整个路网。]

　　供应链控制力同样关键。英伟达是HBM内存的最大买家，占据SK海力士70%以上的产能；通过与台积电的深度合作，其获得了最多的CoWoS封装产能分配。

　　当ASIC厂商还在为产能焦虑时，英伟达已通过规模化采购降低边际成本，维持高毛利率优势。

　　黄仁勋的[生态战]策略也在奏效。通过开放NVLink Fusion，英伟达将联发科、Marvell等厂商纳入[朋友圈]，形成[GPU+第三方xPU]的异构计算生态。

　　这种[以我为主、开放合作]的模式，既应对了ASIC的挑战，又巩固了自身在产业链中的核心地位。

　　ASIC的崛起并非意味着GPU的衰落，而是AI算力市场从[一极主导]走向[多元共生]的开始。

　　这场变革的最终结局，更可能是[通用GPU+定制ASIC]的双轨并行格局。

　　英伟达在高端训练市场（如千亿参数模型）仍占据绝对主导，其技术积累与生态优势短期内难以撼动。

　　2025-2026年将是双线并行的过渡期，市场呈现[GPU主导价值、ASIC增长数量]的特征。

　　对主权AI体系，ASIC可能成为突破供应限制的重要路径，但需突破技术积累、人才储备与生态构建的多重障碍。

　　从应用维度看，两者的分工将更加清晰：GPU负责[从0到1]的创新探索，ASIC负责[从1到N]的规模落地。

　　就像超级计算机用于前沿科研，而专用服务器支撑日常数据处理，AI算力市场也将形成[创新与效率]的平衡。

　　行业数据也印证了这一趋势。摩根士丹利预计，AI ASIC市场规模将从2024年的120亿美元增长至2027年的300亿美元，复合增长率达34%，但同期GPU市场仍将保持20%以上的增速。

　　这意味着，ASIC的崛起是在做大AI算力市场的[蛋糕]，而非单纯抢夺GPU的份额。

　　ASIC与GPU的博弈，本质上是AI产业从[通用算力]向[专用效率]进化的缩影。

　　当大模型训练成本从GPT-3时代的千万级飙升至Grok3的数十亿美元级，效率成为不可忽视的核心命题，这为ASIC的崛起提供了土壤。

　　未来的AI算力江湖，不会是[非此即彼]的零和博弈，而是[各擅其长]的共生生态。

　　电子发烧友网：《OpenAI甩出王炸：一个APP干翻整个办公室，ASIC开始逆袭GPU？》

上一篇：AMDRDNA5UDNAGPU配置曝光：最高96个计算单元下一篇：国产GPU渲染引擎破局！沈向洋团队发布AI原生引擎Smara 返回

免费获取策划方案及报价

联系专业的商务顾问，制定方案，专业设计，一对一咨询及其报价详情

服务热线 027-83317177

热门标签

GPU计算

开云（中国大陆官方网站）Kaiyun科技股份有限公司 - 领先的GPU计算与AI算力解决方案

产业丨ASIC赶超GPU？

国产GPU第一股来了！摩尔线程IPO成功过会半年营收超过往3

国产GPU造富狂欢：谁是最大赢家？

5000亿美元市值大挪移：TPU对决GPU谷歌能否终结英伟达

加速构建国产计算产业生态多项国产GPU技术成果发布