开云(中国大陆官方网站)Kaiyun科技股份有限公司 - 领先的GPU计算与AI算力解决方案

关闭菜单
027-83317177
当前位置: 首页 > 新闻资讯 > 公司新闻

阿里云Aegaeon解决方案:GPU资源利用率提升82%引领AI计算新潮流

2025-10-19 11:43:48 小编

  

阿里云Aegaeon解决方案:GPU资源利用率提升82%引领AI计算新潮流

  在当前人工智能(AI)领域,算力资源的高效利用已成为各大科技公司争相追逐的目标。近日,阿里云提出的创新计算池化解决方案“Aegaeon”成功入选顶级学术会议SOSP2025,这一突破性成果不仅引起了学术界的广泛关注,也为AI模型服务中的GPU资源浪费问题提供了切实的解决方案。SOSP(操作系统原理研讨会)是由ACM SIGOPS主办的计算机系统领域顶级学术会议,每年仅收录数十篇论文,被誉为计算机操作系统领域的“奥斯卡”。此次大会上,系统软件与AI大模型技术的融合成为新的发展趋势,阿里云的Aegaeon方案便是这一趋势的典范。

  在过去的几个月里,阿里云对Aegaeon系统进行了为期超过三个月的Beta测试,结果显示,该系统在服务参数量高达720亿的大型AI模型时,所需的英伟达H20 GPU数量从1192个减少至213个,削减比例高达82%。这一显著的减少不仅意味着阿里云可以大幅降低硬件采购成本,更是为那些依赖成千上万张GPU进行模型服务的大型企业提供了宝贵的经验与借鉴。

  通过数据分析,阿里云发现,现有模型市场中,少数热门模型(例如阿里的Qwen)承载了绝大多数用户请求,而大量不常被调用的“长尾”模型却各自占用大量GPU资源。数据显示,曾有17.7%的GPU算力仅用于处理1.35%的请求,资源闲置现象相当严重。Aegaeon系统通过GPU资源池化的方式,打破了传统“一个模型绑定一个GPU”的低效模式,实现了更高效的资源配置。

  Aegaeon系统的核心创新点在于Token级调度。该系统的多模型混合服务功能能够在每次生成下一个token时动态决定是否切换模型,从而实现精细化管理。通过组件复用、显存精细化管理以及KV缓存同步优化等全栈技术,Aegaeon将模型切换的开销降低了97%。这一技术确保了token级调度的实时性,使得模型切换响应时间可支持亚秒级的快速反应。

  据悉,Aegaeon系统支持单个GPU同时服务多达7个不同模型,相比于现有主流方案,其有效吞吐量提升了1.5至9倍,处理能力提高了2至2.5倍。这一显著的提升,使得AI应用在底层系统软件的优化方面取得了重要进展,成为全球学术界和工业界关注的焦点。

  未来,AI的发展将不仅依赖于硬件算力的简单增长,更需要通过系统级的软件创新来深度挖掘现有硬件的潜力。阿里云的Aegaeon方案正是这一理念的实践者,它为AI模型服务的高效化提供了新的思路与方法。随着计算技术的不断进步和优化,阿里云有望在未来的AI领域中继续引领潮流,推动技术的不断演进。对于广大企业而言,借助Aegaeon这样的创新技术,能够有效提升自身的资源利用率,降低运营成本,进而在竞争激烈的市场中占得先机。返回搜狐,查看更多

联系专业的商务顾问,制定方案,专业设计,一对一咨询及其报价详情
服务热线服务热线 027-83317177
咨询kaiyun全站解决方案 马上咨询
免费获取技术咨询服务
姓名图标
电话图标
QQ图标

联系我们 contact us
027-83317177