阿里云Aegaeon解决方案：GPU资源利用率提升82%引领AI计算新潮流-Kaiyun科技股份有限公司

阿里云Aegaeon解决方案：GPU资源利用率提升82%引领AI计算新潮流

2025-10-19 11:43:48 小编大中小

阿里云Aegaeon解决方案：GPU资源利用率提升82%引领AI计算新潮流

　　在当前人工智能（AI）领域，算力资源的高效利用已成为各大科技公司争相追逐的目标。近日，阿里云提出的创新计算池化解决方案“Aegaeon”成功入选顶级学术会议SOSP2025，这一突破性成果不仅引起了学术界的广泛关注，也为AI模型服务中的GPU资源浪费问题提供了切实的解决方案。SOSP（操作系统原理研讨会）是由ACM SIGOPS主办的计算机系统领域顶级学术会议，每年仅收录数十篇论文，被誉为计算机操作系统领域的“奥斯卡”。此次大会上，系统软件与AI大模型技术的融合成为新的发展趋势，阿里云的Aegaeon方案便是这一趋势的典范。

　　在过去的几个月里，阿里云对Aegaeon系统进行了为期超过三个月的Beta测试，结果显示，该系统在服务参数量高达720亿的大型AI模型时，所需的英伟达H20 GPU数量从1192个减少至213个，削减比例高达82%。这一显著的减少不仅意味着阿里云可以大幅降低硬件采购成本，更是为那些依赖成千上万张GPU进行模型服务的大型企业提供了宝贵的经验与借鉴。

　　通过数据分析，阿里云发现，现有模型市场中，少数热门模型（例如阿里的Qwen）承载了绝大多数用户请求，而大量不常被调用的“长尾”模型却各自占用大量GPU资源。数据显示，曾有17.7%的GPU算力仅用于处理1.35%的请求，资源闲置现象相当严重。Aegaeon系统通过GPU资源池化的方式，打破了传统“一个模型绑定一个GPU”的低效模式，实现了更高效的资源配置。

　　Aegaeon系统的核心创新点在于Token级调度。该系统的多模型混合服务功能能够在每次生成下一个token时动态决定是否切换模型，从而实现精细化管理。通过组件复用、显存精细化管理以及KV缓存同步优化等全栈技术，Aegaeon将模型切换的开销降低了97%。这一技术确保了token级调度的实时性，使得模型切换响应时间可支持亚秒级的快速反应。

　　据悉，Aegaeon系统支持单个GPU同时服务多达7个不同模型，相比于现有主流方案，其有效吞吐量提升了1.5至9倍，处理能力提高了2至2.5倍。这一显著的提升，使得AI应用在底层系统软件的优化方面取得了重要进展，成为全球学术界和工业界关注的焦点。

　　未来，AI的发展将不仅依赖于硬件算力的简单增长，更需要通过系统级的软件创新来深度挖掘现有硬件的潜力。阿里云的Aegaeon方案正是这一理念的实践者，它为AI模型服务的高效化提供了新的思路与方法。随着计算技术的不断进步和优化，阿里云有望在未来的AI领域中继续引领潮流，推动技术的不断演进。对于广大企业而言，借助Aegaeon这样的创新技术，能够有效提升自身的资源利用率，降低运营成本，进而在竞争激烈的市场中占得先机。返回搜狐，查看更多

上一篇：沐曦股份：深耕GPU领域以技术创新筑牢国产算力基石下一篇：国产GPU厂商沐曦即将上市拟募资3904亿元返回

免费获取策划方案及报价

联系专业的商务顾问，制定方案，专业设计，一对一咨询及其报价详情

服务热线 027-83317177

热门标签

GPU计算

开云（中国大陆官方网站）Kaiyun科技股份有限公司 - 领先的GPU计算与AI算力解决方案

阿里云Aegaeon解决方案：GPU资源利用率提升82%引领AI计算新潮流

CPO为何成为产业“香饽饽”？

联想推出GPU高级服务助力AI工作负载性能提升高达30%

对话群核科技联合创始人兼董事长黄晓煌：如何造锤子、找钉子？

英伟达年内推出RTXPRO6000Blackwell服务器版