2025-10-22 中国 来源:https://www.ithome.com/0/890/485.htm 领域:信息
关键词:
据IT之家10月18日消息,中国阿里云发布计算池化解决方案“Aegaeon”。该方案突破传统“一模型一GPU”绑定模式,通过Token级虚拟化实现多模型动态共享GPU资源,结合显存精细管理、KV缓存同步优化等技术,将模型切换开销降低97%,支持亚秒级响应。实测显示,在服务720亿参数大模型时,H20 GPU用量从1192个锐减至213个,降幅达82%。这项成果被认为是“首个揭示并解决市场上并发大语言模型服务存在过高成本”的公开工作,为行业提供了全新的优化思路。目前,该方案已落地阿里云百炼平台,显著降低硬件采购成本。