第23届usenix文件与存储技术会议(fast)在美国圣克拉拉落下帷幕,计算机系章明星、武永卫、郑纬民教授团队与月之暗面公司合作的论文荣获埃里克·里德尔最佳论文奖(erik riedel best paper award)。该论文题为“以键值缓存为中心的以存换算大语言模型推理架构”(mooncake: trading more storage for less computation-a kvcache-centric architecture for serving llm chatbot),第一作者为计算机系博士生秦若愚,指导老师为章明星助理教授。
最佳论文:mooncake架构
获奖论文提出的mooncake系统是月之暗面公司大语言模型服务kimi的底层推理平台。mooncake采用独特的键值缓存(kvcache)为中心的分布式架构,巧妙分离预填充和解码集群,并充分利用推理集群中cpu、dram、ssd和nic等资源,构建独立的kvcache缓存池。其核心创新在于以kvcache为中心的全局缓存和调度机制,在严格满足服务级别目标(slos)的前提下,最大限度地提升吞吐量。
实验结果表明,mooncake在处理长上下文输入方面表现卓越。真实数据测试显示,与基线方法相比,mooncake在满足slos的情况下,有效请求处理能力提升了59%到498%。目前,mooncake已在数千个节点上稳定运行,每日处理超过千亿个token。实际部署中,mooncake的创新架构使kimi在nvidia a800和h800集群上的请求处理能力分别提升了115%和107%。
fast会议是计算机存储领域的顶级盛会,拥有二十余年的历史,在业界享有盛誉,被中国计算机学会(ccf)评为a类国际学术会议。
以上就是清华大学计算机系团队获得第23届usenix文件与存储技术会议(fast25)最佳论文奖的详细内容,更多请关注代码网其它相关文章!
发表评论