清华新闻网3月10日电 2月25日至27日,第23届USENIX文件与存储技术会议(USENIX Conference on File and Storage Technologies,FAST)在美国圣克拉拉举行。计算机系教师章明星、武永卫、郑纬民团队和月之暗面公司合作发表的论文“以键值缓存为中心的以存换算大语言模型推理架构”(Mooncake: Trading More Storage for Less Computation-A KVCache-centric Architecture for Serving LLM Chatbot)获得埃里克·里德尔最佳论文奖(Erik Riedel Best Paper Award)。论文的第一作者为计算机系博士生秦若愚,导师为助理教授章明星。

最佳论文奖
该论文提出的系统惭辞辞苍肠补办别是月之暗面公司推出的大语言模型服务碍颈尘颈的底层推理服务平台。Mooncake采用了一种以键值缓存(碍痴颁补肠丑别)为中心的分离架构,不仅将预填充和解码集群分离,还高效利用了推理集群中未充分利用的颁笔鲍、顿搁础惭、厂厂顿和狈滨颁资源,构建了一个独立的碍痴颁补肠丑别缓存池。其核心创新在于以碍痴颁补肠丑别为中心的全局缓存和调度器,旨在严格延迟相关服务级别目标(厂尝翱蝉)下最大化吞吐量。
实验结果显示,Mooncake在处理长上下文输入的场景中表现出色。在使用真实数据进行的测试中,与基线方法相比,Mooncake在符合SLOs的情况下,将有效请求处理能力提升了59%至498%。目前,Mooncake已在数千个节点上运行,每日处理超过1000亿个token。在实际部署中,Mooncake的创新架构使Kimi在NVIDIA A800和H800集群上分别比以前的系统多处理115%和107%的请求。
FAST(File and Storage Technologies)是计算机存储领域的顶级学术会议,已创立二十余年,在存储领域具有重要影响力,被中国计算机学会(CCF)认定为存储系统领域的A类国际学术会议。
供稿:计算机系
编辑:彭稳平
审核:郭玲