2026/3/18 4:32:44
网站建设
项目流程
网站建设淘宝类目,wordpress 免费建站,网站建设论文开题报告范文,关键词排名怎么做上去论文复现:KIVI: 一种无需调优的2位KV缓存量化算法
1. 论文标题
KIVI:一种无需调优的2位KV缓存量化算法,用于在LLM推理中实现更大的批处理大小
2. 论文内容:
本论文针对大语言模型(LLM)推理中KV缓存成为内存和速度瓶颈的问题,提出了一种名为KIVI的2位KV缓存量化方法。研…论文复现:KIVI: 一种无需调优的2位KV缓存量化算法1. 论文标题KIVI:一种无需调优的2位KV缓存量化算法,用于在LLM推理中实现更大的批处理大小2. 论文内容:本论文针对大语言模型(LLM)推理中KV缓存成为内存和速度瓶颈的问题,提出了一种名为KIVI的2位KV缓存量化方法。研究发现,Key缓存中存在少量通道具有极大值,应采用按通道量化;而Value缓存无此模式,应采用按令牌量化。KIVI采用分组策略,将KV缓存分为分组部分(量化存储)和残差部分(全精度存储),在解码时通过分块矩阵乘法结合。实验表明,KIVI可将Llama、Falcon和Mistral等模型的KV缓存压缩至2位,减少2.6倍峰值内存使用,支持最多4倍的批处理大小增加,带来2.35-3.47倍的吞吐量提升,同时在多种生成任务上保持接近全精度的性能。3. 完整代码实现及解释importtorchimporttorch.nnasnnimporttorch