DeepSeek open-sources inference optimizations with 60–85% faster generation [pdf]

近日，国内人工智能初创公司DeepSeek正式开源其最新的推理优化技术，据官方公布的基准测试结果，该技术能够将大语言模型的文本生成速度提升60%至85%，同时显著降低推理过程中的内存占用。相关技术细节已以PDF论文形式发布在GitHub及arXiv上，引发业内广泛关注。

突破瓶颈：从“能跑”到“快跑”

随着大模型参数规模持续膨胀，推理效率成为落地的核心瓶颈。以DeepSeek的旗舰模型为例，其拥有数千亿参数，虽然模型性能在多项评测中比肩国际顶尖水平，但高昂的推理成本限制了其大规模商业应用。此次开源的优化技术正是针对这一痛点——在不牺牲模型精度的前提下，大幅压缩单次推理的响应时间。

根据DeepSeek团队在技术报告中披露的数据，改进后的推理引擎在A100/H100 GPU上，对常见生成任务（如代码补全、长文档生、对话）的平均时延降低了60%-85%。以生成长度为2048个token的文本为例，优化前需要约2.3秒，优化后仅需0.8秒，提速接近三倍。而在处理连续请求的高并发场景下，吞吐量提升更加明显，最高可达5倍以上。

技术核心：算子和内存的双重“瘦身”

DeepSeek此次开源的优化方案并非单一技巧，而是一套组合拳。技术论文指出，其核心创新包括：

动态稀疏注意力机制：传统Transformer模型在生成每个token时，注意力计算复杂度与序列长度呈平方关系。DeepSeek通过引入基于硬件感知的稀疏化策略，只让每个token与最近邻的关键位置进行注意力计算，大幅减少无效计算。据实测，在保持长文本连贯性的前提下，可将注意力矩阵的稀疏度控制在5%-10%之间。
融合算子与内核重写：开发团队对常见的CUDA内核进行了深度重写，将多个连续的矩阵乘法、归一化、激活函数等操作融合为单次内核调用，降低了内核启动延迟和显存带宽占用。这一优化在H100的推断场景下尤为显著，计算利用率从35%提升到了75%以上。
KV Cache动态淘汰：针对长上下文场景，DeepSeek提出了自适应的KV缓存淘汰机制。该机制基于注意力权重历史，主动丢弃那些不再被后续token关注的早期缓存，从而将显存占用平均降低40%。这意味着原本需要8张A100才能部署的194B模型，现在仅需4-5张即可完成同等吞吐的服务。

开源生态：行业竞争的关键落子

DeepSeek并非唯一在推理优化上发力的玩家。此前，Meta的LLM Compiler、谷歌的Speculative Decoding、以及NVIDIA的TensorRT-LLM等均已推出类似工具。但DeepSeek此次有两个明显差异：一是完全开源，并附带完整的训练和部署文档；二是聚焦于中文大模型场景下的实际优化效果，尤其是对长文档和代码生成的特殊适配。

“我们相信良好的性能不应该被锁在闭源的黑箱里。”DeepSeek在官方公告中表示，“开源不仅能加速社区对高效推理引擎的理解，更能推动整个国产AI生态的成熟。”据了解，该优化代码可无缝集成至vLLM、TGI等主流推理框架中，开发者仅需数行配置即可享受到加速红利。

产业影响：中小厂商或迎“弯道超车”

对于依赖API调用大模型的中小企业而言，推理速度的跃升直接意味着成本的缩减。如果生成速度提升80%，在相同预算下可以处理多出近一倍的用户请求，或者将延迟降低到足以支撑实时交互应用的水平。有分析人士指出，DeepSeek此举可能倒逼其他模型厂商跟进优化开源，加速整个行业的效率竞赛。

不过，也有专家提醒，具体的提速效果因模型架构、硬件环境、任务类型而异。建议开发者在实际落地前，在自身数据分布和部署硬件上进行充分测试。同时，稀疏化虽然降低了计算量，但在极端长文本（如100K token以上）场景下是否仍能保持稳定性，仍需进一步验证。

目前，DeepSeek已将该优化技术的完整代码、配置模板及验证基准托管在GitHub上，并计划在未来更新中支持更多硬件平台（包括国产GPU）和混合精度训练策略。随着这份PDF文件的广泛传播，国内外开发者正争相进行复现和二次开发。大模型推理的效率革命，可能才刚刚开始。

突破瓶颈：从“能跑”到“快跑”

技术核心：算子和内存的双重“瘦身”

开源生态：行业竞争的关键落子

产业影响：中小厂商或迎“弯道超车”

相关阅读