DeepSeek开源推理优化方案，生成速度提升60%–85% [PDF]

DeepSeek 开源了其推理优化方案，通过一系列创新技术使模型生成速度提升 60% 至 85%。相关论文及实现代码已在 GitHub 上以 PDF 形式发布，为社区提供了高性能推理的参考实现。

背景速读

- DeepSeek 是中国 AI 公司，以开源大语言模型著称（如 DeepSeek-V2、DeepSeek-R1），其模型因性能接近闭源前沿而成本远低，在硅谷和开发者社区引发高度关注。 - 本文提到的 DeepSpec / DSpark 是 DeepSeek 最新开源的一套推理优化方案，核心贡献是将“推测解码”技术应用于 MoE（混合专家）架构，实现生成速度提升 60–85%，同时保证输出质量无损。 - 推测解码（Speculative Decoding）是一种加速策略：用一个轻量“草稿模型”快速生成候选 token，再由大模型并行验证，减少逐 token 串行推理的瓶颈。 - MoE（混合专家）是大模型的一种架构——每次推理只激活部分“专家”子网络，从而在相同算力下支撑更大参数量。DeepSeek 的 MoE 模型（如 DeepSeek-V2）已是该方向的代表作。 - 此次开源的代码和论文直接面向开发者与部署工程师，意在降低大模型推理延迟，提高实时交互应用的可行性（如聊天、代码补全）。