DeepSeek开源DSpark投机解码：V4生成速度提升60-85%，推理不算贵了

DeepSeek联合北大开源DSpark：V4推理速度最高提升85%

📖 名词释义

AI Box（又称 AI盒子 / 智能体计算机 / Agent Computer），是一种专门运行 AI Agent 的本地硬件设备，预装智能体应用管理系统，开箱即用，7×24 小时在线运行。用户可以通过微信、飞书、企业微信、钉钉等社交软件远程指挥 AI 帮你干活。

摘要：6月27日，DeepSeek联合北京大学发布推测解码框架DSpark，并开源全栈训练代码库DeepSpec。DSpark已部署于DeepSeek-V4线上业务，在保证输出无损的前提下，Flash版单用户生成速度提升60%-85%，Pro版提升57%-78%。论文和代码已在GitHub开放共享，支持Qwen3、Gemma等主流开源模型。

6月27日周末，DeepSeek在GitHub低调更新了一篇论文，介绍推理加速框架DSpark。没有发布会，没有预告，但技术社区很快就炸了。

原因很简单：DSpark把DeepSeek-V4的生成速度提升了60%到85%，而且输出完全无损。这意味着用户等AI回复的时间直接缩短一大半，体验差距是肉眼可感知的。

推测解码到底在解决什么问题

大语言模型生成文本时，默认是一个token一个token串行输出的。每个token都要跑一遍完整的模型前向计算，就像写作文时每写一个字都要从头重新读一遍题目。

推测解码（Speculative Decoding）的思路是：用一个小的"草稿模型"快速批量猜测接下来几个token，再用大模型一次性验证。猜对了就直接用，猜错了就回退。这样大模型不用每次只产出一个token，而是可以一次验证多个，速度自然快了。

这个技术已存在一段时间，但落地有两个老大难问题：一是草稿模型在长序列末尾的"猜中率"急剧下降，前面猜得挺准，后面越来越离谱；二是高并发场景下，验证调度的计算资源分配很难平衡，容易把省下来的时间又浪费在调度上。

DSpark的两个关键设计

DSpark的论文《Scheduled Speculative Decoding with Semi-Autoregressive Generation》针对这两个问题分别给出了解法。

半自回归架构解决"末尾衰减"

传统推测解码的草稿模型要么纯并行（一次猜N个token，但token之间没有依赖关系，容易猜偏），要么纯串行（一个一个猜，准确但慢）。

DSpark采用半自回归架构：用并行主干网络一次性输出候选token的基础特征，再用轻量串行模块（仅两层Transformer）补充token之间的前后依赖。两层Transformer就能超过五层传统并行模型的性能，兼顾了速度和准确率。

置信度调度校验解决"高并发调度"

验证环节，DSpark没有用固定长度校验，而是引入了置信度调度机制。系统根据前缀通过概率和引擎实时吞吐特征，动态决定每次校验多长的候选序列。高置信度的片段优先验证，低置信度的快速丢弃，减少无效计算。

部署层面采用异步调度模式，逻辑计算和物理计算解耦，规避GPU流水线卡顿，兼容主流CUDA硬件。

文章配图

实测数据：速度提升有多少

DeepSeek公布了两组核心数据：

模型版本	速度提升范围	对比基线
DeepSeek-V4-Flash-DSpark	60%-85%	MTP-1
DeepSeek-V4-Pro-DSpark	57%-78%	MTP-1

MTP-1是DeepSeek此前生产环境使用的单token推测解码基线。DSpark在保持系统整体吞吐量不变的前提下，将单用户的端到端生成速度提升了60%至85%。

研究团队还用Qwen3-4B做了对比测试。在数学推理、代码编写、日常对话三个任务上，DSpark的单轮有效生成长度全面优于Eagle3和DFlash两类主流基线。以Qwen3-4B为例，相比Eagle3提升30.9%，相比DFlash提升16.3%。

开源了什么：DSpark + DeepSpec

这次开源包含两部分：

DSpark模型权重：包括DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark，可直接部署使用。

DeepSpec代码库：全栈训练工具链，包含数据准备、草稿模型训练、评估脚本。MIT许可证，兼容DSpark、DFlash和Eagle3三种草稿模型算法。开发者可以为Qwen3、Gemma等其他开源模型训练专属的加速模块。

也就是说，你不只能用DeepSeek官方训练好的DSpark，还可以用DeepSpec为自己的模型定制加速方案。这对本地部署和边缘推理场景来说很实用。

文章配图

对本地AI部署意味着什么

推理速度是大模型落地的一个硬约束。特别是本地部署场景，算力有限，每一点速度提升都很珍贵。

DSpark和DeepSpec的开源，降低了推测解码技术的使用门槛。开发者不用从零搭建加速框架，直接用开源工具链就能为自己的模型训练草稿模型。两层Transformer的轻量串行模块设计，也让加速方案在消费级硬件上跑得动。

铠盒AIBOX的端云协同架构天然适配这种技术趋势。本地Agent调度任务时，可以根据模型是否支持推测解码来动态优化调用策略——支持DSpark的模型优先用于需要长文本生成的任务，不支持的用于短回复场景。这种模型路由策略配合推测解码加速，进一步压低了响应延迟和Token成本。

写在最后

DSpark的发布时间选在周末，没有声张，但技术含金量摆在那里。DeepSeek今年在开源上的节奏很稳：V4模型、DeepSpec训练框架、DSpark加速方案，从模型到训练到推理全链路开源。

对开发者来说，推测解码从"论文里的技术"变成"可以直接用的工具"，这个跨度不小。等更多模型支持DSpark加速后，本地推理的速度体验会有一个明显跃升。