DeepSeek联合北大开源DSpark:V4推理速度最高提升85%
📖 名词释义
AI Box(又称 AI盒子 / 智能体计算机 / Agent Computer),是一种专门运行 AI Agent 的本地硬件设备,预装智能体应用管理系统,开箱即用,7×24 小时在线运行。用户可以通过微信、飞书、企业微信、钉钉等社交软件远程指挥 AI 帮你干活。
摘要:6月27日,DeepSeek联合北京大学发布推测解码框架DSpark,并开源全栈训练代码库DeepSpec。DSpark已部署于DeepSeek-V4线上业务,在保证输出无损的前提下,Flash版单用户生成速度提升60%-85%,Pro版提升57%-78%。论文和代码已在GitHub开放共享,支持Qwen3、Gemma等主流开源模型。
6月27日周末,DeepSeek在GitHub低调更新了一篇论文,介绍推理加速框架DSpark。没有发布会,没有预告,但技术社区很快就炸了。
原因很简单:DSpark把DeepSeek-V4的生成速度提升了60%到85%,而且输出完全无损。这意味着用户等AI回复的时间直接缩短一大半,体验差距是肉眼可感知的。
推测解码到底在解决什么问题
大语言模型生成文本时,默认是一个token一个token串行输出的。每个token都要跑一遍完整的模型前向计算,就像写作文时每写一个字都要从头重新读一遍题目。
推测解码(Speculative Decoding)的思路是:用一个小的"草稿模型"快速批量猜测接下来几个token,再用大模型一次性验证。猜对了就直接用,猜错了就回退。这样大模型不用每次只产出一个token,而是可以一次验证多个,速度自然快了。
这个技术已存在一段时间,但落地有两个老大难问题:一是草稿模型在长序列末尾的"猜中率"急剧下降,前面猜得挺准,后面越来越离谱;二是高并发场景下,验证调度的计算资源分配很难平衡,容易把省下来的时间又浪费在调度上。
DSpark的两个关键设计
DSpark的论文《Scheduled Speculative Decoding with Semi-Autoregressive Generation》针对这两个问题分别给出了解法。
半自回归架构解决"末尾衰减"
传统推测解码的草稿模型要么纯并行(一次猜N个token,但token之间没有依赖关系,容易猜偏),要么纯串行(一个一个猜,准确但慢)。
DSpark采用半自回归架构:用并行主干网络一次性输出候选token的基础特征,再用轻量串行模块(仅两层Transformer)补充token之间的前后依赖。两层Transformer就能超过五层传统并行模型的性能,兼顾了速度和准确率。
置信度调度校验解决"高并发调度"
验证环节,DSpark没有用固定长度校验,而是引入了置信度调度机制。系统根据前缀通过概率和引擎实时吞吐特征,动态决定每次校验多长的候选序列。高置信度的片段优先验证,低置信度的快速丢弃,减少无效计算。
部署层面采用异步调度模式,逻辑计算和物理计算解耦,规避GPU流水线卡顿,兼容主流CUDA硬件。

实测数据:速度提升有多少
DeepSeek公布了两组核心数据:
| 模型版本 | 速度提升范围 | 对比基线 |
|---|---|---|
| DeepSeek-V4-Flash-DSpark | 60%-85% | MTP-1 |
| DeepSeek-V4-Pro-DSpark | 57%-78% | MTP-1 |
MTP-1是DeepSeek此前生产环境使用的单token推测解码基线。DSpark在保持系统整体吞吐量不变的前提下,将单用户的端到端生成速度提升了60%至85%。
研究团队还用Qwen3-4B做了对比测试。在数学推理、代码编写、日常对话三个任务上,DSpark的单轮有效生成长度全面优于Eagle3和DFlash两类主流基线。以Qwen3-4B为例,相比Eagle3提升30.9%,相比DFlash提升16.3%。
开源了什么:DSpark + DeepSpec
这次开源包含两部分:
DSpark模型权重:包括DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark,可直接部署使用。
DeepSpec代码库:全栈训练工具链,包含数据准备、草稿模型训练、评估脚本。MIT许可证,兼容DSpark、DFlash和Eagle3三种草稿模型算法。开发者可以为Qwen3、Gemma等其他开源模型训练专属的加速模块。
也就是说,你不只能用DeepSeek官方训练好的DSpark,还可以用DeepSpec为自己的模型定制加速方案。这对本地部署和边缘推理场景来说很实用。

对本地AI部署意味着什么
推理速度是大模型落地的一个硬约束。特别是本地部署场景,算力有限,每一点速度提升都很珍贵。
DSpark和DeepSpec的开源,降低了推测解码技术的使用门槛。开发者不用从零搭建加速框架,直接用开源工具链就能为自己的模型训练草稿模型。两层Transformer的轻量串行模块设计,也让加速方案在消费级硬件上跑得动。
铠盒AIBOX的端云协同架构天然适配这种技术趋势。本地Agent调度任务时,可以根据模型是否支持推测解码来动态优化调用策略——支持DSpark的模型优先用于需要长文本生成的任务,不支持的用于短回复场景。这种模型路由策略配合推测解码加速,进一步压低了响应延迟和Token成本。
写在最后
DSpark的发布时间选在周末,没有声张,但技术含金量摆在那里。DeepSeek今年在开源上的节奏很稳:V4模型、DeepSpec训练框架、DSpark加速方案,从模型到训练到推理全链路开源。
对开发者来说,推测解码从"论文里的技术"变成"可以直接用的工具",这个跨度不小。等更多模型支持DSpark加速后,本地推理的速度体验会有一个明显跃升。
延伸阅读
- 铠盒AIBOX-A1产品详情 — 本地部署DeepSeek的性价比之选
- 铠盒AIBOX商城 — 全系列AI智能体计算机,¥999起
- 更多AI前沿文章 — DeepSeek、OpenClaw、智能体计算机深度内容
-#铠盒AIBOX #AI资讯 #本地AI #AIBOX #AI智能体
铠盒AIBOX | 让AI 7×24小时替你干活的智能体计算机 · AI智能体