DeepSeek开源DSpark投机解码:V4生成速度提升60-85%,推理不算贵了

Published on: 2026-06-28

DeepSeek联合北大开源DSpark:V4推理速度最高提升85%

📖 名词释义

AI Box(又称 AI盒子 / 智能体计算机 / Agent Computer),是一种专门运行 AI Agent 的本地硬件设备,预装智能体应用管理系统,开箱即用,7×24 小时在线运行。用户可以通过微信、飞书、企业微信、钉钉等社交软件远程指挥 AI 帮你干活。

摘要:6月27日,DeepSeek联合北京大学发布推测解码框架DSpark,并开源全栈训练代码库DeepSpec。DSpark已部署于DeepSeek-V4线上业务,在保证输出无损的前提下,Flash版单用户生成速度提升60%-85%,Pro版提升57%-78%。论文和代码已在GitHub开放共享,支持Qwen3、Gemma等主流开源模型。

6月27日周末,DeepSeek在GitHub低调更新了一篇论文,介绍推理加速框架DSpark。没有发布会,没有预告,但技术社区很快就炸了。

原因很简单:DSpark把DeepSeek-V4的生成速度提升了60%到85%,而且输出完全无损。这意味着用户等AI回复的时间直接缩短一大半,体验差距是肉眼可感知的。

推测解码到底在解决什么问题

大语言模型生成文本时,默认是一个token一个token串行输出的。每个token都要跑一遍完整的模型前向计算,就像写作文时每写一个字都要从头重新读一遍题目。

推测解码(Speculative Decoding)的思路是:用一个小的"草稿模型"快速批量猜测接下来几个token,再用大模型一次性验证。猜对了就直接用,猜错了就回退。这样大模型不用每次只产出一个token,而是可以一次验证多个,速度自然快了。

这个技术已存在一段时间,但落地有两个老大难问题:一是草稿模型在长序列末尾的"猜中率"急剧下降,前面猜得挺准,后面越来越离谱;二是高并发场景下,验证调度的计算资源分配很难平衡,容易把省下来的时间又浪费在调度上。

DSpark的两个关键设计

DSpark的论文《Scheduled Speculative Decoding with Semi-Autoregressive Generation》针对这两个问题分别给出了解法。

半自回归架构解决"末尾衰减"

传统推测解码的草稿模型要么纯并行(一次猜N个token,但token之间没有依赖关系,容易猜偏),要么纯串行(一个一个猜,准确但慢)。

DSpark采用半自回归架构:用并行主干网络一次性输出候选token的基础特征,再用轻量串行模块(仅两层Transformer)补充token之间的前后依赖。两层Transformer就能超过五层传统并行模型的性能,兼顾了速度和准确率。

置信度调度校验解决"高并发调度"

验证环节,DSpark没有用固定长度校验,而是引入了置信度调度机制。系统根据前缀通过概率和引擎实时吞吐特征,动态决定每次校验多长的候选序列。高置信度的片段优先验证,低置信度的快速丢弃,减少无效计算。

部署层面采用异步调度模式,逻辑计算和物理计算解耦,规避GPU流水线卡顿,兼容主流CUDA硬件。

文章配图

实测数据:速度提升有多少

DeepSeek公布了两组核心数据:

模型版本 速度提升范围 对比基线
DeepSeek-V4-Flash-DSpark 60%-85% MTP-1
DeepSeek-V4-Pro-DSpark 57%-78% MTP-1

MTP-1是DeepSeek此前生产环境使用的单token推测解码基线。DSpark在保持系统整体吞吐量不变的前提下,将单用户的端到端生成速度提升了60%至85%。

研究团队还用Qwen3-4B做了对比测试。在数学推理、代码编写、日常对话三个任务上,DSpark的单轮有效生成长度全面优于Eagle3和DFlash两类主流基线。以Qwen3-4B为例,相比Eagle3提升30.9%,相比DFlash提升16.3%。

开源了什么:DSpark + DeepSpec

这次开源包含两部分:

DSpark模型权重:包括DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark,可直接部署使用。

DeepSpec代码库:全栈训练工具链,包含数据准备、草稿模型训练、评估脚本。MIT许可证,兼容DSpark、DFlash和Eagle3三种草稿模型算法。开发者可以为Qwen3、Gemma等其他开源模型训练专属的加速模块。

也就是说,你不只能用DeepSeek官方训练好的DSpark,还可以用DeepSpec为自己的模型定制加速方案。这对本地部署和边缘推理场景来说很实用。

文章配图

对本地AI部署意味着什么

推理速度是大模型落地的一个硬约束。特别是本地部署场景,算力有限,每一点速度提升都很珍贵。

DSpark和DeepSpec的开源,降低了推测解码技术的使用门槛。开发者不用从零搭建加速框架,直接用开源工具链就能为自己的模型训练草稿模型。两层Transformer的轻量串行模块设计,也让加速方案在消费级硬件上跑得动。

铠盒AIBOX的端云协同架构天然适配这种技术趋势。本地Agent调度任务时,可以根据模型是否支持推测解码来动态优化调用策略——支持DSpark的模型优先用于需要长文本生成的任务,不支持的用于短回复场景。这种模型路由策略配合推测解码加速,进一步压低了响应延迟和Token成本。

写在最后

DSpark的发布时间选在周末,没有声张,但技术含金量摆在那里。DeepSeek今年在开源上的节奏很稳:V4模型、DeepSpec训练框架、DSpark加速方案,从模型到训练到推理全链路开源。

对开发者来说,推测解码从"论文里的技术"变成"可以直接用的工具",这个跨度不小。等更多模型支持DSpark加速后,本地推理的速度体验会有一个明显跃升。

延伸阅读

-#铠盒AIBOX #AI资讯 #本地AI #AIBOX #AI智能体


铠盒AIBOX | 让AI 7×24小时替你干活的智能体计算机 · AI智能体

推荐产品

铠盒 A1 家用入门款 铠盒 A1 Pro 增强款 铠盒 A2 专业款 铠盒 A2 Pro 进阶款 铠盒 X1 企业款 铠盒 G1 旗舰款
© KAIHE AI - Agent Computer Specialist