SubCube架构解析:1200万Token上下文只花Claude 5%的成本,怎么做到的?
摘要: 2026年5月,初创公司Subquadratic推出基于全新稀疏注意力架构SSA(Subquadratic Sparse Attention)的大语言模型SubQ,以1200万Token的超长上下文窗口和仅为Claude 5%的推理成本震撼AI圈。52倍于FlashAttention的prefill加速速度、纯线性扩展的计算复杂度——这意味着什么?一次性加载完整代码库、百万字文档、超大知识库不再是奢望。本文将深入拆解SubCube/SSA架构的核心原理,分析它与传统注意力机制的差异,并探讨超长上下文对本地AI部署的重大意义。
一、1200万Token意味着什么?
先建立一个直觉。
1200万Token ≈ 1800万汉字 ≈ 约600本《红楼梦》的文本量。
这已经超过了: - 一个中等规模企业全部内部文档的总和 - 一个大型开源项目的完整代码库+依赖库+注释+Issue - 一家律所五年积累的全部合同文本 - 一个医疗系统十年的诊疗记录摘要
此前,大模型的上下文窗口一直在缓慢爬升:GPT-4 Turbo的128K、Claude的200K、Gemini的100万Token。但每一次扩展都伴随着推理成本的指数级飙升。1200万Token的上下文如果用传统注意力机制实现,成本将高到任何企业都无法承受。
SubQ用SSA架构做到了——而且成本仅为Claude的5%。
二、传统注意力的"二次方诅咒"
要理解SubCube/SSA的突破,先得理解传统Transformer的根本瓶颈。
标准自注意力的计算复杂度
Transformer的自注意力机制要求每个Token与所有其他Token计算注意力分数。这意味着:
- 计算量:O(n²),其中n是序列长度
- 内存占用:O(n²),需要存储注意力矩阵
当n从1万增长到100万时: - 计算量增长:10,000倍 - 内存占用增长:10,000倍
当n增长到1200万时,传统全注意力的计算量和内存需求已经是天文数字。这正是为什么此前没有模型能实现千万级Token的上下文——不是"不想做",而是"做不了"。
各家的应对方案
面对二次方诅咒,业界主要采用了三种策略:
| 方案 | 代表 | 原理 | 局限 |
|---|---|---|---|
| 稀疏注意力(学习型) | DeepSeek NSA | 学习选择哪些Token需要关注 | 训练成本高,选择可能遗漏关键信息 |
| 滑动窗口 + 缓存 | Mistral | 只关注局部窗口,缓存历史KV | 远距离依赖丢失 |
| 分层压缩 | Gemini | 将长序列压缩为更短的表示 | 压缩损失信息 |
这些方案都做出了某种妥协——要么牺牲信息完整性,要么牺牲长距离依赖能力,要么两者都牺牲。
三、SSA架构:亚二次稀疏注意力的核心创新
Subquadratic公司的SSA(Subquadratic Sparse Attention)架构,走了一条不同的路。
核心思想:完全亚二次复杂度
SSA的关键在于"完全"——它不是在全注意力基础上做稀疏化(先算全部再丢弃),而是从架构设计上就消除了二次方项:
- Prefill阶段:O(n)而非O(n²)的复杂度
- 解码阶段:O(n)而非O(n²)的复杂度
- 内存占用:O(n)而非O(n²)
这意味着,无论序列多长,计算量的增长始终是线性的。
52倍Prefill加速的技术原理
根据Subquadratic公布的数据,在NVIDIA B200 GPU上运行100万Token的prefill时,SubQ比标准的FlashAttention快52倍。这个加速来自三个层面:
1. 结构化稀疏模式
SSA不使用随机稀疏(容易遗漏关键信息),也不使用可学习稀疏(训练成本高),而是采用数学上可证明的结构化稀疏模式。这种模式保证: - 局部信息完整保留(通过密集局部注意力块) - 全局信息通过稀疏连接传递(通过分层的稀疏跳跃连接) - 关键位置的信息不丢失(通过选择性门控机制)
2. 分层注意力路由
SSA将Token序列划分为多个层级: - 底层:Token级别的密集注意力,捕捉细粒度语义关系 - 中层:块级别的稀疏注意力,捕捉段落级结构 - 高层:全局路由注意力,捕捉文档级主旨
这种分层设计使得信息在不同粒度间高效传递,而不需要在每个层级都进行全量计算。
3. 计算重用与缓存优化
对于超长序列,大量Token的注意力模式是相似的(比如代码中的重复模式、文档中的模板化段落)。SSA通过识别和重用这些模式,避免重复计算,进一步降低实际计算量。

四、5%成本:不是打折,是量级差异
SubQ宣称推理成本仅为Claude的5%。具体来说,SubQ每百万Token成本约0.75美元,而Claude Opus每百万Token约15-30美元。
这不是20%的折扣,而是20倍的成本差距。这种量级差异意味着什么?
从商业模式看:长上下文从奢侈品变成日用品
在传统全注意力架构下,100万Token的推理成本足以让中小企业望而却步。而SSA架构让100万Token的推理成本降到可以日常使用的水平。
| 场景 | Token需求 | 传统架构成本(估算) | SSA架构成本(估算) |
|---|---|---|---|
| 加载完整项目代码库 | 50万-200万 | $10-$60 | $0.5-$1.5 |
| 分析年度财务报告 | 30万-80万 | $6-$24 | $0.2-$0.6 |
| 法律合同全文检索 | 100万-500万 | $20-$150 | $0.75-$3.75 |
| 企业知识库问答 | 200万-1200万 | $40-$600 | $1.5-$9 |
当成本降低一个量级,使用场景会从"特殊需求"变成"日常操作"。
五、SubQ与同类方案的对比分析
SubQ不是唯一追求超长上下文的方案,但它是唯一从架构层面解决二次方复杂度的。
| 维度 | SubQ (SSA) | DeepSeek NSA | Gemini 100万 | 传统全注意力 |
|---|---|---|---|---|
| 最大上下文 | 1200万Token | 128K-1M | 100万Token | 128K-256K |
| 计算复杂度 | O(n) | O(n×k) | O(n×k) | O(n²) |
| Prefill速度 | 52× FlashAttn | ~5-10× | ~3-5× | 1× |
| 信息完整性 | 结构化保留 | 学习选择 | 压缩损失 | 完整 |
| 推理成本/百万Token | ~$0.75 | ~$2-5 | ~$5-15 | ~$15-30 |
值得注意的是,SubQ目前发布的是1M-Preview版本,1200万Token是架构理论上限,实际验证主要在100万Token级别。对于1200万Token的完整性能验证,还需要等待后续版本。
六、超长上下文对本地AI部署的重大意义
SubCube/SSA架构对本地AI部署是重大利好,原因有三:
1. 本地推理成本的质变
传统大模型在本地运行时,GPU显存是最核心的瓶颈。SSA架构的线性内存占用意味着:同样的显存,可以处理10-100倍的上下文长度。
举例来说,一块24GB显存的GPU: - 传统全注意力模型:最多处理约32K-128K Token - SSA架构模型:理论上可处理约300万-1200万 Token
这意味着中小企业用一台铠盒AI主机,就能拥有此前只有云端大集群才能提供的超长上下文能力。
2. 一次性加载,反复查询
超长上下文的另一个价值是"一次加载,反复查询"模式:
- 传统模式:每次查询都需要把相关文档切片、检索、拼接成Prompt,成本高且容易遗漏
- 超长上下文模式:一次性把整个知识库加载到上下文中,后续所有查询都在完整上下文中进行
这种模式特别适合本地部署——知识库敏感数据不出本地,但查询体验和云端一样好。
3. Agent任务链的连续性
Agent执行复杂任务时,往往需要多步推理、多次调用工具,上下文会在过程中不断累积。传统模型的128K上下文很快就会耗尽,Agent不得不丢弃早期信息。1200万Token的上下文意味着Agent可以在更长的任务链中保持完整的记忆,显著提升任务完成质量。

七、冷静分析:SSA架构的局限与挑战
任何技术突破都需要冷静看待,SSA架构也不例外。
1. 实际性能尚待验证
目前SubQ发布的是1M-Preview版本,核心性能数据主要来自100万Token级别的测试。1200万Token是架构理论上限,实际效果还需要更大规模的验证。
2. 信息完整性的代价
结构化稀疏虽然理论上保证了信息保留,但在实践中,"结构化"的假设可能不适用于所有类型的数据。对于高度非结构化、信息分布不均匀的文本(如创意写作、对话记录),稀疏模式可能遗漏关键信息。
3. 历史教训
过去几年,类似的"超越Transformer"主张并不少见——Mamba、RWKV等架构都曾在某个指标上宣称超越Transformer,但最终在实际应用中并未形成替代。SSA是否能够真正在大规模生产环境中证明自己,还需要时间检验。
4. 生态兼容性
SSA架构与现有Transformer生态(Hugging Face、vLLM等)的兼容性是一个实际问题。企业迁移到新架构需要重新适配推理框架、量化方案和部署工具链。
八、展望:超长上下文的未来格局
无论SSA架构最终能否全面替代Transformer,它已经证明了一点:二次方复杂度不是大模型上下文长度的宿命。
接下来的竞争格局将是:
- 传统Transformer阵营:继续优化全注意力机制,通过FlashAttention 3/4、量化、MoE等手段压低成本
- 稀疏注意力阵营:DeepSeek NSA、SSA等,在保留Transformer框架的前提下降低计算复杂度
- 非Transformer阵营:Mamba、RWKV、Jamba等,从架构层面替代注意力机制
对用户来说,最好的结果不是某一方"获胜",而是多方竞争持续推动上下文长度的提升和成本的下降。
九、写在最后:超长上下文改变游戏规则
1200万Token上下文、5%的推理成本——这两个数字如果同时成立,将彻底改变AI应用的游戏规则。
- 代码助手可以一次加载整个项目,无需RAG检索
- 法律AI可以一次读完所有相关案例,无需切片
- 企业知识库问答可以一次加载全部文档,无需向量数据库
- Agent可以在超长任务链中保持完整记忆,无需遗忘
当这些成为现实,本地AI部署的价值将被进一步放大。铠盒AI主机搭配SSA架构模型,中小企业也能拥有企业级超长上下文能力——数据不出本地,成本可控,体验不输云端。
超长上下文时代,正在加速到来。
铠盒智能 | 小白也可以使用的7×24小时工作的智能体计算机 · AI前沿