SubCube架构解析:1200万Token上下文意味着什么

Published on: 2026-05-25

SubCube架构解析:1200万Token上下文只花Claude 5%的成本,怎么做到的?

摘要: 2026年5月,初创公司Subquadratic推出基于全新稀疏注意力架构SSA(Subquadratic Sparse Attention)的大语言模型SubQ,以1200万Token的超长上下文窗口和仅为Claude 5%的推理成本震撼AI圈。52倍于FlashAttention的prefill加速速度、纯线性扩展的计算复杂度——这意味着什么?一次性加载完整代码库、百万字文档、超大知识库不再是奢望。本文将深入拆解SubCube/SSA架构的核心原理,分析它与传统注意力机制的差异,并探讨超长上下文对本地AI部署的重大意义。

一、1200万Token意味着什么?

先建立一个直觉。

1200万Token ≈ 1800万汉字 ≈ 约600本《红楼梦》的文本量。

这已经超过了: - 一个中等规模企业全部内部文档的总和 - 一个大型开源项目的完整代码库+依赖库+注释+Issue - 一家律所五年积累的全部合同文本 - 一个医疗系统十年的诊疗记录摘要

此前,大模型的上下文窗口一直在缓慢爬升:GPT-4 Turbo的128K、Claude的200K、Gemini的100万Token。但每一次扩展都伴随着推理成本的指数级飙升。1200万Token的上下文如果用传统注意力机制实现,成本将高到任何企业都无法承受。

SubQ用SSA架构做到了——而且成本仅为Claude的5%。

二、传统注意力的"二次方诅咒"

要理解SubCube/SSA的突破,先得理解传统Transformer的根本瓶颈。

标准自注意力的计算复杂度

Transformer的自注意力机制要求每个Token与所有其他Token计算注意力分数。这意味着:

  • 计算量:O(n²),其中n是序列长度
  • 内存占用:O(n²),需要存储注意力矩阵

当n从1万增长到100万时: - 计算量增长:10,000倍 - 内存占用增长:10,000倍

当n增长到1200万时,传统全注意力的计算量和内存需求已经是天文数字。这正是为什么此前没有模型能实现千万级Token的上下文——不是"不想做",而是"做不了"。

各家的应对方案

面对二次方诅咒,业界主要采用了三种策略:

方案 代表 原理 局限
稀疏注意力(学习型) DeepSeek NSA 学习选择哪些Token需要关注 训练成本高,选择可能遗漏关键信息
滑动窗口 + 缓存 Mistral 只关注局部窗口,缓存历史KV 远距离依赖丢失
分层压缩 Gemini 将长序列压缩为更短的表示 压缩损失信息

这些方案都做出了某种妥协——要么牺牲信息完整性,要么牺牲长距离依赖能力,要么两者都牺牲。

三、SSA架构:亚二次稀疏注意力的核心创新

Subquadratic公司的SSA(Subquadratic Sparse Attention)架构,走了一条不同的路。

核心思想:完全亚二次复杂度

SSA的关键在于"完全"——它不是在全注意力基础上做稀疏化(先算全部再丢弃),而是从架构设计上就消除了二次方项:

  • Prefill阶段:O(n)而非O(n²)的复杂度
  • 解码阶段:O(n)而非O(n²)的复杂度
  • 内存占用:O(n)而非O(n²)

这意味着,无论序列多长,计算量的增长始终是线性的。

52倍Prefill加速的技术原理

根据Subquadratic公布的数据,在NVIDIA B200 GPU上运行100万Token的prefill时,SubQ比标准的FlashAttention快52倍。这个加速来自三个层面:

1. 结构化稀疏模式

SSA不使用随机稀疏(容易遗漏关键信息),也不使用可学习稀疏(训练成本高),而是采用数学上可证明的结构化稀疏模式。这种模式保证: - 局部信息完整保留(通过密集局部注意力块) - 全局信息通过稀疏连接传递(通过分层的稀疏跳跃连接) - 关键位置的信息不丢失(通过选择性门控机制)

2. 分层注意力路由

SSA将Token序列划分为多个层级: - 底层:Token级别的密集注意力,捕捉细粒度语义关系 - 中层:块级别的稀疏注意力,捕捉段落级结构 - 高层:全局路由注意力,捕捉文档级主旨

这种分层设计使得信息在不同粒度间高效传递,而不需要在每个层级都进行全量计算。

3. 计算重用与缓存优化

对于超长序列,大量Token的注意力模式是相似的(比如代码中的重复模式、文档中的模板化段落)。SSA通过识别和重用这些模式,避免重复计算,进一步降低实际计算量。

文章配图

四、5%成本:不是打折,是量级差异

SubQ宣称推理成本仅为Claude的5%。具体来说,SubQ每百万Token成本约0.75美元,而Claude Opus每百万Token约15-30美元。

这不是20%的折扣,而是20倍的成本差距。这种量级差异意味着什么?

从商业模式看:长上下文从奢侈品变成日用品

在传统全注意力架构下,100万Token的推理成本足以让中小企业望而却步。而SSA架构让100万Token的推理成本降到可以日常使用的水平。

场景 Token需求 传统架构成本(估算) SSA架构成本(估算)
加载完整项目代码库 50万-200万 $10-$60 $0.5-$1.5
分析年度财务报告 30万-80万 $6-$24 $0.2-$0.6
法律合同全文检索 100万-500万 $20-$150 $0.75-$3.75
企业知识库问答 200万-1200万 $40-$600 $1.5-$9

当成本降低一个量级,使用场景会从"特殊需求"变成"日常操作"。

五、SubQ与同类方案的对比分析

SubQ不是唯一追求超长上下文的方案,但它是唯一从架构层面解决二次方复杂度的。

维度 SubQ (SSA) DeepSeek NSA Gemini 100万 传统全注意力
最大上下文 1200万Token 128K-1M 100万Token 128K-256K
计算复杂度 O(n) O(n×k) O(n×k) O(n²)
Prefill速度 52× FlashAttn ~5-10× ~3-5×
信息完整性 结构化保留 学习选择 压缩损失 完整
推理成本/百万Token ~$0.75 ~$2-5 ~$5-15 ~$15-30

值得注意的是,SubQ目前发布的是1M-Preview版本,1200万Token是架构理论上限,实际验证主要在100万Token级别。对于1200万Token的完整性能验证,还需要等待后续版本。

六、超长上下文对本地AI部署的重大意义

SubCube/SSA架构对本地AI部署是重大利好,原因有三:

1. 本地推理成本的质变

传统大模型在本地运行时,GPU显存是最核心的瓶颈。SSA架构的线性内存占用意味着:同样的显存,可以处理10-100倍的上下文长度。

举例来说,一块24GB显存的GPU: - 传统全注意力模型:最多处理约32K-128K Token - SSA架构模型:理论上可处理约300万-1200万 Token

这意味着中小企业用一台铠盒AI主机,就能拥有此前只有云端大集群才能提供的超长上下文能力。

2. 一次性加载,反复查询

超长上下文的另一个价值是"一次加载,反复查询"模式:

  • 传统模式:每次查询都需要把相关文档切片、检索、拼接成Prompt,成本高且容易遗漏
  • 超长上下文模式:一次性把整个知识库加载到上下文中,后续所有查询都在完整上下文中进行

这种模式特别适合本地部署——知识库敏感数据不出本地,但查询体验和云端一样好。

3. Agent任务链的连续性

Agent执行复杂任务时,往往需要多步推理、多次调用工具,上下文会在过程中不断累积。传统模型的128K上下文很快就会耗尽,Agent不得不丢弃早期信息。1200万Token的上下文意味着Agent可以在更长的任务链中保持完整的记忆,显著提升任务完成质量。

文章配图

七、冷静分析:SSA架构的局限与挑战

任何技术突破都需要冷静看待,SSA架构也不例外。

1. 实际性能尚待验证

目前SubQ发布的是1M-Preview版本,核心性能数据主要来自100万Token级别的测试。1200万Token是架构理论上限,实际效果还需要更大规模的验证。

2. 信息完整性的代价

结构化稀疏虽然理论上保证了信息保留,但在实践中,"结构化"的假设可能不适用于所有类型的数据。对于高度非结构化、信息分布不均匀的文本(如创意写作、对话记录),稀疏模式可能遗漏关键信息。

3. 历史教训

过去几年,类似的"超越Transformer"主张并不少见——Mamba、RWKV等架构都曾在某个指标上宣称超越Transformer,但最终在实际应用中并未形成替代。SSA是否能够真正在大规模生产环境中证明自己,还需要时间检验。

4. 生态兼容性

SSA架构与现有Transformer生态(Hugging Face、vLLM等)的兼容性是一个实际问题。企业迁移到新架构需要重新适配推理框架、量化方案和部署工具链。

八、展望:超长上下文的未来格局

无论SSA架构最终能否全面替代Transformer,它已经证明了一点:二次方复杂度不是大模型上下文长度的宿命。

接下来的竞争格局将是:

  • 传统Transformer阵营:继续优化全注意力机制,通过FlashAttention 3/4、量化、MoE等手段压低成本
  • 稀疏注意力阵营:DeepSeek NSA、SSA等,在保留Transformer框架的前提下降低计算复杂度
  • 非Transformer阵营:Mamba、RWKV、Jamba等,从架构层面替代注意力机制

对用户来说,最好的结果不是某一方"获胜",而是多方竞争持续推动上下文长度的提升和成本的下降。

九、写在最后:超长上下文改变游戏规则

1200万Token上下文、5%的推理成本——这两个数字如果同时成立,将彻底改变AI应用的游戏规则。

  • 代码助手可以一次加载整个项目,无需RAG检索
  • 法律AI可以一次读完所有相关案例,无需切片
  • 企业知识库问答可以一次加载全部文档,无需向量数据库
  • Agent可以在超长任务链中保持完整记忆,无需遗忘

当这些成为现实,本地AI部署的价值将被进一步放大。铠盒AI主机搭配SSA架构模型,中小企业也能拥有企业级超长上下文能力——数据不出本地,成本可控,体验不输云端。

超长上下文时代,正在加速到来。


铠盒智能 | 小白也可以使用的7×24小时工作的智能体计算机 · AI前沿

© KAIHE AI - Agent Computer Specialist