AI智能体下的CPU,或重回"黄金时代"
从GPU中心主义到CPU价值回归
过去两年,AI算力的叙事几乎完全围绕 GPU 展开——算力规模、显存容量、互联带宽,构成了行业讨论的全部重心。在那段以对话模型为主角的周期里,CPU 更像一位低调的调度员,负责数据的迎来送往,而非决定反应快慢的核心角色。
但走到 2026 年,底层逻辑正在被改写。AI 不再只是"回答问题",它开始调用工具、读写代码、编排任务,变身真正的"数字代理人"。当一个 AI 任务需要执行多步推理、调用 API、读写数据库、解析文档,算力游戏规则随之重构。
东吴证券用两个精炼的概括描述了这一转变:"执行控制流 CPU 化"、"记忆体系去 GPU 化"。

被忽视的冷知识:Agent任务中80%-90%耗时在CPU
在对话模型时代,一个用户请求的处理链路非常简单:CPU 将文本转为 token → GPU 运行模型 → CPU 将 token 转回文本。GPU 的计算时间主导了总延迟,CPU 几乎不在性能讨论的范围内。
但当工作负载变成智能体,情况截然不同。一个典型的 Agent 任务涉及频繁的逻辑判断、实时感知和决策闭环。根据 IDC 和多家分析机构的测算,在一个复杂 AI 智能体任务中,CPU 的处理耗时占到了总任务延迟的 80%-90%。
为什么?答案藏在 Agent 的工作机制里:
- 分支指令暴增:传统对话模型一次推理就是一次推理;智能体的行动阶段充满 if/else 判断和系统调用。分支类任务放在 GPU 上执行,控制流发散直接导致算力利用率骤降。而分支预测恰恰是 CPU 微架构几十年持续优化的核心能力。
- KV Cache 迁移:在长上下文场景下,大模型推理产生的 KV Cache 随对话轮次线性增长,很快耗尽 GPU 宝贵的 HBM 容量。业界普遍采用的方案是将 KV Cache 迁移到 CPU 内存——搭配 DDR5/LPDDR5 内存和 CXL 扩展,CPU 成为兼顾吞吐、扩展性和成本效率的最优容器。
- Token 消耗量激增:与标准生成式 AI 相比,Agent 部署的 Token 消耗量增加了 20 到 30 倍。Gartner 甚至预测,到 2027 年将有 40% 的 Agent 项目因基础设施成本超支而被取消。
4 月 8 日,知名半导体分析机构 SemiAnalysis 首席分析师 Dylan Patel 在一次深度访谈中直言:CPU 正面临极其严重的产能短缺。这一判断,正在被市场数据逐一验证。
市场信号:股价暴涨、涨价缺货、一"芯"难求
市场的反应比分析报告更敏锐。英特尔自 2025 年 8 月起悄然开启上涨模式,9 个月内股价累计涨幅接近 330%。
2026 年 4 月 24 日,英特尔发布 2026 财年第一季度财报:单季营收 136 亿美元,同比增长 7%。其中,AI 相关业务营收占比达到 60%,同比增长 40%,成为核心增长引擎。受财报提振,英特尔股价当日盘中一度大涨 27%。
而供需面的信号更为直观:
- 价格普涨:英特尔 CPU 涨价超 30%。消费级 CPU 涨幅 5%-10%,服务器 CPU 涨幅 10%-20%,高端 AI 专用 CPU 涨幅超 25%。供应链消息称,英特尔和 AMD 正在筹划第三季度新一轮涨价。
- 交期拉长:此前 CPU 常规交期仅 1-2 周,当前已拉长到 8-12 周,服务器 CPU 更甚。
- 全品类蔓延:缺货已从高端服务器 CPU 蔓延至全品类,"空仓、断供、二手溢价"成为渠道常态。
继存储芯片之后,CPU 或将成为 AI 算力发展的新瓶颈。

堆核竞赛重启,CPU重回产业C位
需求侧的爆发,正在推动硬件架构层面的集体跃迁。
传统 CPU 厂商集体冲刺超多核架构:AMD Turin 最高可达 192 核;英特尔 Sierra Forest 采用纯能效核设计,核心数可达 144 甚至 288 核。更大的核心数意味着更高的并行度和更低的单位功耗——这正是大规模、长期运行的 Agent 执行环境所需要的。
英伟达也"回头"了。2026 年初,英伟达做了两件看似偏离主业的事:一是掏出 20 亿美元追加认购 CoreWeave 股票,并在其平台上部署专为代理式推理设计的 Vera CPU;二是在下一代 Rubin 架构中大幅提升 CPU 核心数,并开放 NVL72 机柜对 x86 CPU 的支持。
英特尔至强 6 重新定义主控 CPU:每颗处理器最多 192 条 PCIe 5.0 通道,128 个性能核,MRDIMM 内存带宽提升 2.3 倍,CXL 一致性协议推倒内存墙,AMX 新增 FP16 支持——这些能力组合在一起,指向的不再是某一个参数的领先,而是 CPU 成为 AI 加速系统中的系统效率决定者。
中兴 6+(Clearwater Forest)更进一步:首次大规模采用 18A 制程,Foveros Direct 3D 封装,288 个 Darkmont E 核。这不是 PPT,是已在路线图上标注 2026 年交付的产品。
数据说话:CPUGPU配比从1:8走向1:1
AI 算力需求结构正在发生结构性迁移——从"训练主导"转向"推理+智能体驱动"。
在训练阶段,GPU 凭借大规模并行计算占据绝对主导,CPU 仅承担辅助角色,算力典型配比为 1 颗 CPU 搭配 8 颗 GPU(1:8)。但随着智能体应用提速,CPU 需求和用量激增,配比正加速向 1:2 甚至 1:1 演变。
- TrendForce 测算:传统 AI 数据中心每 GW 功率需 3000 万颗 CPU,智能体时代将激增至 1.2 亿颗,需求增幅 3 倍。
- 摩根士丹利测算:到 2030 年,Agentic AI 可能带来 325 亿至 600 亿美元的 CPU 增量市场,对应整体服务器 CPU 市场规模有望超过 1000 亿美元。
- IDC 预测:Agent 年执行任务数将从 2025 年的 440 亿次增加至 2030 年的 415 万亿次,对应年复合增长率 524%。
从 440 亿到 415 万亿——这不是线性增长,而是数量级的跨越。每一次 Agent 任务执行背后,都在拉动 CPU 的持续消耗。Cloud、Edge、Endpoint 多层扩散的算力需求结构,意味着每一个节点几乎必然配置 CPU,而 GPU 反而可能呈现按需部署。
黄金时代的前提:算力基础设施的真正落地
从 GPU 中心主义到 CPU 价值回归,算力版图的位移折射出 AI 应用形态的深刻进化。当推理支出超越训练、Agent 的 Token 消耗量数十倍于单次问答,基础设施的效率命题就不再是"谁的 GPU 更强",而是"整个系统能不能以可持续的成本跑起来"。
海外大厂的堆核竞赛只是表层现象。更深层的变化在于:计算正从"集中训练"转向"分布推理"。当每一个边端节点、每一台微型数据中心、每一个本地 Agent 执行环境都需要 CPU——而且不只是"有就行",而是需要足够的核心数、内存带宽和稳定性——算力基础设施就不再只是云端的命题。
这正是铠盒 AI-BOX 系列所面向的基础设施场景:本地可部署的 AI 算力节点。从 A1 入门级智能体计算机到 G1 桌面 AI 数据中心,每一档产品都在为分布式推理时代提供物理载体。没有足够密度的本地计算节点,CPU 的黄金时代只停留在数据中心层面——而真正需要"落地"的场景,远比数据中心广阔得多。
当 415 万亿次 Agent 任务中有哪怕 1% 需要在本地执行,市场的物理单元就是 4.15 万亿次推理——需要多少本地计算设备来承载?CPU 的黄金时代,云是上半场,本地才是下半场。