KADC2026实录:鲲鹏昇腾如何用三层架构加速Agent生态落地

Published on: 2026-05-26

KADC2026实录:鲲鹏昇腾如何用三层架构加速Agent生态落地

摘要: 5月22日北京,鲲鹏昇腾开发者大会2026(KADC2026)上,华为交出了一份"国产算力+Agent生态"的答卷。三层智能体架构——底层鲲鹏超节点硬件、中间层openEuler异构融合OS、上层Agent应用——试图从芯片到应用打通全栈国产化路径。CANN全面开源、Mind系列软件升级、2分钟跑通首个Demo的开发者使能计划,释放了一个明确信号:国产算力不再只谈"能跑",开始谈"好用"。


在北京国家会议中心的KADC2026主会场上,华为轮值董事长的一句话让全场安静了三秒:"CPU不再是计算系统中的辅助角色,它是智能体时代的核心调度器。"

这句话的分量,需要放在国产算力的语境里才能理解。过去几年,鲲鹏和昇腾面对的最大质疑不是"性能够不够",而是"生态能不能跟上"。算力硬件可以追,但CUDA的十年生态壁垒、开发者习惯、框架适配——这些才是真正的护城河。

KADC2026给出的答案是一个完整的三层架构。从底层硬件到操作系统到应用框架,华为试图证明:国产算力不仅能跑模型,更能跑Agent。

底层:鲲鹏超节点 + 灵衢互联 + 24TB统一内存池

三层架构的最底层是算力基础设施,也是KADC2026硬件层面最重磅的发布。

鲲鹏超节点将多个鲲鹏920处理器通过高速互联构成一个逻辑上的统一计算节点。单节点提供数千核心的并行计算能力,专门针对Agent工作流中的高并发、低延迟需求优化。

灵衢互联是华为自研的芯片间互联协议,带宽和延迟指标对标NVIDIA的NVLink。在多芯片协同推理场景中,互联带宽直接决定了大模型推理的效率。灵衢的意义在于:国产算力第一次有了从物理层面解决"卡间通信瓶颈"的方案。

24TB统一内存池是最让开发者兴奋的数字。当前大模型推理的最大瓶颈之一就是内存。一个1.5T参数的模型在FP16精度下需要3TB内存加载权重,加上KV Cache和中间激活值,单次推理的内存需求可能达到5TB以上。24TB的统一内存池意味着:在鲲鹏超节点上,可以同时运行多个大模型实例,或者处理超长上下文的Agent任务,无需频繁的内存换入换出。

24TB统一内存池不是一个数字游戏。它解决的是Agent场景中最痛的问题——上下文窗口不够用、多模型切换太慢、并发推理内存不足。

中间层:openEuler异构融合OS

三层架构的中间层是openEuler操作系统,KADC2026上发布的版本新增了"异构融合"能力。

所谓异构融合,是指在同一个操作系统内核中,统一管理鲲鹏CPU、昇腾NPU和其他加速器的计算资源。开发者不需要分别针对不同芯片写不同的调度逻辑,openEuler自动将计算任务分配到最合适的硬件上。

这对Agent开发者意味着什么?

简化部署。 过去部署一个Agent系统,CPU处理逻辑控制、NPU处理模型推理,需要两套不同的调度框架。现在openEuler统一接管,开发者只需声明"这个任务需要NPU",操作系统自动完成资源分配和调度。

动态弹性。 Agent工作流的负载是波动的——有时10个Agent同时跑推理,有时只需要1个Agent做简单调用。openEuler的异构融合调度器可以根据实时负载动态分配NPU资源,避免资源浪费。

故障恢复。 在7×24小时运行的Agent场景中,硬件故障是不可避免的。openEuler支持NPU热替换:一块NPU故障后,运行在上面的模型实例自动迁移到其他NPU,Agent工作流不中断。

文章配图

上层:Agent应用与开发者使能

三层架构的最上层是面向Agent开发者的应用框架和工具链,也是KADC2026最接地气的部分。

CANN全面开源

CANN(Compute Architecture for Neural Networks)是昇腾的算子库和推理加速框架,此前一直是闭源的。KADC2026宣布CANN全面开源,包括50余个代码仓库和800+算子。

开源的意义不仅仅是"代码公开"。对于Agent开发者来说: - 可以针对特定Agent场景优化算子性能 - 可以贡献自定义算子,丰富昇腾生态 - 可以在本地调试和验证推理精度,不依赖黑盒

800+算子覆盖了当前主流大模型(LLaMA、Qwen、DeepSeek等)所需的所有计算操作,这意味着在昇腾上运行这些模型不再需要大量的算子适配工作。

Mind系列软件全面升级

MindSpore、MindSpeed、MindIE三大组件同步升级:

  • MindSpore 3.0:新增Agent编排能力,内置任务分解、工具调用、状态管理的API
  • MindSpeed:训练加速框架,支持万卡集群的分布式训练,通信效率提升40%
  • MindIE:推理引擎,支持动态Batch和连续批处理,Agent场景下吞吐量提升3倍

三个组件的协同关系很清晰:MindSpore定义模型和Agent逻辑,MindSpeed负责高效训练,MindIE负责高效推理。从训练到推理的全链路国产化,终于补上了Agent应用这最后一块拼图。

开发者使能计划

KADC2026最让现场开发者有体感的发布,是"2分钟跑通首个Demo"的使能计划: - 提供预置的Agent模板(客服、文档处理、数据采集等) - 一键部署到昇腾云资源 - 1万卡算力资源免费开放给开发者试用

华为的逻辑是:降低入门门槛比堆砌功能更重要。如果开发者2分钟就能看到Agent在自己的业务数据上跑起来,他们才有动力深入整个技术栈。

CPU角色的转变:从辅助到核心调度

回到开头那句引发全场沉默的话。CPU从"辅助角色"到"核心调度器"的转变,不仅是措辞的变化,更是架构理念的升级。

在GPU/NPU主导的AI计算范式中,CPU长期被视为"打下手"的——负责数据预处理、任务调度和结果后处理,真正"重活"都交给加速器。但在Agent场景中,这个分工模式正在被重新审视。

Agent的核心操作不是矩阵乘法,而是逻辑编排:决定下一步做什么、调用什么工具、如何处理异常、何时把推理任务交给NPU。这些操作的特点是:逻辑复杂但计算量小、分支多但延迟敏感——恰恰是CPU的强项。

鲲鹏超节点的设计正是基于这个理念:用大规模CPU集群处理Agent的调度和编排逻辑,用昇腾NPU处理模型推理,两者通过灵衢互联高速协同。CPU不再是"辅助",而是整个Agent系统的"指挥中心"。

国产算力的Agent机遇

KADC2026释放的信号很明确:国产算力正在从"追平性能"转向"构建生态"。

在传统AI训练和推理场景中,NVIDIA的CUDA生态壁垒极高,国产算力很难在短期内形成差异化优势。但Agent是一个全新的赛道——它需要的不仅是算力,更是调度、编排、工具链和开发者体验。在这些维度上,国产算力和NVIDIA站在同一起跑线上。

鲲鹏的三层架构,本质上是把国产算力的"全栈可控"优势转化为Agent生态的"深度优化"能力。当硬件、OS、框架都由同一团队设计,端到端的优化空间远大于拼凑不同厂商组件的方案。

对于铠盒智能体计算机的用户来说,KADC2026的意义在于:国产算力正在成为Agent落地的可行选择。未来在铠盒产品线上,基于鲲鹏+昇腾的本地Agent方案,将为用户提供更多硬件选择和更强的成本控制能力。


铠盒智能 | 小白也可以使用的7×24小时工作的智能体计算机 · Hermes专区追踪

© KAIHE AI - Agent Computer Specialist