LLM为何难以复刻AlphaGo的树搜索奇迹

Published on: 2026-05-27

LLM为何难以复刻AlphaGo的树搜索奇迹

摘要: 2016年AlphaGo击败李世石,震惊世界的不仅是胜负结果,更是其背后蒙特卡洛树搜索(MCTS)所展现的系统性推理能力。与此形成鲜明对比的是,当今大行其道的大语言模型(LLM)采用的是自回归生成方式,一次只预测一个token,缺乏真正的"前瞻思考"。本文深入剖析AlphaGo树搜索机制的技术本质,揭示LLM架构层面的根本性局限,并探讨当前学界将搜索能力引入LLM的主流尝试及其面临的算力困境。理解这一差距,是看清AI下一个突破方向的关键。


一、AlphaGo的树搜索:当AI学会了"推演未来"

2016年3月,首尔四季酒店。AlphaGo执白第37手,落子于棋盘右侧一个看似毫无关联的位置。解说席上的围棋专家们面面相觑——这步棋完全超出了人类经验范畴。最终,这步"天外飞仙"成为整盘棋的胜负手。

AlphaGo的强大,核心不在于它记住了多少棋谱,而在于它拥有一种人类棋手习以为常、但当时的AI却极其稀缺的能力:在决策之前,系统性地模拟未来可能发生的一切。

这种能力的学名叫做蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)

MCTS的工作原理

传统AI程序(比如1997年击败国际象棋冠军卡斯帕罗夫的深蓝)使用的是暴力穷举——把所有走法都算一遍,然后选最好的。但围棋的搜索空间约为10^170,比宇宙原子数还多,暴力穷举根本不可能。

MCTS的精妙之处在于它用"抽样"代替"穷举",通过四个阶段的反复迭代,逐步聚焦于最有价值的搜索方向:

  1. 选择(Selection):从根节点出发,沿着当前评估最好的路径向下探索,直到到达一个尚未完全展开的节点。
  2. 扩展(Expansion):为这个节点添加一个或多个子节点,代表新的可能的走法。
  3. 模拟(Simulation):从这个新节点出发,用快速随机对弈(Rollout)的方式,模拟到对局结束,得到一个胜负结果。
  4. 回溯(Backpropagation):将模拟结果沿着路径反向传播,更新沿途每个节点的胜率估值。

经过成千上万次这样的迭代,MCTS会在搜索树中逐步建立起一个高质量的"局势评估网络"——哪些走法值得深入计算,哪些走法可以果断舍弃,一目了然。

"MCTS的本质,是用计算时间换取决策质量。它不依赖人类知识,而是通过自我对弈不断修正对未来的判断。"

AlphaGo的创新之处在于,它将深度神经网络与MCTS深度融合:策略网络(Policy Network)负责缩小搜索范围,价值网络(Value Network)负责评估局面优劣。神经网络给出"直觉",MCTS负责"验证"——这套组合拳,让AlphaGo的棋力达到了人类顶尖水平都无法企及的高度。


二、LLM的自回归困境:一次只看一步的"短视者"

当我们把目光转向今天风靡全球的大语言模型(GPT、Claude、Gemini等),会发现一个令人震惊的事实:它们的推理方式,与AlphaGo几乎完全相反。

自回归生成的本质局限

LLM的核心工作机制是自回归生成(Autoregressive Generation):给定一段上文,预测下一个最可能出现的token(可以是词、子词或字符);将预测出的token追加到上文,再预测下一个;如此循环,直到生成完整回答。

这种机制在人类看来极其自然——我们说话不也是一句一句、一词一词地组织吗?问题在于,人类在开口之前,大脑已经进行了复杂的内部推演;而LLM在生成每个token的那一刻,它"看到"的未来只有零步。

"LLM不是在做推理,它是在做'下一个词预测'。推理的错觉,来自于海量训练数据中学到的统计规律。"

自回归生成带来了几个根本性局限:

第一,缺乏系统性前瞻。 LLM生成"我认为这个问题的答案是……"时,它并没有在内部真正"想清楚"答案再开口,而是在每个时刻根据当前上下文选择概率最高的延续。这种"边说边想"的模式,在数学证明、代码生成、复杂规划等需要多步推理的任务中,极易出现早期错误被逐步放大、最终无法自拔的问题。

第二,无法自我纠错。 一旦LLM生成了一个错误的token,后续所有预测都建立在这个错误之上。它没有机制说"等一下,我刚才那步不对,让我重新来过"——除非借助外部工具或多轮对话的人工干预。

第三,推理路径单一。 LLM每次只沿着一条路径生成,它不会同时探索"如果这样回答会怎样"和"如果那样回答会怎样"两条路径,然后比较哪个更好。这种"单线程思维",与MCTS的"多路径并行评估"形成了鲜明对比。

文章配图


三、架构层面的根本差异:为什么不能直接"装上MCTS"

既然MCTS这么强大,为什么不直接给LLM装上一个MCTS模块?这个答案触及了两种技术路线在架构哲学层面的根本分歧。

训练目标的差异

AlphaGo(以及其后续版本AlphaZero)的训练目标是最小化搜索树上的价值估计误差,它的整个神经网络架构(ResNet/Transformer)和训练流程,都是为"支持树搜索"这一目的而设计的。价值网络输出的是局面胜率(一个标量),策略网络输出的是走法概率分布(一个向量)——这两个输出恰好可以被MCTS高效地利用和更新。

LLM的训练目标是最大化下一个token的预测准确率。它的输出是一个覆盖整个词表的概率分布(通常数万维),这个输出的设计目的是"生成流畅的文本",而不是"评估某个状态的长期价值"。要让LLM输出一个局面价值标量,需要彻底改变它的输出层和训练目标——这相当于重新设计整个模型。

推理成本的数量级差异

这是更现实的障碍。AlphaGo下一盘棋,需要进行约1000次MCTS模拟(每次模拟包含多次神经网络前向传播),总计算量约为10^17 FLOPS。这个数字看起来很大,但考虑到围棋决策是"离散的、有限的"(棋盘19×19,每步约250种合法走法),这个计算量是可以接受的。

LLM的困境在于:它的"动作空间"是整个词表(通常5万+个token),而每个"动作"的后果又会影响后续所有token的生成概率。 如果要对LLM的每次生成都做MCTS搜索,搜索树的宽度和深度都会爆炸式增长,计算量可能达到AlphaGo的数百倍甚至数千倍。

以GPT-4为例,生成一个token约需要10^12 FLOPS。如果要做1000次MCTS模拟,每次模拟生成20个token(一个简单推理链的长度),那么单次决策的计算量就是:1000 × 20 × 10^12 = 2 × 10^16 FLOPS——这还只是生成一个回答所需的计算,且未考虑搜索树扩展带来的指数增长。

"硬件限制不是借口,而是物理现实。树搜索的本质是用计算换质量,但当计算需求超出硬件能力三个数量级时,这就不再是工程优化问题,而是架构范式问题。"

表示学习的适配难题

MCTS需要一个关键能力:给定任意状态,能够快速评估其价值,并给出各后续动作的概率分布。 AlphaGo的棋盘状态表示(19×19×17的张量)天然适合这种评估。

LLM面临的挑战是:它的"状态"是一段token序列,这段序列的语义高度依赖上下文,且"状态空间"是组合爆炸的(任意长度的任意token组合)。如何为任意一段文本片段学习一个稳定、可靠的价值函数,至今仍是一个开放研究问题。


四、破局尝试:让LLM学会"停下来想一想"

尽管存在上述根本性障碍,学界并没有放弃将搜索能力引入LLM的努力。过去两年,这个方向涌现出了一批令人瞩目的研究成果。

Tree of Thought(ToT):把LLM变成搜索树的导航者

2023年,普林斯顿大学和Google DeepMind联合提出了Tree of Thought(思维树)框架。其核心思想是:不让LLM一次性生成完整回答,而是将推理过程分解为多个中间步骤("思维"),在每个步骤生成多个候选延续,然后用一个评估函数(可以是另一个LLM调用)对每个候选进行打分,保留高分路径、剪掉低分路径,逐步构建出一棵推理树。

ToT在24点游戏、创意写作、迷你填字游戏等任务上取得了显著优于Chain-of-Thought(思维链)的效果。但它的代价也是显而易见的:每个推理步骤需要多次LLM调用(生成候选 + 评估候选),整体计算成本是标准生成的10-100倍。

MCTS-LLM:直接融合蒙特卡洛树搜索

一些研究尝试更直接地将MCTS与LLM结合。代表性工作包括:

  • AlphaCode(DeepMind,2022):在代码生成任务中,先让LLM生成大量候选程序,然后用MCTS类似的筛选机制选出最有希望的候选进行验证。这套方法在Codeforces编程竞赛中达到了人类中等水平。
  • LATS(Language Agent Tree Search,2023):将MCTS的四个阶段(选择-扩展-模拟-回溯)直接映射到LLM Agent的交互循环中,让Agent在决策前先"预演"几步可能的工具调用和环境影响,再决定实际执行哪一步。

这些方法的共同特点是:搜索发生在"LLM调用之间",而不是LLM内部。 LLM本身仍然是自回归的,搜索逻辑由外部框架提供。这种"外挂式搜索"虽然有效,但效率远低于AlphaGo那种"原生搜索"架构。

硬件层面的应对:推理加速与专用芯片

面对搜索带来的算力挑战,业界也在从硬件和系统工程角度寻找出路。

  • 推测解码(Speculative Decoding):用一个小型草稿模型快速生成多个候选token,再用大模型批量验证,可将生成速度提升2-3倍。
  • Tree Attention机制:Google DeepMind在2024年提出的一种新型注意力机制,可以并行计算推理树中多个分支的表示,减少重复计算。
  • 专用推理芯片:Groq、Cerebras等公司推出的专用推理芯片,将LLM推理延迟降低了1-2个数量级,为搜索式推理提供了更宽松的算力预算。

但这些优化最多将搜索成本降低10-100倍,距离MCTS在AlphaGo中的"随心所欲"仍有数量级差距。


五、未来展望:搜索与生成的融合之路

站在2026年的时间节点回望,AlphaGo的树搜索奇迹并非AI发展的终点,而是一个重要的路标——它告诉我们,真正的智能推理需要"前瞻"和"回溯"的能力,而不仅仅是"下一个词预测"的统计惯性。

LLM要突破当前的推理瓶颈,可能需要从以下几个方向寻求突破:

架构革新:下一代基础模型可能需要从根本上重新设计输出表示和训练目标,使其天然支持树搜索或多路径推理评估。这类似于从"自回归语言模型"向"世界模型+规划器"范式的转变。

混合系统:将LLM作为"世界模型"(预测行动后果)和"价值函数"(评估状态优劣),与符号搜索算法(MCTS、A*等)深度整合,构建真正的神经符号推理系统。

算力突破:随着专用AI芯片的持续演进和推理算法的优化,搜索式推理的成本有望在未来3-5年内下降到可接受范围。届时,我们可能会看到"自带MCTS"的新一代基础模型问世。

"AlphaGo的树搜索不是终点,而是一个提问:如果AI能在围棋盘上'想'得比人类更深,为什么不能在更广阔的问题空间中也做到这一点?"

对于关注AI技术落地的从业者而言,理解LLM与搜索式推理之间的鸿沟,有助于更清醒地评估当前技术的适用边界。在需要严格逻辑推理、多步规划或高风险决策的场景中,纯LLM方案仍有显著局限——而这,恰恰是智能体计算机(如KaiheAiBox所代表的新型AI基础设施)可以发挥独特价值的方向:通过Agent架构将LLM的语义理解能力与符号推理、工具调用、搜索规划等模块化能力有机组合,实现"1+1>2"的系统级智能跃升。


参考文献与延伸阅读

  1. Silver et al., "Mastering the game of Go with deep neural networks and tree search", Nature 2016
  2. Yao et al., "Tree of Thoughts: Deliberate Problem Solving with Large Language Models", NeurIPS 2023
  3. DeepMind, "AlphaCode: Competitive programming with large language models", Science 2022
  4. Google DeepMind, "Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters", arXiv 2024

铠盒智能 | 小白也可以使用的7×24小时工作的智能体计算机 · AI前沿追踪

© KAIHE AI - Agent Computer Specialist