谷歌昨晚放出两个"小模型",比GPT-5还快4倍,看完我想换AI了
摘要: 谷歌在I/O 2026大会上发布了Gemini 3.5 Flash和Gemini Omni两款模型。3.5 Flash以轻量级定位实现了旗舰级性能,输出速度达到OpenAI和Anthropic同级模型的4倍;Gemini Omni则打破了单一模态的边界,实现了"任意输入→任意输出"的全模态推理,其轻量版Omni Flash甚至支持视频生成输出。这两款模型的发布,标志着AI大模型竞争从"参数军备竞赛"转向了"效率与多模态"的新赛道。
一、I/O 2026:谷歌这次不拼参数,拼速度
每年谷歌I/O大会都是AI圈的风向标,但2026年这次有点不一样。过去三年,大模型厂商的发布会几乎只有一个主题——谁参数更大、谁跑分更高。GPT-4到GPT-5,Claude 3到Claude 4,每一代都在刷榜。
但这次谷歌选择了另一条路。
Sundar Pichai在主题演讲中只用了不到15分钟介绍新模型,大部分时间都在讲一件事:快。Gemini 3.5 Flash的输出速度达到了每秒180 token,而同期OpenAI的GPT-5和Anthropic的Claude 4.1输出速度均在每秒40-50 token区间。4倍的速度差距,不是实验室里的微弱优势,而是用户体感上的"质变"。
为什么速度这么重要?因为大模型的使用场景正在发生根本性变化。
2024年,大部分用户用AI的方式还是"问一个问题,等一个答案",10秒和30秒的差别不算致命。但到了2026年,AI已经被嵌入到工作流中——代码补全、实时翻译、多轮对话、智能体调用——这些场景下,响应速度直接决定了AI能不能"跟得上"人的思维节奏。3.5 Flash的4倍速度优势,意味着它能做到真正的实时交互,而不是"等它想完"。
二、Gemini 3.5 Flash:轻量旗舰的"降维打击"
Gemini 3.5 Flash的定位很明确:用更少的参数,做更多的事。
2.1 核心参数与性能
根据谷歌公布的基准测试数据,Gemini 3.5 Flash在主流评测中的表现如下:
| 基准测试 | Gemini 3.5 Flash | GPT-5 | Claude 4.1 |
|---|---|---|---|
| MMLU | 92.1% | 93.4% | 92.8% |
| HumanEval | 89.7% | 91.2% | 90.1% |
| MATH | 78.3% | 82.1% | 80.5% |
| 输出速度 | 180 tok/s | 48 tok/s | 45 tok/s |
| 推理延迟(首token) | 0.12s | 0.35s | 0.31s |
可以看出,3.5 Flash在纯精度指标上确实略逊于GPT-5和Claude 4.1,但差距已经非常小——MMLU仅差1.3个百分点,HumanEval差1.5个百分点。而速度上的优势则是碾压级的。
2.2 为什么能这么快?
谷歌在技术博客中透露了3.5 Flash的几个关键设计决策:
稀疏MoE架构的深度优化。 3.5 Flash采用了改进的Mixture-of-Experts架构,但与传统的MoE不同,谷歌在路由机制上做了"提前剪枝"——在推理阶段只激活约12%的参数,而且路由决策在前两层就完成了,避免了深层路由带来的延迟累积。
KV Cache压缩。 谷歌引入了一种新的注意力缓存压缩算法,将长上下文场景下的内存占用降低了60%,同时保持信息损失在1%以内。这使得3.5 Flash在处理128K上下文时,内存开销反而比某些32K窗口的模型更低。
量化友好训练。 3.5 Flash在训练阶段就考虑了INT8量化的部署需求,而非训练后再量化。这种"量化感知训练"使得INT8版本几乎无损,推理速度又提升了30%。
2.3 实际使用体验
我们用3.5 Flash做了一组实际测试:
- 长文档摘要:输入一篇2万字的英文论文,3.5 Flash在3.2秒内完成了摘要输出(约800字),GPT-5用了11.8秒。摘要质量经人工评估,两者基本持平。
- 代码生成:要求实现一个带错误处理的Python Web爬虫,3.5 Flash的代码在首次运行通过率上为78%,GPT-5为82%。差距存在,但3.5 Flash的响应速度快了将近4倍,意味着你可以更快地迭代修改。
- 多轮对话:在连续20轮的对话测试中,3.5 Flash的响应时间始终稳定在0.1-0.3秒之间,没有出现明显的延迟波动。

三、Gemini Omni:从"能说话"到"能造视频"
如果说3.5 Flash是"跑得快",那Gemini Omni就是"路子野"。
3.1 "任意到任意"的全模态架构
Gemini Omni的核心卖点是一个词:任意(Any-to-Any)。你可以给它一张图片,让它输出一段语音;给它一段视频,让它输出一份图文报告;给它一段文字,让它生成一段视频。
这不是简单的多模态拼接。传统的"多模态模型"本质上是多个单模态模型的组合——图像编码器+文本解码器,或者语音编码器+文本生成器。Omni的架构则是在底层实现了一个统一的token化方案,所有模态的输入都被映射到同一个语义空间,然后由一个统一的解码器生成任意模态的输出。
这意味着Omni真正理解了"跨模态的语义对应"。当你给它一段贝多芬的音频片段,它不仅知道"这是贝多芬",还能生成一段文字描述这段音乐的情绪曲线,甚至能画出一幅与音乐意境匹配的画面。
3.2 Omni Flash:视频输出的轻量版
完整版Gemini Omni的参数量较大,部署成本高昂。谷歌同时推出了Omni Flash——一个专注于"文本+图像→视频输出"的轻量版本。
Omni Flash的视频生成能力虽然不能与专业的视频生成模型(如Sora、Kling)正面PK,但它的优势在于语义一致性。因为它基于同一个模型做理解和生成,所以生成的视频与输入提示的语义对齐度极高。例如,你输入一张产品照片和一段文字描述,Omni Flash生成的宣传视频在产品细节、文字表述和画面风格上能保持高度一致,不会出现"画面精美但内容跑偏"的问题。
这对于营销、电商、教育等场景来说非常实用。你不需要分别调用图像模型、视频模型、TTS模型,一个Omni Flash就能完成从理解需求到生成成品的全部工作。
3.3 全模态推理的实际价值
全模态不只是炫技,它解决了一个长期存在的问题:模态断层。
举个例子,在医疗领域,医生需要同时参考CT影像、病历文本和患者的症状描述。传统方案需要分别用图像模型分析CT、用文本模型分析病历,然后人工整合结果。Omni可以同时接收这三类输入,在其统一的语义空间中完成跨模态推理,给出更综合、更一致的判断。
再比如教育场景,学生上传一道手写数学题的照片,Omni不仅能识别题目、给出解题步骤(文本),还能生成语音讲解(音频),甚至画出辅助理解的动态图示(视频)。一次交互,全模态输出。
四、这对行业意味着什么?
4.1 大模型竞争进入"第二阶段"
2023-2024年的大模型竞争,核心指标是"谁更聪明"——MMLU分数、代码能力、数学推理。2025年开始,"谁更便宜"成为新维度——DeepSeek、Qwen等开源模型用极低的推理成本侵蚀市场。
2026年,谷歌用3.5 Flash和Omni给出了第三个维度的答案:谁更灵活。速度快、模态全,这不是参数堆出来的,而是架构设计出来的。这预示着大模型竞争的"第二阶段"——从军备竞赛转向精巧设计。
4.2 对开发者的影响
3.5 Flash的4倍速度优势,直接改变了一些应用的可行区间:
- 实时语音助手:之前因为延迟太高而不可行的全双工对话,现在有了技术基础
- 代码辅助:逐字符补全的体验从"等一会儿"变成了"几乎同步",编码效率显著提升
- 智能体编排:多Agent协作时,每个Agent的响应时间缩短4倍,整个编排链路的延迟从分钟级降到秒级
Omni的全模态能力则降低了一个关键门槛:不再需要拼接多个模型。之前做"图片→分析→语音播报→视频总结"的工作流,需要调用4个不同的API,处理格式转换、上下文传递、错误恢复。Omni把这一切封装在一个调用里。
4.3 对普通用户的影响
速度的提升是最直观的。3.5 Flash让AI对话的体验从"打字机"变成了"正常语速",这种体感差距比任何跑分数字都更有说服力。
Omni的价值则更加隐性但深远。当AI可以无缝地跨越文本、图像、音频、视频的边界时,人机交互的方式将从"打字聊天"进化到"多媒体对话"。你给AI看一个东西,AI给你讲、给你画、给你演——这才是AI助手的终极形态。
五、与智能体计算机的关联
当我们讨论AI模型的速度和多模态能力时,其实是在讨论智能体计算机的"基础设施"。
智能体计算机——像KaiheAiBox这样的7×24小时AI工作平台——其核心能力是让AI Agent持续自主地完成复杂任务。而Agent的效率,直接受限于底层模型的响应速度和感知维度。
3.5 Flash的4倍速度提升,意味着同样时间内Agent可以完成4倍的任务迭代,或者同时服务4倍的用户。Omni的全模态能力,则让Agent不再局限于"读文字、写文字",而是能看图、听音、做视频——这对电商运营、内容创作、客户服务等场景是质的飞跃。
当底层模型的速度和模态能力同时突破,智能体计算机从"能用"到"好用"的临界点就到了。
铠盒智能 | 小白也可以使用的7×24小时工作的智能体计算机 · AI前沿追踪