谷歌：将在公开预览版推出 Gemini Omni Flash。

导语
当地时间4月15日，谷歌在年度Cloud Next大会上宣布，其最新多模态大模型Gemini Omni Flash即将进入公开预览阶段。这款被定位为“全能闪电”的模型，不仅延续了Gemini家族在文本、图像、音频、视频上的原生多模态能力，更在推理速度与交互响应延迟上实现“百毫秒级”突破。业界分析认为，此举标志着谷歌正以“闪电迭代”策略加速追赶OpenAI在实时多模态领域的领先地位，并试图将AI从“对话窗口”全面带入“即时感知”时代。

从“全能”到“闪电”：Omni Flash的三大核心升级

据谷歌云AI产品管理总监布拉德·卡尔德威尔（Brad Caldwell）在大会主题演讲中透露，Gemini Omni Flash是继今年2月发布的Gemini 2.0 Flash之后的重大迭代版本，其最大亮点在于“原生实时流式多模态处理”。与此前需先上传文件再等待分析的模型不同，Omni Flash能同时“看、听、读、说”——用户可在视频通话中直接提问，模型将同步分析画面中的物体、背景音以及语音内容，并立即给出结构化应答。

具体而言，该模型的三大技术突破包括：

亚秒级推理加速：借助谷歌自研的TPU v6e集群与全新的“小波束并行解码”架构，Omni Flash在复杂多模态推理任务上的平均响应时间已压缩至300毫秒以内，较上一代Flash模型提升约70%。这意味着用户可以在实时会议中要求AI“标注这份PDF第3页的图表数据”，并在话音落下的瞬间看到标注结果。
动态上下文窗口：Omni Flash支持最高200万token的“弹性窗口”，并能依据任务复杂度自动分配计算资源。对于长视频（如1小时新闻发布会）分析，系统会优先提取关键帧与音频片段，再按需展开深度解析，从而平衡速度与精度。
多模态输出与执行：该模型不仅是“分析者”，更是“行动者”。它能直接生成可交互的3D模型、动态图表甚至代码片段，并调用谷歌生态内的工具（如Google Maps、Workspace套件）执行后续操作。例如，用户对着一张手绘地图拍照，即可让Omni Flash自动生成导航路线并同步到手机地图应用。

企业级应用：从智能客服到工业质检

谷歌在发布会中重点展示了Omni Flash在商业场景中的落地潜力。在“智慧零售”演示中，商店摄像头结合Omni Flash实时分析顾客的停留区域、表情变化及物品取放行为，并即时向店员推送“需补货货架编号”及“潜在顾客需求预测”，全程无需人工干预。

而在工业制造领域，谷歌与西门子联合展示的“缺陷检测”场景尤其引人关注：生产线上的高速相机每0.5秒拍摄一张产品照片，Omni Flash以流式方式逐一比对设计图纸，一旦发现微裂纹或装配偏差，便立即输出维修指令及对应的3D拆解动画。“传统模型需要每张图片单独请求API，延迟导致错误率上升3%-5%，而Omni Flash的流式架构将延迟降低到可以忽略的程度。”西门子数字工业软件VP安娜·施密特在演示后如此评价。

此外，谷歌还宣布Omni Flash将深度集成至Vertex AI平台，企业可通过零代码界面自定义“实时行为触发器”——例如，当直播带货主播提及“限时折扣”时，AI自动在评论区弹出优惠券；当工地监控识别到未戴安全帽的工人，即时向安全员发送提醒。

定价与竞争：谷歌的“性价比闪电战”

在备受关注的定价策略上，谷歌采取了极具攻击性的低定价：Gemini Omni Flash的输入成本为每百万token 0.15美元，输出成本为0.6美元，仅为OpenAI最新实时多模态模型GPT-4o-2025-05的1/3左右。同时，公开预览版提供每月20万次免费调用额度，并承诺在正式版推出后保持该价体系至少6个月。

“我们不想把多模态AI做成奢侈品。”谷歌云CEO托马斯·库里安在接受媒体群访时直言，“Omni Flash的目标是让每一个中小型企业都能用得起实时AI，就像十年前能用得起云计算一样。”这一策略迅速引发市场反应，微软和亚马逊在消息公布后股价小幅下挫。

不过，也有分析师指出，谷歌在开发者生态上仍落后于OpenAI。目前Omni Flash仅原生支持Python和JavaScript SDK，且尚未开放音频流输入的第三方SDK。为此，谷歌在本次大会上同步推出了“谷歌手写SDK”（Google Handwriting SDK）和“实时语音工具包”，试图吸引更多移动端与嵌入式开发者入场。

挑战与展望：实时AI的“最后一公里”难题

尽管技术参数亮眼，但Omni Flash的实际表现仍有待大规模验证。在大会现场的小范围测试中，当同时处理多路高清视频流时，模型的GPU内存消耗出现明显波动，偶有“卡顿后跳过关键帧”的现象。此外，实时多模态处理带来的隐私担忧也在升温——当AI能“看见”家里的一切、听见每一句私语，如何确保数据不被滥用？

谷歌表示，Omni Flash的所有实时处理均支持端侧脱敏：企业可在内部部署本地化TPU节点，确保原始音视频数据不出域；而公有云版本则强制启用差分隐私噪声注入，并计划在未来三个月内通过第三方审计其数据生命周期管理流程。

按照谷歌的时间表，Gemini Omni Flash的公开预览版将于5月20日率先在北美、欧洲、亚太的15个区域上线，年底前覆盖全球所有可用区域。正如卡尔德威尔在演讲最后所强调的：“AI不应是沉默的思考者，而应是即时的协作者。Omni Flash正在把‘你说话，它执行’变成比眨眼更自然的事情。”这场由谷歌掀起的实时多模态旋风，很可能将重新定义人机交互的下一个十年。

从“全能”到“闪电”：Omni Flash的三大核心升级

企业级应用：从智能客服到工业质检

定价与竞争：谷歌的“性价比闪电战”

挑战与展望：实时AI的“最后一公里”难题

相关阅读