导语
当地时间4月15日,谷歌在年度Cloud Next大会上宣布,其最新多模态大模型Gemini Omni Flash即将进入公开预览阶段。这款被定位为“全能闪电”的模型,不仅延续了Gemini家族在文本、图像、音频、视频上的原生多模态能力,更在推理速度与交互响应延迟上实现“百毫秒级”突破。业界分析认为,此举标志着谷歌正以“闪电迭代”策略加速追赶OpenAI在实时多模态领域的领先地位,并试图将AI从“对话窗口”全面带入“即时感知”时代。

从“全能”到“闪电”:Omni Flash的三大核心升级

据谷歌云AI产品管理总监布拉德·卡尔德威尔(Brad Caldwell)在大会主题演讲中透露,Gemini Omni Flash是继今年2月发布的Gemini 2.0 Flash之后的重大迭代版本,其最大亮点在于“原生实时流式多模态处理”。与此前需先上传文件再等待分析的模型不同,Omni Flash能同时“看、听、读、说”——用户可在视频通话中直接提问,模型将同步分析画面中的物体、背景音以及语音内容,并立即给出结构化应答。

具体而言,该模型的三大技术突破包括:

  1. 亚秒级推理加速:借助谷歌自研的TPU v6e集群与全新的“小波束并行解码”架构,Omni Flash在复杂多模态推理任务上的平均响应时间已压缩至300毫秒以内,较上一代Flash模型提升约70%。这意味着用户可以在实时会议中要求AI“标注这份PDF第3页的图表数据”,并在话音落下的瞬间看到标注结果。

  2. 动态上下文窗口:Omni Flash支持最高200万token的“弹性窗口”,并能依据任务复杂度自动分配计算资源。对于长视频(如1小时新闻发布会)分析,系统会优先提取关键帧与音频片段,再按需展开深度解析,从而平衡速度与精度。

  3. 多模态输出与执行:该模型不仅是“分析者”,更是“行动者”。它能直接生成可交互的3D模型、动态图表甚至代码片段,并调用谷歌生态内的工具(如Google Maps、Workspace套件)执行后续操作。例如,用户对着一张手绘地图拍照,即可让Omni Flash自动生成导航路线并同步到手机地图应用。

企业级应用:从智能客服到工业质检

谷歌在发布会中重点展示了Omni Flash在商业场景中的落地潜力。在“智慧零售”演示中,商店摄像头结合Omni Flash实时分析顾客的停留区域、表情变化及物品取放行为,并即时向店员推送“需补货货架编号”及“潜在顾客需求预测”,全程无需人工干预。

而在工业制造领域,谷歌与西门子联合展示的“缺陷检测”场景尤其引人关注:生产线上的高速相机每0.5秒拍摄一张产品照片,Omni Flash以流式方式逐一比对设计图纸,一旦发现微裂纹或装配偏差,便立即输出维修指令及对应的3D拆解动画。“传统模型需要每张图片单独请求API,延迟导致错误率上升3%-5%,而Omni Flash的流式架构将延迟降低到可以忽略的程度。”西门子数字工业软件VP安娜·施密特在演示后如此评价。

此外,谷歌还宣布Omni Flash将深度集成至Vertex AI平台,企业可通过零代码界面自定义“实时行为触发器”——例如,当直播带货主播提及“限时折扣”时,AI自动在评论区弹出优惠券;当工地监控识别到未戴安全帽的工人,即时向安全员发送提醒。

定价与竞争:谷歌的“性价比闪电战”

在备受关注的定价策略上,谷歌采取了极具攻击性的低定价:Gemini Omni Flash的输入成本为每百万token 0.15美元,输出成本为0.6美元,仅为OpenAI最新实时多模态模型GPT-4o-2025-05的1/3左右。同时,公开预览版提供每月20万次免费调用额度,并承诺在正式版推出后保持该价体系至少6个月。

“我们不想把多模态AI做成奢侈品。”谷歌云CEO托马斯·库里安在接受媒体群访时直言,“Omni Flash的目标是让每一个中小型企业都能用得起实时AI,就像十年前能用得起云计算一样。”这一策略迅速引发市场反应,微软和亚马逊在消息公布后股价小幅下挫。

不过,也有分析师指出,谷歌在开发者生态上仍落后于OpenAI。目前Omni Flash仅原生支持Python和JavaScript SDK,且尚未开放音频流输入的第三方SDK。为此,谷歌在本次大会上同步推出了“谷歌手写SDK”(Google Handwriting SDK)和“实时语音工具包”,试图吸引更多移动端与嵌入式开发者入场。

挑战与展望:实时AI的“最后一公里”难题

尽管技术参数亮眼,但Omni Flash的实际表现仍有待大规模验证。在大会现场的小范围测试中,当同时处理多路高清视频流时,模型的GPU内存消耗出现明显波动,偶有“卡顿后跳过关键帧”的现象。此外,实时多模态处理带来的隐私担忧也在升温——当AI能“看见”家里的一切、听见每一句私语,如何确保数据不被滥用?

谷歌表示,Omni Flash的所有实时处理均支持端侧脱敏:企业可在内部部署本地化TPU节点,确保原始音视频数据不出域;而公有云版本则强制启用差分隐私噪声注入,并计划在未来三个月内通过第三方审计其数据生命周期管理流程。

按照谷歌的时间表,Gemini Omni Flash的公开预览版将于5月20日率先在北美、欧洲、亚太的15个区域上线,年底前覆盖全球所有可用区域。正如卡尔德威尔在演讲最后所强调的:“AI不应是沉默的思考者,而应是即时的协作者。Omni Flash正在把‘你说话,它执行’变成比眨眼更自然的事情。”这场由谷歌掀起的实时多模态旋风,很可能将重新定义人机交互的下一个十年。