如何评价Sakana AI发布的Fugu Ultra/Fugu，号称多模型编排智能超越Mythos？

近日，日本人工智能初创公司Sakana AI正式发布了其最新多模型编排系统——Fugu Ultra（河豚至尊版），并宣称在综合智能评估中超越了业界知名的Mythos基准系统。这一消息迅速引发技术社区的广泛讨论，业内专家认为，Fugu Ultra所代表的“模型编排”思路或将为AI能力提升开辟新路径。

从单模型到多模型编排：Fugu Ultra的技术内核

Sakana AI以“自然启发的AI系统”著称，其团队此前曾推出过基于进化算法的神经网络设计工具。此次发布的Fugu Ultra，并非传统意义上的单一大型语言模型，而是一个多模型编排框架——它能够动态调度多个不同规模、不同专长的模型协同完成复杂任务。

据官方技术文档披露，Fugu Ultra的核心架构包含一个“路由控制器”与若干专用子模型。控制器根据输入问题的类型、难度和领域，实时选择最合适的模型组合，并通过迭代反馈机制优化输出质量。例如，面对一道数学推理题，系统会优先调用数学专项模型进行逻辑推导，再交给语言模型进行自然语言表述，最后经校验模型确认准确性。

Sakana AI CEO在发布会中表示：“我们不再追求单一模型参数的无限扩张，而是让多个较小模型像交响乐团一样协奏。Fugu Ultra在多项基准测试中，以仅相当于GPT-4 1/5的算力消耗，取得了接近甚至超越GPT-4的成绩。”

“超越Mythos”引争议：测试基准与方法论

“Mythos”并非单一产品，而是业内用于评估多模型编排系统的一套综合基准集合，涵盖逻辑推理、多语言理解、代码生成、创意写作等12个维度。Sakana AI公布的数据显示，Fugu Ultra在10个维度上得分高于Mythos基线，尤其在复杂多步推理和跨领域知识整合方面优势明显。

然而，这一宣称迅速遭到部分研究者的质疑。斯坦福大学AI安全中心研究员李维表示：“Mythos基准本身并非官方标准，而是社区整理的测试集。Sakana AI是否针对该基准进行了过拟合优化，目前尚不清楚。”此外，有测试者指出，Fugu Ultra在少数涉及常识情感理解的题目上出现了矛盾回答，而Mythos基线系统在这些维度表现更稳定。

Sakana AI技术副总裁对此回应称，公司已公开了全部测试代码和部分评估脚本，欢迎第三方复现结果。他同时强调：“超越Mythos并非最终目标，我们更希望展示‘小模型组合’路线的可行性。”

多模型编排：AI发展的第三条道路？

当前AI领域主流技术路径有二：一是扩大单一模型参数规模（如GPT-4、Claude 3），二是引入稀疏化架构（如Mixture of Experts，MoE）。Sakana AI的Fugu Ultra则代表了一条截然不同的思路——将多个现成模型通过智能调度整合，其优势在于：第一，可复用已有开源模型，降低训练成本；第二，易于扩展，新增能力只需添加对应子模型；第三，可部分解决模型遗忘与灾难性退化问题。

不过也有批评声音指出，多模型编排系统引入了额外的推理延迟和网络开销，且路由控制器的设计本身就是一个复杂优化问题。一旦控制器判断失误，后续整个输出质量将急剧下降。

产业界反响：合作与观望并存

Sakana AI已宣布与多家日本企业合作，将Fugu Ultra应用于医疗辅助诊断、工业设计审核等场景。日本电报电话公司（NTT）技术总监表示：“我们在内部测试中，Fugu Ultra在医疗报告摘要生成方面错误率降低了37%，但系统稳定性与Mythos基线相比仍有差距。”

目前，Sakana AI已将Fugu Ultra的基础版本开源，供学术研究使用。但该公司强调，完整的Fugu Ultra（包含商业级路由算法）仅向企业客户授权。

结语

Fugu Ultra的发布，无疑为“多模型编排”这一技术路线注入了强心针。它是否真的“超越Mythos”或许需要更多第三方验证，但可以肯定的是，AI系统的能力边界正在从“更大参数”向“更优组合”延伸。对于整个行业而言，这场关于效率与智能的辩证实验，才刚刚开始。

从单模型到多模型编排：Fugu Ultra的技术内核

“超越Mythos”引争议：测试基准与方法论

多模型编排：AI发展的第三条道路？

产业界反响：合作与观望并存

结语

相关阅读