2025年,人工智能行业迎来一个令人困惑的现象:一批专注于“评估”(eval)领域的创业公司正加速倒闭。据行业调研机构AI Insights最新统计,过去18个月中,全球范围内超过40%的AI评估类初创企业已停止运营或被迫转型,剩余企业中仅有不到15%实现正向现金流。这不禁让人追问:为何看似需求旺盛的评估赛道,却成了创业者的“坟场”?

评估市场的光环与陷阱

所谓“eval startups”,泛指为AI模型、算法或系统提供性能测试、安全性评估、伦理审查等服务的科技公司。随着大模型、AIGC应用在2024至2025年进入全面爆发期,企业对模型能力验证、合规审查、对抗性测试的需求急剧攀升。市场研究公司Grand View Research的数据显示,2025年全球AI评估服务市场规模预计将突破120亿美元,年复合增长率超过35%。

“这是一个典型的‘看起来很美’的市场。”硅谷风投机构Sequoia Capital合伙人Mark Li在近期的一次行业论坛上坦言,“创业者往往只看到需求爆发,却低估了评估业务的真正难度和变现周期。”

四大致命误区

综合多位创业者、投资人和行业分析师的访谈,eval startups的失败原因可归纳为以下几点:

第一,技术壁垒被严重高估。 许多初创公司试图研发通用的“AI评估引擎”,但事实上,不同场景、不同模型对评估维度的要求差异极大。例如,为医疗诊断模型做评估需要专业医学知识,而为推荐算法做评估则涉及用户心理学。一家名为“EvalHub”的硅谷创业公司曾投入2000万美元开发跨领域评估平台,最终因无法适应客户定制化需求而于2025年3月倒闭。其创始人无奈表示:“每个客户都希望评估方案是‘专为他’设计的,通用工具毫无竞争力。”

第二,商业模式存在根本缺陷。 评估服务本质上是“信任商品”——客户在购买前很难判断评估质量。这导致两个后果:一是低价竞争泛滥,许多公司以每次API调用0.01美元的价格吸引客户,但连成本都无法覆盖;二是付费意愿低,大型科技公司往往自建评估团队,中小企业则倾向于使用开源工具。2024年,开源评估框架“DeepEval”的GitHub星数超过5万,直接冲击了多家初创公司的业务。

第三,监管与合规成本高企。 随着欧盟《人工智能法案》、中国《生成式人工智能服务管理办法》、美国《AI责任法案》等法规在2024-2025年密集落地,评估公司需要同时满足不同司法管辖区的合规要求。这意味着法务和技术投入成倍增加,而初创企业往往缺乏相应资源。一家名为“SafeAI”的英国创业公司因未能通过欧盟数据保护审查,于2025年2月被罚款并强制关闭。

第四,大厂碾压式的竞争态势。 微软、谷歌、亚马逊等巨头纷纷推出内置评估服务的云平台,将模型评估作为配套工具免费提供。相比之下,独立评估创业公司既没有数据优势,也没有客户资源。“当Azure和AWS都把评估功能打包进云服务时,你很难说服客户为‘第三方的评估’额外付费。”资深行业分析师、Forrester Research副总裁Jennifer Lee指出。

幸存者的共同特征

尽管行业整体低迷,仍有少数eval startups活了下来。它们的共性是什么?

研究显示,幸存者大多选择了垂直赛道。例如,专注AI金融风控评估的“RiskEval”公司,通过与多家银行深度绑定,提供基于真实交易数据的动态评估服务,2025年上半年营收增长300%。另一家名为“MediCheck”的公司则专注于医疗影像AI的评估,积累了超过2000万份标注数据,形成护城河。

“评估赛道的未来属于‘专而精’,而非‘大而全’。”知名AI学者、斯坦福大学教授Andrew Ng在最近一次采访中表示,“与其试图评估所有模型,不如成为某个垂直领域评估标准的定义者。”

2025下半场:洗牌将继续

行业专家普遍认为,eval startups的洗牌远未结束。随着AI模型本身向小型化、专业化发展,评估需求将从“通用能力测试”转向“任务级精准度验证”。这意味着,未来能够生存的评估公司,必须具备深厚行业知识、独特数据集以及与客户共创的能力。

与此同时,资本对eval赛道的态度已趋于理性。据PitchBook数据,2025年Q1全球AI评估领域的融资额同比骤降62%,平均单笔融资规模从2024年的800万美元缩水至300万美元。投资人不再追逐“讲故事”的公司,而是关注“有付费客户”的实战派。

或许,正如一位匿名创始人在社交媒体上写下的那句感慨:“评估别人很简单,评估自己最难。”对那些仍坚守在eval赛道的创业者而言,真正的考验不在于技术有多先进,而在于能否在巨头和开源的双重夹击下,找到那个独一无二的生存缝隙。

(完)