近日,一张看似普通的森林照片在国内外社交平台引发热议。照片中只有枯叶、树根、苔藓和零星的石块,乍看之下毫无人迹。然而,发布这张图片的“深度视觉实验室”却抛出一个看似简单的问题:“请找出图片中的人类。”更令人惊讶的是,实验室声称,参与测试的十余种主流人工智能视觉模型全数“翻车”——没有一个算法能准确识别出图片中那个真实存在的人类。

这张图片的“玄机”在于一个几乎完美的伪装。据实验室负责人王博士介绍,图片拍摄于云南西双版纳的一片热带雨林,一位专业伪装爱好者身穿特制“树皮服”,四肢紧贴地面,身体轮廓与周围的树干、落叶纹理高度融合,甚至连肤色都通过手工涂色模拟了当地苔藓的色温。在普通观察者眼中,一旦有人提示“这里藏着一个人”,大部分人能在10至30秒内发现目标;然而若事先不知情,许多人也会先入为主地认为这只是一张风景照。

真正的焦点在于AI的表现。实验室同时将原图喂给了包括ResNet-50、YOLOv5、ViT(视觉Transformer)在内的主流模型。这些模型在日常的人脸检测、行人识别任务中准确率超过99%,但面对这一场景,所有模型均未给出“人类”或“人”的标签,有的模型甚至将伪装者的一部分识别为“枯木”或“岩石”。唯有经过特殊对抗训练的一个实验性模型,在极高阈值下给出了不到30%的置信度“疑似人类”,但随即被滤波器排除。

这一结果再次暴露出当前深度学习视觉系统的根本弱点:对上下文和全局语义的依赖远不如局部特征提取。现代AI在识别人类时,通常依赖于头部、四肢、面部等明显特征点的组合,或者通过运动检测来捕捉轮廓。当这些特征被刻意隐藏、破坏、与环境同化时,模型便会将目标归入干扰项。与此对比,人类视觉系统拥有强大的“格式塔”能力——即使只看见一只手、一截奇特扭曲的“树枝”,大脑也会迅速补全“那可能是人”的假设,再用扫视去验证。

事件发酵后,评论区出现了大量网友自制的“考眼力”图片,甚至发起了一场“AI vs 人类找人大赛”。有网友调侃:“AI输了,但我们赢了快乐。”也有AI研究者对此表示警惕:当前自动驾驶、安防监控等领域高度依赖AI对行人的识别,如果面对刻意伪装的个体,系统可能完全失效。此前美国某自动驾驶公司就曾因未能识别出穿着迷彩服横穿道路的测试员而引发争议。

人工智能专家、清华大学计算机系教授李明在个人社交账号上评论:“这并不是AI的失败,而是提醒我们:不要将‘识别’等同于‘理解’。AI的视觉是统计驱动的模式匹配,而人类的看是有意图的感知。”他建议,未来可以引入更多对抗性训练样本,甚至结合红外、多光谱数据来弥补单纯RGB画面的不足。

截至发稿前,深度视觉实验室宣布将该图片及其标注数据开源,供全球研究者测试和完善算法。实验室还发布了一个在线小游戏:玩家需要在30秒内从三张相似图片中找出隐藏的人类,若闯关成功,可获得实验室的电子证书。短短半天,已有超过50万人次参与,成功率仅为38%。

这张看似玩笑的图片,实则是一面镜子,照出了机器与人类视觉认知之间那道深邃的鸿沟。当AI还在为“是人还是树”纠结时,人类已经笑着按下了鼠标——有时候,我们确实比机器更能“看见”这个世界。