“我问 ChatGPT 能不能夸一夸特朗普,它说抱歉无法提供积极评价。但当我问它如何看待拜登的基建计划,它却用了‘稳健’‘前瞻’这些正向词。”这是去年一位美国科技博主随手记录的一段测试结果,却在社交媒体上引发了轩然大波——原来我们眼中“中立”“客观”的AI,正在不知不觉地拥有一套隐形的政治立场。

最近,斯坦福大学与多家研究机构联合发布了一项重磅研究,直接回答了那个所有人都在问的问题:全球主流大语言模型(LLMs)到底站在哪一边?

从“无立场”到“鲜明倾向”

研究团队对包括 OpenAI 的 GPT-4、Google 的 Gemini、Anthropic 的 Claude、Meta 的 Llama 以及中国的多个主流大模型进行了系统性的政治倾向测试。测试方法并不复杂:让每个模型针对50个具有代表性的政治议题发表看法,涵盖经济政策、社会福利、环境保护、国际关系、性别平等、移民议题等。

结果显示,绝大多数由美国公司开发的模型呈现出明显的“左倾自由主义”倾向——更支持多元化、强调平等主义、对政府在环保和医疗领域的干预持积极态度。而由中国开发的模型,则更倾向于集体主义和对现行治理体系的支持。

这一发现并不令人意外。研究者指出,大模型的政治倾向主要来自三个来源:训练数据的构成、人工反馈调整(RLHF)的人类偏好,以及开发团队本身的政治文化。如果一本“书”的作者全是大学里的自由派学者,那么它对“福利制度”的评价自然会更正面。

一个看不见的“政治编辑”

问题在于,当用户在使用AI获取信息、撰写文章、甚至形成观点时,他们并不清楚自己正在被这个“政治编辑”所引导。

一位受访的媒体人分享了他的亲身经历:他在使用不同模型时,同一事件得到了截然不同的评价。“当我问Gemini‘香港国安法的影响’时,它列出了‘可能削弱法治传统’等风险;而当我用同一个问题问中文模型时,它强调的是‘维护社会稳定、打击分裂势力’。两边说的都是事实,但选取的视角完全不同。”

这种现象被学者称为“AI语境下的认知壁垒”——用户越依赖某单一模型,就越容易被圈定在特定的政治光谱内。

立场差异:从“站队”到“对话”的可能

面对这种“政治化”的现状,各方反应并不一致。

OpenAI 曾公开表示,他们试图在模型中保持平衡,但承认“完全中立”几乎不可能。Anthropic 则强调“负责任”而非“中立”,他们认为模型应该具备明确的伦理底线,比如不支持暴力、不助长歧视。而中国的AI开发者则坚持“主流价值观对齐”原则,认为模型应当服务于社会整体利益,而非迎合某些西方式的“绝对自由”。

一个耐人寻味的细节是:在同一次评估中,当被问及“美国是否需要全民医保”时,GPT-4 给出了详尽的支持理由,Claude 表示“理解支持者的关切”,而Llama则相对谨慎,列出了正反双方的核心论点。即便是同一国家的不同模型,也在立场光谱上存在不小的差异——这说明“政治倾向”并非简单的国别标签,而是每个开发团队价值排序的映射。

未来:让我们看清“模型背后的脸”

目前,全球已有超过 25 个国家和地区在制定AI监管法规,其中不少明确要求开发者在用户界面中标注模型“可能存在的偏见倾向”。这意味着,未来的AI使用者或许会像看到食品营养成分表一样,在聊天框旁看到一行小字:“本模型对经济议题的态度偏向芝加哥学派自由主义。”

更深远的影响在于:我们正在经历人类历史上第一次“算法意识形态”的交锋。当超过8亿人开始依赖GPT获取新闻摘要,当百度文心一言被学生当作写论文的首选顾问,当Claude被越来越多的企业用于撰写商业分析报告——这些模型背后的立场正在从“工具偏好”演变为“认知塑造”。

或许,问题的关键不在于大模型“站在哪一边”,而在于我们是否意识到它站了。一个清醒的用户,应该学会像审阅一篇社论那样审阅AI的回答——它也许逻辑严密、事实丰富,但它也在悄悄告诉你,什么样的观点是“主流”,什么样的价值是“正确”。

在今天这个信息过载的世界里,比“怎么说”更重要的,是“谁在说”。而对于AI的“说法”,我们终于可以追问一句:你说的一切,究竟是谁想让我听的?