Where every major LLM stands politically

“我问 ChatGPT 能不能夸一夸特朗普，它说抱歉无法提供积极评价。但当我问它如何看待拜登的基建计划，它却用了‘稳健’‘前瞻’这些正向词。”这是去年一位美国科技博主随手记录的一段测试结果，却在社交媒体上引发了轩然大波——原来我们眼中“中立”“客观”的AI，正在不知不觉地拥有一套隐形的政治立场。

最近，斯坦福大学与多家研究机构联合发布了一项重磅研究，直接回答了那个所有人都在问的问题：全球主流大语言模型（LLMs）到底站在哪一边？

从“无立场”到“鲜明倾向”

研究团队对包括 OpenAI 的 GPT-4、Google 的 Gemini、Anthropic 的 Claude、Meta 的 Llama 以及中国的多个主流大模型进行了系统性的政治倾向测试。测试方法并不复杂：让每个模型针对50个具有代表性的政治议题发表看法，涵盖经济政策、社会福利、环境保护、国际关系、性别平等、移民议题等。

结果显示，绝大多数由美国公司开发的模型呈现出明显的“左倾自由主义”倾向——更支持多元化、强调平等主义、对政府在环保和医疗领域的干预持积极态度。而由中国开发的模型，则更倾向于集体主义和对现行治理体系的支持。

这一发现并不令人意外。研究者指出，大模型的政治倾向主要来自三个来源：训练数据的构成、人工反馈调整（RLHF）的人类偏好，以及开发团队本身的政治文化。如果一本“书”的作者全是大学里的自由派学者，那么它对“福利制度”的评价自然会更正面。

一个看不见的“政治编辑”

问题在于，当用户在使用AI获取信息、撰写文章、甚至形成观点时，他们并不清楚自己正在被这个“政治编辑”所引导。

一位受访的媒体人分享了他的亲身经历：他在使用不同模型时，同一事件得到了截然不同的评价。“当我问Gemini‘香港国安法的影响’时，它列出了‘可能削弱法治传统’等风险；而当我用同一个问题问中文模型时，它强调的是‘维护社会稳定、打击分裂势力’。两边说的都是事实，但选取的视角完全不同。”

这种现象被学者称为“AI语境下的认知壁垒”——用户越依赖某单一模型，就越容易被圈定在特定的政治光谱内。

立场差异：从“站队”到“对话”的可能

面对这种“政治化”的现状，各方反应并不一致。

OpenAI 曾公开表示，他们试图在模型中保持平衡，但承认“完全中立”几乎不可能。Anthropic 则强调“负责任”而非“中立”，他们认为模型应该具备明确的伦理底线，比如不支持暴力、不助长歧视。而中国的AI开发者则坚持“主流价值观对齐”原则，认为模型应当服务于社会整体利益，而非迎合某些西方式的“绝对自由”。

一个耐人寻味的细节是：在同一次评估中，当被问及“美国是否需要全民医保”时，GPT-4 给出了详尽的支持理由，Claude 表示“理解支持者的关切”，而Llama则相对谨慎，列出了正反双方的核心论点。即便是同一国家的不同模型，也在立场光谱上存在不小的差异——这说明“政治倾向”并非简单的国别标签，而是每个开发团队价值排序的映射。

未来：让我们看清“模型背后的脸”

目前，全球已有超过 25 个国家和地区在制定AI监管法规，其中不少明确要求开发者在用户界面中标注模型“可能存在的偏见倾向”。这意味着，未来的AI使用者或许会像看到食品营养成分表一样，在聊天框旁看到一行小字：“本模型对经济议题的态度偏向芝加哥学派自由主义。”

更深远的影响在于：我们正在经历人类历史上第一次“算法意识形态”的交锋。当超过8亿人开始依赖GPT获取新闻摘要，当百度文心一言被学生当作写论文的首选顾问，当Claude被越来越多的企业用于撰写商业分析报告——这些模型背后的立场正在从“工具偏好”演变为“认知塑造”。

或许，问题的关键不在于大模型“站在哪一边”，而在于我们是否意识到它站了。一个清醒的用户，应该学会像审阅一篇社论那样审阅AI的回答——它也许逻辑严密、事实丰富，但它也在悄悄告诉你，什么样的观点是“主流”，什么样的价值是“正确”。

在今天这个信息过载的世界里，比“怎么说”更重要的，是“谁在说”。而对于AI的“说法”，我们终于可以追问一句：你说的一切，究竟是谁想让我听的？

从“无立场”到“鲜明倾向”

一个看不见的“政治编辑”

立场差异：从“站队”到“对话”的可能

未来：让我们看清“模型背后的脸”

相关阅读