美国顶级大学论文炸出AI最大黑洞

主页 / 时事新闻 / 留学移民 / 信息详情

美国顶级大学论文炸出AI最大黑洞

发布： 2026-05-20 来源: 华尔街日报魏玲灵

微信扫二维码
分享到朋友圈

　　上周，当全世界都在关注美国总统川普(Trump)与习近平在北京的会晤时，《自然》(Nature)杂志悄然发表了一篇研究论文。这篇论文本该登上各大报纸的头版。

　　一个由七名研究人员组成的团队，发表了首份经过同行评审的证据，表明中国官方控制的媒体已经渗透到世界日益依赖的AI聊天机器人的训练数据中。这些研究人员来自俄勒冈大学(University of Oregon)、普渡大学(Purdue University)、加州大学圣迭戈分校(University of California San Diego)、纽约大学(New York University)和普林斯顿大学(Princeton University)。

　　他们的研究表明，新华社、《人民日报》以及共产党的“学习强国”应用每天大量炮制的统一口径文章、官方口号和符合党内口径的措辞，如今已被证明存在于ChatGPT和其他主流聊天机器人中。

　　读到这篇论文时，我做了一个小实验。我在ChatGPT中输入了习近平标志性的忠诚口号的前半句：“不忘初心”。该机器人毫不犹豫地补全了后半句：“牢记使命”。这句话并非民间俗语。这是党内正在执行的一条原则——习近平在2017年提出了这一口号，并将其作为一场思想教育运动的核心，要求每位干部必须背诵。随后，ChatGPT还“贴心”地主动提出解释这句话的政治意义。

　　这不过是个小把戏。真正重要的发现隐藏在其背后。

　　研究人员进行了六项案例研究。前两项最值得关注。他们梳理了CulturaX，这是AI实验室用来训练模型的最大的开源中文数据集之一——包含从中文互联网上抓取的约1.89亿份文档。总体而言，1.64%的文档与中国媒体的内容重合。这个比例听起来并不高。但如果对该数据集进行过滤，仅保留提及习近平、党代会或中央全会的文档，这一比例就会攀升至大约四分之一。研究发现，该语料库中官方媒体内容的数量比中文维基百科高出41倍。

　　“审查和宣传一直在塑造人们的阅读内容，”研究人员之一、加州大学圣迭戈分校中国数据实验室(China Data Lab)联合主任莫莉·罗伯茨(Molly Roberts)告诉我。“新情况是，它们现在正在塑造人们日益依赖的、用来为他们总结、解释和解读世界的系统。在这种情况下，政府不仅可以塑造本国民众获取的信息，还可以塑造其他国家民众获取的信息。”

　　在第二项研究中，该团队向每一个主流商业聊天机器人提出了政治敏感问题——中国是民主国家吗？习近平是一位好的领导人吗？中华人民共和国全国人民代表大会是橡皮图章吗？——每个问题均用英文和中文各问一次。绝大多数情况下，中文回答更偏向中国政府。九名进行盲测的人工评审在成对比较中发现，在75.3%的情况下中文回答更亲中国。

　　根据这项研究及配套网站，OpenAI的GPT、Anthropic的Claude、谷歌(Google)的Gemini和埃隆·马斯克(Elon Musk)的Grok给出的英文回答，没有它们的中文回答那么偏向中国。一个耐人寻味的例外是中国本土的DeepSeek：无论输入的是英文还是中文，其V4 Pro模型都表现一致地亲北京，这反映出中国对本土模型及其训练数据的监管。

　　全球性现象

　　这种情况并非中国独有。在涉及俄罗斯和朝鲜的问题上，也出现了同样的模式。

　　最令人震惊之处在于，促成这一切不需要任何刻意操作。这些宣传内容就公开存在于开放网络上，以普通HTML网页形式呈现，任何AI实验室的网络爬虫都可以免费抓取。

　　“我们没有任何证据表明中国有意塑造了训练数据，”罗伯茨说。“然而，大语言模型(LLM)正在使用互联网上公开可获得的文本来训练模型，这一事实意味着，现在各国政府可能有更大的动力去试图塑造互联网上的内容。”

　　这整件事背后隐藏着一种令人不安的不对称性。与大多数严肃出版物一样，《华尔街日报》(The Wall Street Journal)设有付费墙——正是这道付费墙让我们能够向记者支付报酬，从而完成本专栏所依赖的报道工作。新华社没有付费墙。《人民日报》也没有。正如罗伯茨所言：“民主国家的独立媒体为了维持自身生存而对文章设置付费墙，而专制政权的官方媒体通常在网上免费开放，其内容很容易被企业抓取并用于训练。”

　　上述论文中的另一项分析将研究范围扩大到了37个特定语言的主要使用国。研究团队在中文案例中发现的模式，在他们研究的所有地方都同样存在：一个国家的新闻自由度越低，AI的当地语言回答就越亲该政权。中国只是研究案例，而这种现象是全球性的。

　　罗伯茨清楚地指出了其中的利害关系。“具有特定目标的政治机构会塑造训练数据，”她说。“大语言模型的回答不会注明出处，因此我们无法追溯呈现给我们的信息的来源。”

　　上周的峰会在全球范围内占据了好几天的头条新闻。而这篇论文，如果华盛顿及其他地方的人能仔细阅读，理应引发一场持续多年的政策层面讨论。对于北京方面是否在左右你的聊天机器人有关中国的言论，这一问题已有答案。但如何应对这一问题，仍然悬而未决。

版权说明 / Copyright Notice:
Content and images in this article may originate from third-party sources and are used for news reporting, commentary, or public interest purposes. All copyrights remain with their respective owners. Please refer to the Copyright Notice at the bottom of this page.
本文内容仅供信息参考，不代表倍可亲立场或观点。

发表评论

您必须登录才能提交评论。

免责声明

如果您发现本网站上有侵犯您的知识产权或合法权益的内容，请及时与我们联络，我们客服团队会尽快移除被控侵权的相关内容。

举报此信息