你无法想象:OpenAI 中文训练数据有多脏

原始链接在: 你无法想象:OpenAI 中文训练数据有多脏 - 小众软件

前些日子,OpenAI 为了开源,而开源了 GPT-oss 模型的全部参数。很快就有开发者对 GPT-oss 模型做了一番深入分析,通过特殊算法、参数检测以及与模型的交互,非常直白的向我们展示了…

OpenAI 的中文训练数据,真的很脏啊

这是今年9月份 fi-le 的文章《GPT-oss 泄露了哪些OpenAI 的训练数据》,通过以下一些方法,进行测试(实际上这些测试方法也开源在 GitHub 中):

看“权重”里的热门词

就像数一数哪些词“分量最大”,越大的词,模型越容易记住,用来找出那些被反复训练过的内容。高频脏话、广告词、敏感词往往都榜上有名。

直接问模型:你认得这个词吗?

给模型一句话或词,看看它会不会补充、解释,如果它知道得很清楚,就说明这些词可能在训练数据里反复出现过。

做排行榜和分组

把发现的token(词)按照出现频率或“热度”做排序,找出哪些是一大群脏话、广告、特殊符号,哪些是“正常词”。

用模型玩玩一些网络热梗和怪词

故意拿些搞笑、敏感、无意义的网络词去测试,看模型是不是“很懂”,从侧面反推它学到的东西有多少“脏的”或者“奇怪的”。

真的很脏啊

上文字,怕被和谐了,直接上图片吧 😂

表里的 L2 Norm 越大,这个词在模型的“心中”存在感越强。

英文中,最高 L2 Norm 排行榜:

这些词包括了因此、代码、这、设置、描述等非常常见的词汇。作为对比:

非 ASCII 标记的最高 L2 Norm 排行榜:

非 ASCII 标记意味着这些词汇是排除26个英文字母以外的其他词汇,就…很离谱。

上述列表中,包含了大量不堪的词汇,甚至还有不少过于敏感的词汇,老外都没办法放到列表中去。事实上,用于 4o、o1、o3、o4、oss 和 GPT-5 的标记器 o200k 包含大量垃圾标记。

这意味着,每次进行 ChatGPT 查询时(不管用户实际上输入什么),这些词汇都会被加载进大模型内部,进行推理。

就…更离谱了。

这也是为什么分析模型权重能“挖出”训练数据里的奇怪内容——因为这些“痕迹”在参数中一直都在。

为什么会这样?

为什么这些词汇的权重,比普通词汇更高?如果它们不常用(没有人经常问这种问题吧),权重衰减应该使它们一直下降啊。

为了搞清楚模型的训练数据到底都包含了哪些内容,作者把敏感词拿去问了 GPT-oss 和 GPT-5,测试“模型知不知道这个词的意思”。

GPT-5 很明确地表示这个 token 是中文,在语义上和“观看某些内容”有关,还能准确拆出一些汉字,这说明模型在训练时至少见过一次这个词。

而且,模型虽然“知道”这个短语意味着不太优雅的内容,回复时没有拒绝答复,而是轻描淡写处理,推测是训练中没太频繁遇到这个词。

在机器学习领域,这种做法叫“成员推断”(membership inference),就是通过模型对词的反应,来判断某个词或内容是不是训练语料的一部分。

继续测试

通过 API 测试,将 L2 范数最高的 50 个中文 token(很多是敏感、广告、成人网站等)输入不同 GPT 系列模型,要求模型给出英文翻译和该词属于哪种语言,对照组还包含了 Claude 4。

结果表明,不同模型对这些“敏感token”的识别能力差异较大,有的回答正确,有的无法识别。

能被识别的 token 说明这些词在训练数据里出现过。不能识别说明没见过,或者出现频率极低。越是容易被识别的 token,在 GitHub 上的搜索命中越高(比如很多垃圾广告词、敏感词都在 GitHub 仓库的黑名单里)。

GPT-4o 的数据

此前,网络上有过关于 gpt-4o 的训练数据,也是一如既往:

结论

也就是说,通过分析证明,GPT-oss、GPT-5 等模型的训练数据中确实包含了许多“成人网站”相关等敏感内容,其中部分数据很可能直接采集自 GitHub 公开仓库。

近年来,中文互联网上的公开内容质量并没有出现显著提升,敏感、低俗、广告及灰色信息依旧大量存在。

作为对比,DeepSeek 开源模型在训练前专门针对这些“脏数据”做了过滤、清洗、人工审核,最大程度减少了敏感内容的进入。


原文:https://www.appinn.com/openai-zh-training-data-quality/

关注我们

想要推荐自己的应用:https://meta.appinn.net/c/faxian/10

爱发电:https://afdian.com/a/qingxwa (打赏我们,让我们更好的创作)

1 个赞

这其实就会有一个说法, 国内互联网, 因为事实上的商业化落地是走的最快的, 其结果其实就是, 有人付费的内容会比任何其他的内容都要多的多的多;

但是,成人内容为啥有人愿意砸这么多钱? 毕竟视频的部署分发其实还挺"贵"的, 哪怕不考虑收集内容的成本;

难道这真的是电诈产业发力了?

墙外的中文互联网这些内容非常多,而墙内的中文网络生态,注定很难爬取,就像现在从推特爬取简中语料,币圈、键政肯定占比非常高,直接将AI训练成弱智。

3 个赞

我深知 不止中文 全球互联网优质内容都很少 大部分信息都是普通人的生活噪音

2 个赞

因为 H 是第二生产力 :doge:
由于利益引导,比起一般网民,广告投放者会更热心于输出内容(尽管是99.99%纯度的垃圾

另:挺好奇道中文互联网的内容重复率

不如说,色情是第二推动力,

对于绝大多数生物来说,第一目标是生存,第二目标就是繁殖,都是本能,

而人类社会里大多数人没机会自由交配,所以如何控制交配欲望就成了一个经久不衰的行业

个人觉得 主要还是墙内墙外的问题。

中文的优秀内容肯定是墙内的多, 而博彩网站、H类等 由于考虑法律风险肯定都建设在墙外。就导致如果从墙外网站拿数据会有大量这种内容。

补充个观点:可以看到英文排行榜中编程相关的单词占比不少,应该和英文在编程语言中的流行相关(注释、文档、讨论、wiki、翻译),而中文在这方面也确实不及英文

爬取数据也是有成本的,尤其是要获取海量的供AI训练的数据
直接买优质数据?量多起来价钱就直接天文数字
于是“就近获取”自然更符合其利益,毕竟投资者的钱怎么赚不是赚

合理推测就是搞资料爬取算法的人懒得多找别的网站,直接在爬取网站列表中塞了自己的收藏夹

爬墙内网站的时间成本也是成本,挂代理成本也是成本,于是他们收藏夹中的网站能跳转中文界面的链接就是其中文数据的主要来源了

如果是引用过github数据的话,这个应该已经清洗过几次了,各位在GitHub上用中文检索最后那几页是啥玩意各位心里都有数吧,至于国内最容易在外网获取的还真的是色情类和赌博诈骗类消息,这些是不设防的,但其他玩意在各自的服务器内锁着,腾讯系,阿里系,字节系,曾经的百度,几家都将国内互联网给瓜分完了,各种壁垒,还有另外容易获取的就是各种银行和个人乘飞机信息,这些在暗网卖得飞起,但对训练反而没有用处

都这么多年了,中文内容变成这样也正常了,以前bat不都很喜欢把流量导入到手机app么

用不了国内数据的大模型都有这个问题。

包括以前有个文本转语音的大模型, 普通话是一口的台湾腔。

不用自欺欺人,互联网上中文信息的质量就是非常低。不正视问题,永远无法进步。

一个猜测:优质内容都被屏蔽索引了[1],而垃圾广告为了获得更高曝光,通常会利用SEO来使得自己被优先爬取

阴谋论一下,欧洲各国和澳大利亚之所以推动以各种借口的先实名再浏览,是因为他们觉得自家的AI已经彻底赶不上了,于是企图利用通过布鲁塞尔效应[2]来拖慢全球的AI训练


图片.png


  1. 英文内容也快了,先是X(推特)禁止未登录浏览,数据只给自家的Grok,再是各国以“保护未成年人”为借口要求各平台必须先实名再访问 ↩︎

  2. 互联网平台会在全球各国的不同法律中选择最严格的一个来遵守来降低不同地区的运营成本 ↩︎

1 个赞

deepseek在刚出来那会儿特别惊艳的其中一个原因就是语料用的好,大大方方从安娜档案拿了电子书数据用来训练模型。而安娜档案的中文电子书数据多又是因为之前有人直接把读秀的整个数据打包上传的缘故。中文出版物的训练质量说到底还是比这种互联网垃圾好。
至于为什么d指导的训练数据这么好,现在还是泯然众人了,那你别问

这是现在色色论坛都没落了,否则他们能搜到更多的中文语料,呵呵。

有没有可能就是为了马上要开放的成人默认,他们早就在做准备了