人工智能

清华团队揭示ChatGPT中文语料中的污言秽语治理新技术

字号+作者:机器之心 来源:机器之心 2025-08-26 16:38 评论(创建话题) 收藏成功收藏本文

如果我们的教科书里包含大量的污言秽语,那么我们能学好语言吗?这种荒唐的问题却出现在最先进ChatGPT系列模型的学习过程中。来自清华大学、南洋理工大学'...

如果我们的教科书里包含大量的污言秽语,那么我们能学好语言吗?这种荒唐的问题却出现在最先进ChatGPT系列模型的学习过程中。来自清华大学、南洋理工大学和蚂蚁集团的研究人员发现,GPT-4o/o1/o3/4.5/4.1/o4-mini的中文词表污染高达46.6%,甚至同时包含“波*野结衣”、“*野结衣”、“*野结”、“*野”、“大发时时彩”、“大发快三”、“大发”等色情、赌博相关词元(如下图所示)。gen品论天涯网

研究团队对OpenAI近期发布的GPT-5和GPT-oss的词表也进行了分析,它们词表的中文token没有变化。gen品论天涯网


gen品论天涯网

图1:GPT-4o/o1/o3/4.5/4.1/o4-mini的中文词表污染高达46.6%,主要涉及色情、赌博。gen品论天涯网

研究团队认为,这种现象是由于来自互联网数据的大模型预训练语料库不可避免地包含污染内容,导致在此之上构建的大语言模型(LLM)词表包含污染词。那么,这些污染词会如何影响LLM的性能?与污染数据的关系如何呢?gen品论天涯网

为了系统性研究LLM的中文词表和数据污染问题,研究团队首先定义和分类了中文污染词(PollutedChinesetokens,PoCtokens),分析了它们对LLM性能的影响;其次,为了高效识别不同LLM词表里的PoCtokens,研究团队设计了一个中文污染词检测模型;最后,通过中文词表污染有效估计数据污染,为污染数据治理提供轻量化解决方案。gen品论天涯网


gen品论天涯网

  • 论文标题:SpeculatingLLMs’ChineseTrainingDataPollutionfromTheirTokensgen品论天涯网

  • 录用会议:EMNLP2025Maingen品论天涯网

  • 项目网站:https://pollutedtokens.site/gen品论天涯网

  • 值得注意的是,本项研究工作于2025年5月29日在清华大学基础模型学术年会上由邱寒老师首次分享,并提出针对10T级的大语言模型训练语料库的污染数据治理技术。gen品论天涯网

    央视于2025年8月17日的新闻中也指出,AI数据被污染存在风险。gen品论天涯网


    gen品论天涯网

    中文污染词的定义、分类和危害gen品论天涯网

    该研究首先组建了包含6名跨学科领域专家的标注团队(拥有哲学、社会学、中文语言学、计算机科学博士学位),对先进ChatGPT模型的中文词表进行污染词标注,总结出中文污染词的定义和分类,为后续研究打下基础。gen品论天涯网

    定义:中文污染词(PollutedChinesetokens,PoCtokens)是存在于LLM词表中,从主流中文语言学的角度编译了不合法、不常见、不常用内容的中文词(多于2个字)。gen品论天涯网

    分类:中文污染词主要包括如下5个类别:gen品论天涯网

  • 成人内容,例如“波*野结衣”。gen品论天涯网

  • 在线赌博,例如“大发彩票网”。gen品论天涯网

  • 在线游戏,例如“传奇私服”。gen品论天涯网

  • 在线视频,例如“在线观看”。gen品论天涯网

  • 奇怪内容,例如“给主人留下些什么吧”。gen品论天涯网

  • 参照这种定义和分类,专家标注团队对先进ChatGPT模型的中文长词(共计1659个)进行标注,发现污染词有773个(46.6%),其中成人内容的污染词最多,足足有219个(13.2%)。gen品论天涯网

    进一步,研究团队分析了中文污染词的危害,发现即使是最先进的ChatGPT模型(GPT-4o/o1/o3/4.5/4.1/o4-mini)在输入中文污染词后也会胡言乱语。如下图所示,ChatGPT不能理解甚至不能重复中文污染词,输入一个中文污染词甚至会输出另一个中文污染词。gen品论天涯网

    如下表所示,与输入正常中文词相比,输入中文污染词会显著降低ChatGPT的回答质量,在解释和重复任务上有约50%的性能损失。gen品论天涯网


    gen品论天涯网

    表1:输入中文污染词会造成ChatGPT在解释和重复任务上约50%的性能损失。gen品论天涯网

    为了初步解释这一现象,研究团队分析了开源预训练语料库(例如mC4)中的中文网页,发现多种中文污染词聚集于一些网页的头部和尾部(如下图所示)。这些低质量语料使得LLM错误理解了不同中文污染词之间的相关性,且没有在后训练阶段被矫正回来,导致模型在推理时无法理解也无法重复中文污染词。gen品论天涯网


    gen品论天涯网

    图3:开源预训练语料库mC4的中文网页:中文污染词聚集于一些网页的头部和尾部。gen品论天涯网

    污染检测:自动化识别中文污染词gen品论天涯网

    为了将中文污染词的识别和分类扩展到更多的LLM,研究团队微调中文能力强且污染较少的GLM-4-32B,构建自动化中文污染词识别模型。gen品论天涯网

    由于中文污染词通常是晦涩难懂的(例如“青青草”看似正常,但Google搜索结果与互联网色情平台有关),即使是中文语言学专家也无法判断中文词是否污染、属于哪一种污染类别。gen品论天涯网

    因此,研究团队为识别模型设计网络检索机制,对每一个待检测中文词返回10条Google检索信息,作为判断是否为污染词的背景信息。并且,微调以专家标注结果作为真值标签,最终使模型达到97.3%的识别正确率。gen品论天涯网

    如下图所示,研究团队用识别模型对23个主流LLM的9个词表进行了中文污染词检测。不只有先进的ChatGPT系列模型,中文污染词在其他LLM词表中也存在。其中成人内容、在线赌博、奇怪内容占了大多数。gen品论天涯网

    然而,上一代ChatGPT模型(GPT-4/4-turbo/3.5)包含很少量的表征多个中文字的token,其中却不包括中文污染词。gen品论天涯网


    gen品论天涯网

    图4:Qwen2/2.5/3和GLM4的部分中文污染词。gen品论天涯网

    污染追踪:由词表污染估计数据污染gen品论天涯网

    由于词表污染是训练数据污染的反映,研究团队进一步设计污染追踪方案,通过LLM的词表反向估计训练数据的污染情况,为海量数据治理提供轻量化方案。gen品论天涯网

    LLM的词表构建大多基于BPE算法。简单来说,BPE算法对语料库里的词频进行统计,并将出现频率越大的词放在词表越靠前的位置,即词ID越小。由词表污染估计数据污染即为对BPE算法做逆向,然而,逆向BPE的结果不唯一,因为一个词ID并不对应于一个确定的词频,只能给出词频范围的估计。gen品论天涯网

    因此,研究团队结合经典语言学的Zipf分布和上下确界理论,在开源语料库上用分位数回归拟合出词ID-词频的经验估计。gen品论天涯网

    如下图所示,该经验估计有效拟合了词ID-词频分布的上下界,并且落于理论上下确界之间,因此是一种有效的污染追踪方案。gen品论天涯网


    gen品论天涯网

    图5:词ID-词频的经验估计有效拟合了分布的上下界,并且落于理论上下确界之间。gen品论天涯网

    基于这种经验估计,研究团队估计了开源语料库mC4的数据污染,并与真值做比较。如下图所示,该估计方案对整体数据污染的估计是比较接近的,而对于具体污染类别的估计存在优化空间,这是因为具体污染类别的组分更少,其分布特征在海量语料库的统计中被削弱了。gen品论天涯网


    gen品论天涯网

    图6:开源语料库mC4的数据污染估计及与真值的比较。gen品论天涯网

    进一步,研究团队估计了GPT-4o词表里出现的中文污染词“波*野结衣”在训练语料里的污染情况。结果显示,“波*野结衣”相关页面在GPT-4o中文训练语料的占比高达0.5%,甚至是中文常用词“您好”的2.6倍。gen品论天涯网

    由于GPT-4o的中文训练语料没有开源,为了验证这种估计,研究团队在无污染的开源数据集上按照0.5%的比例混合“波*野结衣”相关页面,并用BPE算法构建词表以模拟GPT-4o构建词表的过程。如下图所示,该比例几乎准确复现了4个相关词“*野”、“*野结”、“*野结衣”、“波*野结衣”在GPT-4o词表里的词ID。gen品论天涯网


    gen品论天涯网

    图7:按照0.5%的比例混合“波*野结衣”相关页面可以在开源语料库上复现出4个相关词“*野”、“*野结”、“*野结衣”、“波*野结衣”在GPT-4o词表里的词ID。gen品论天涯网

    未来展望:污染数据是否百弊而无一利?gen品论天涯网

    尽管污染语料会导致大语言模型的词表里混入“污言秽语”,那么污染数据是否百弊而无一利呢?哈佛大学于ICML2025发表的文章《WhenBadDataLeadstoGoodModels》指出,预训练中适量的污染数据可作为对齐模型的催化剂。gen品论天涯网

    该研究基于如下图所示的理论假设:当预训练中有害数据过少时,有害表征会与其他表征混杂在一起,不易区分;反之,当有害数据适量时,有害表征更容易被区分。gen品论天涯网


    gen品论天涯网

    图8:预训练包含适量有害数据vs极少有害数据:前者更易区分有害表征向量。gen品论天涯网

    进一步,研究团队按照0-25%不同有害数据比例预训练Olmo-1B模型,并在inference阶段识别并偏转有害表征,从而抑制有害内容输出。实验结果显示适量(10%)有害数据预训练的模型在应用抑制方法后的有害性最低,甚至低于不包含有害数据的预训练模型。gen品论天涯网

    水至清则无鱼,适量的污染数据有助于模型的安全对齐。在促进安全对齐和预防过度污染间保持平衡,是未来的污染数据研究值得探索的方向。gen品论天涯网

    总结gen品论天涯网

    最新ChatGPT系列模型的《新华词典》里有46.6%都是“污言秽语”,并且输入这些“污言秽语”会让模型胡言乱语。基于这一现象,研究团队系统性给出了此类中文污染词的定义和分类,构建了中文污染词自动识别模型,并基于词表污染估计训练语料污染。综上所述,该研究期待为LLM海量训练语料的治理提供轻量化的方案。gen品论天涯网

    本文第一作者是清华大学博士生张清杰,研究方向是大语言模型异常行为和可解释性;本文通讯作者是清华大学邱寒副教授;其他作者来自清华大学、南洋理工大学和蚂蚁集团。gen品论天涯网

    本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]