人工智能

DeepSeek可能使用了Google的Gemini来训练其最新模型

字号+作者:cnBeta.COM 来源:cnBeta 2025-06-04 00:29 评论(创建话题) 收藏成功收藏本文

上周,中国人工智能实验室DeepSeek发布了其R1推理AI模型的更新版本,该模型在多项数学和编码基准测试中表现优异。该公司并未透露用于训练该模型的数据来源'...

上周,中国人工智能实验室DeepSeek发布了其R1推理AI模型的更新版本,该模型在多项数学和编码基准测试中表现优异。该公司并未透露用于训练该模型的数据来源,但一些AI研究人员推测,至少有一部分数据来自Google的GeminiAI系列。bOp品论天涯网

墨尔本的开发者SamPaeach为人工智能开发了“情商”评估工具,他发表了一篇他声称有证据证明DeepSeek的最新模型是基于Gemini的输出进行训练的。Paeach在一篇X帖子中表示,DeepSeek的模型名为R1-0528,它偏好的词语和表达方式与GoogleGemini2.5Pro所青睐的词语和表达方式类似。bOp品论天涯网

bOp品论天涯网

这并非确凿的证据。但另一位开发者,一位匿名创建了名为SpeechMap的AI“言论自由评估”项目的开发者,指出DeepSeek模型的轨迹——即模型在得出结论的过程中产生的“想法”——“读起来就像Gemini的轨迹”。bOp品论天涯网

bOp品论天涯网

DeepSeek此前曾被指控使用竞争对手的AI模型数据进行训练。去年12月,开发人员发现DeepSeek的V3模型经常将自己标识为OpenAI的AI聊天机器人平台ChatGPT,这表明它可能是在ChatGPT聊天记录上进行训练的。bOp品论天涯网

今年早些时候,OpenAI向英国《金融时报》透露,其发现证据表明DeepSeek与“数据蒸馏”技术有关。“数据蒸馏”是一种通过从更大、更强大的模型中提取数据来训练AI模型的技术。据彭博社报道,OpenAI的密切合作伙伴和投资者微软在2024年底发现,大量数据通过OpenAI开发者账户被泄露——OpenAI认为这些账户与DeepSeek有关。bOp品论天涯网

提炼并不是一种罕见的做法,但OpenAI的服务条款禁止客户使用该公司的模型输出来构建竞争性人工智能。 bOp品论天涯网

需要明确的是,许多模型会错误地识别自身,并趋同于使用相同的词语和措辞。这是因为开放网络(AI公司获取大量训练数据的地方)正充斥着 AI 垃圾内容。内容农场正在利用AI制作点击诱饵,而机器人则充斥在 Reddit 和 X上,这种“污染”使得  从训练数据集中彻底过滤人工智能输出变得相当困难。bOp品论天涯网

bOp品论天涯网

不过,非营利性人工智能研究机构AI2的研究员NathanLambert等人工智能专家并不认为DeepSeek使用GoogleGemini的数据进行训练是不可能的。bOp品论天涯网

“如果我是DeepSeek,我肯定会用市面上最好的API模型创建大量合成数据,”Lambert在X的一篇文章中写道。“DeepSeek的GPU很紧缺,但资金却很充裕。这对他们来说实际上意味着更多的计算资源。”bOp品论天涯网

为了防止数据提炼,人工智能公司一直在加强安全措施。今年4月,OpenAI开始要求各组织完成身份验证流程,才能访问某些高级模型。该流程要求持有OpenAIAPI支持的国家/地区政府签发的身份证件,但中国不在该名单上。bOp品论天涯网

此外,Google最近开始“汇总”其AIStudio开发者平台上模型生成的轨迹,这一举措使得在Gemini轨迹上训练高性能竞争对手模型变得更具挑战性。Anthropic今年5月表示,将开始汇总自身模型的轨迹,理由是需要保护其“竞争优势”。bOp品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]