ChatGPT官宣提升了“真实性”和“数学能力”-品论天涯网

随着ChatGPT热度一直不减，OpenAI持续拓展其能力。同时，ChatGPT的竞品不断涌现，如何更准确检测其生成文本也成为了近来学界的一大研究课题。自ChatGPT发布以来，它的能力不断被人们解锁，比如写神经网络、做智能音箱。人们在试用中慢慢发现，数学能力是ChatGPT的一大短板，连简单的“鸡兔同笼”题都能算错。FzR品论天涯网

大概是考虑到了这一点，ChatGPT刚刚宣布了一次重要更新：提升了“真实性”和“数学能力”。FzR品论天涯网

FzR品论天涯网

本次是ChatGPT自去年11月推出以来的第三次更新，但由于“更新说明”过于模糊，人们还需要经历一个对新能力的探索过程。FzR品论天涯网

几日前，计算机科学家、Wolfram语言之父StephenWolfram将理工科神器Wolfram|Alpha与ChatGPT结合起来，为后者注入超强计算知识实现互补，效果相当不错。FzR品论天涯网

那么，这次更新之后的ChatGPT数学能力可与其一战吗？FzR品论天涯网

看起来……对比的结果不尽如人意：FzR品论天涯网

FzR品论天涯网

“只能说神经网络不是用来干这个的”，SebastianRaschka都觉得无奈了。FzR品论天涯网

还有人发现，升级后的ChatGPT“脾气逐渐暴躁”：FzR品论天涯网

FzR品论天涯网

“你数学是哪位老师教的？”面对一道十以内加减法的题目，它的语气像极了辅导孩子作业的家长。FzR品论天涯网

这也许是“偶然现象”？看来数学是真难。FzR品论天涯网

不管怎么说，我们可以期待一波后续的有趣Demo了。FzR品论天涯网

太卷了：ChatGPT和它的竞争者们FzR品论天涯网

“未来6到12个月将带来实验的爆炸式增长，一旦公司能够使用OpenAI的API在ChatGPT之上构建。出现的杀手级用例可能是围绕生成式AI对知识管理的影响。”FzR品论天涯网

FzR品论天涯网

NicolaMoriniBianzino。FzR品论天涯网

在最近的一次公开活动上，安永全球首席技术官NicolaMoriniBianzino表示，目前还没出现在企业中使用ChatGPT的“杀手级”用例。但这种状态可能很快就会改变，他预测未来6到12个月将带来大量实验，尤其是当公司能够使用OpenAI的API在ChatGPT上构建之后。FzR品论天涯网

Bianzino将生成式AI对知识管理的影响描述为“AI的辩证法”。“知识公司倾向于以一种非常扁平的二维方式存储知识，这使得访问、互动和对话变得困难。我们在20、30、40年前尝试构建专家系统。这并不是很顺利，因为它们太死板了。我认为这项技术有望克服专家系统存在的许多问题。”NicolaMoriniBianzino表示。FzR品论天涯网

与此同时，ChatGPT的竞争者们也不断涌现，这个赛道变得越来越“卷”。从Anthropic公司的Claude、DeepMind公司的Sparrow、Google公司的LAMDA到CharacterAI，每天似乎都有新竞争者步入赛场。FzR品论天涯网

Anthropic是一家旧金山的初创公司，由几位离开OpenAI的研究人员于2021年创立。公司成立不到一年后就宣布了高达5.8亿美元的融资，上周五还被报道即将增加3亿美元融资。FzR品论天涯网

这家公司开发了一个名为“Claude”的AI聊天机器人，目前通过Slack集成在封闭测试版中可用，据报道它与ChatGPT相似，甚至有一些改进。Anthropic描述自身的使命为“致力于构建可靠、可解释和可操纵的AI系统”。FzR品论天涯网

DeepMind同样是这条赛道上不可忽视的力量。这家公司在9月份的一篇论文中介绍了“Sparrow”，被誉为“朝着创建更安全、偏差更小的机器学习系统迈出的重要一步”。Sparrow是“一种有用的对话智能体，可以降低不安全和不适当答案的风险”，旨在“与用户交谈、回答问题并在有助于查找证据”。FzR品论天涯网

不过，DeepMind的安全研究员、Sparrow论文的主要作者GeoffreyIrving表示，DeepMind认为Sparrow是一个基于研究的概念验证模型，尚未准备好部署。FzR品论天涯网

在两周前的《时代周刊》文章中，该公司的首席执行官兼联合创始人DemisHassabis表示，DeepMind正在考虑在2023年的某个时候发布其聊天机器人Sparrow的“私人测试版”。如此一来，公司就可以开发基于强化学习的功能，比如引用来源——这是ChatGPT所没有的能力。FzR品论天涯网

再说到Google的LaMDA，这一模型曾在去年夏天引发过热议——Google工程师BlakeLemoine因声称LaMDA具有感知能力而被解雇。FzR品论天涯网

即使不像Lemoine认为的那样，LaMDA仍被认为是ChatGPT最大的竞争对手之一。Google在2021年发布的博客文章中表示，LaMDA的对话技巧“已经酝酿多年”。与ChatGPT一样，LaMDA建立在Transformer架构之上，也接受过对话方面的训练。FzR品论天涯网

根据Google的说法，“在训练期间，LaMDA发现了一些将开放式对话与其他形式的语言区分开来的细微差别。”FzR品论天涯网

《纽约时报》在1月20日的一篇报道中提到，Google创始人LarryPage和SergeyBrin上个月会见了公司高管，讨论了ChatGPT可能对Google1490亿美元的搜索业务构成的威胁。Google发言人在一份声明中表示：“我们继续在内部测试我们的AI技术，以确保它有用且安全，我们期待尽快与外部分享更多经验。”FzR品论天涯网

另外一位颇具实力的玩家则是CharacterAI，这家公司由Transformer论文作者之一NoamShazeer创办，逐渐为人熟知。FzR品论天涯网

该公司推出的AI聊天机器人技术允许用户与任何人聊天或进行角色扮演，比如模仿伊丽莎白女王和莎士比亚等历史人物。目前该技术是免费使用的，Character正在“研究用户如何与之互动，然后再制定具体的创收计划。”FzR品论天涯网

传百度将发布类似ChatGPT的聊天机器人FzR品论天涯网

更能引起国内AI从业者关注的是，据路透社、彭博社等多家外媒报道称，百度公司计划在3月份推出类似于OpenAI的ChatGPT的人工智能聊天机器人服务。FzR品论天涯网

消息人士称，百度计划在用户提出搜索请求时整合聊天机器人生成的结果，而不仅仅是链接。“该工具尚未命名，将嵌入在主搜索服务中，用户将返回对话风格的搜索结果。”FzR品论天涯网

在去年12月在一次内部讨论中，百度CEO李彦宏曾分享自己对ChatGPT的看法：“把这么酷的技术变成人人需要的产品”才是最难的，希望百度新的一年“至少能有一个高成长、有创新的业务，真正的aboveandbeyondourexpectation”。FzR品论天涯网

而据《科创板日报》1月30日报道，百度内部确有推出类似ChatGPT聊天机器人的规划，但具体时间并不精确。百度CEO李彦宏对于该项目的定位是“引领搜索体验的代际变革”。他在内部指出，相关技术已达到临界点，百度在其中有较大的机会。FzR品论天涯网

检测利器：让大型语言模型生成的文本无处隐藏FzR品论天涯网

ChatGPT的能力纵然强大，但同时它在学校作业、论文发表等领域的滥用已经引发了人们广泛的担忧。因此，学界开始探索检测ChatGPT等大型语言模型（LLM）生成文本的方法和工具。FzR品论天涯网

马里兰大学几位研究者对ChatGPT等语言模型输出的水印进行了研究。在论文《AWatermarkforLargeLanguageModels》，他们提出了一种高效水印框架，水印的嵌入对文本质量的影响忽略不计，可以使用高效的开源算法进行检测，而无需访问语言模型的API或参数。FzR品论天涯网

本文方法可以检测到比较短的合成文本（少至25个tokens），同时使得人类文本在统计学上不可能被标记为机器生成。FzR品论天涯网

FzR品论天涯网

斯坦福大学几位研究者在论文《DetectGPT:Zero-ShotMachine-GeneratedTextDetectionusingProbabilityCurvature》中，证明了从LLM中采样的文本倾向于占据模型对数概率函数的负曲率区域。利用这一观察结果，他们定义了一个基于曲率的新标准，来判断一段文章是否由给定的LLM生成。FzR品论天涯网

研究者将他们的方法称为DetectGPT，它不需要训练单独的分类器、收集真实或生成段落的数据集以及显式地为生成文本加水印。DetectGPT仅使用感兴趣模型计算的对数概率和另一通用预训练语言模型（如T5）生成段落的随机扰动。FzR品论天涯网

结果发现，DetectGPT比当前模型样本检测的零样本方法更具辨别力，尤其是将20B参数GPT-NeoX生成的假新闻报道检测从最强零样本基线的0.81AUROC提升到了0.95AUROC。未来将公布代码和数据。FzR品论天涯网

FzR品论天涯网

DetectGPT检测GPT-3生成文本的示意图。FzR品论天涯网

除了以论文形式展现的检测方案，也有个人推出了强大的检测工具。比如一位来自HiveAI、致力于ChatGPT检测器研究的ML工程师，其方案能够识别ChatGPT、GPT-3和其他流行AI引擎生成的文本。FzR品论天涯网

从内部基准测试结果来看，该方案效果明显优于GPTZero和OpenAIGPT2OutputDetector等类似方法。在内部数据集上，模型平衡准确率>99%，而GPTZero的准确率约为60%，OpenAIGPT2OutputDetector的准确率为84%。FzR品论天涯网

FzR品论天涯网

最后，GPTZero也迎来了更新——GPTZeroX，一个专为教育者打造的全新AI检测模型。该模型可以混合处理AI生成和人类文本，并突出显示最有可能由AI生成的文本部分。此外构建了一个pipeline来处理PDF、Word和.txt格式的文件批量上传，从而轻松运行多个文件。FzR品论天涯网

FzR品论天涯网

总之，随着AI生成文本检测工具的日益丰富和日加完善，ChatGPT等大型语言模型在应用时势必会越来越正规，帮助人们更高效地释放AI的能力。FzR品论天涯网