ChatGPT检测器频繁冤枉无辜学生,竟有210万教师在用
本科论文

ChatGPT检测器频繁冤枉无辜学生,竟有210万教师在用

编辑:桃子 【新智元导读】被AI冤枉的你,还好吗? 当你被AI无辜扣上「作弊」的帽子,作何感想? 这件事恰恰发生在了一位高三学生Lucy Goetz身上。原本她写的一篇社会主义原创论文得了最高分。 但是,Turnitin公司的AI写作检测器竟说,Goetz论文结尾是用ChatGPT生成的。 Goetz震惊道,「我很高兴能和老师们保持良好的关系」。 简言之,还好老师了解我,不然跳进黄河都洗不清了。 而更令人惊讶的是,这个ChatGPT检测器现在已经被210万名教师使用。 AI无法打败AI Goetz的论文中被标记出的部分属于异常情况,但这表明检测器有时会出错。 显然,AI是无法打败AI的。这对许多学生来说可能产生灾难性的后果。 为了测试Turnitin的检测器,华盛顿时报的记者Geoffrey A. Fowler对Goetz在内的5名高中生进行了测试。 他们创作了16篇涵盖真实、AI生成,以及混合来源的论文样本。 结果如何呢? Turnitin的检测器至少在一半以上的样本中出现错误,仅是准确识别出了其中6篇,但在3篇上的检测都失败了。其中就包括对Goetz原创论文中8%内容的标记错误。 对于剩下的7篇,Fowler称,「我只会给它部分分数,因为它的判断大致正确,但错误识别了一些ChatGPT生成或混合来源的写作部分。」 然而,Turnitin声称其检测器的整体准确率达到98%。该公司还表示,在其自身测试中,类似Goetz论文的情况(即假阳性)发生的概率不到1%。 Turnitin的AI检测器详细页面会分配一个总分,并突出显示疑似AI生成的句子。该公司表示,它故意用蓝色而非红色标记疑似AI生成的段落,并在得分下方链接教师资源。 加州康科德市Goetz的AP英语课老师Rebecca Dell表示,Turnitin标记AI文本的系统并不总是有效,这令人担忧。 与抄袭指控不同,AI作弊没有源文件作为证据,这最容易让老师对学生带有偏见。 或许并不是每个人都像Goetz那么幸运。 Goetz表示,「对于学生来说,被指控AI作弊尤其令人恐惧。除非你的老师了解你的写作风格,或者对你非常信任,否则没有办法证明你没有作弊」。 AI检测为何如此困难 自ChatGPT面世以来,已经被许多高校的学生和老师用在日常的作业和教学中。 然而,如果不加以限制,ChatGPT将会变成史上最强大的作弊工具,可以帮助学生们写作业,甚至是完成考试论文。 为了反侦察,一款简单易用的检测器成为老师期盼的东西。一位22岁普林斯顿大学的学生Edward Tian,就自行开发了一款检测器——GPTZero。 甚至,OpenAI官宣推出一个新工具,名为AI Text Classifier的文件检测器。 但是,这些检测器的表现并不如人意。 检测出AI创作的内容听起来很简单。但当给你一封手写邮件和ChatGPT生成的邮件后,我们几乎无法辨别。 Turnitin的人工智能副总裁Eric Wang称,用软件检测人工智能写作涉及统计学。从统计学的角度来看,人工智能与人类的区别在于它极其稳定地处于平均水平。 直白点讲,AI水平很稳定。然而,实际上并非这样一个道理。 「像ChatGPT这样的系统就像是自动补全的高级版本,寻找下一个最可能要写的单词。这实际上就是它为什么读起来如此自然的原因。AI写作是人类写作中最可能的子集。」 Turnitin的检测器便会「识别出书写过于一致的平均情况」。挑战就在于,有时候有时人类的写作可能确实看起来处于平均水平。 在经济学、数学和实验室报告中,学生倾向于遵循固定的写作风格,这意味着他们更有可能被误认为是AI写作。 这可能就是为什么Turnitin错误地标记了Goetz的论文,因为它的内容涉及到经济学。 Wang表示,Turnitin努力调整其系统,在标记某个句子为AI生成之前需要更高的置信度,以便在这方面犯错。 并称,自己家的软件已经有了很大的进展。「我首次在1月下旬测试Goetz的论文时,该软件识别出其中大约50%是AI生成的。Turnitin在3月下旬再次通过其系统运行我的样本,那时只标记了Goetz论文中的8%为AI生成的。」 Turnitin的检测器也面临其他重要的技术限制。...
ChatGPT:从婴儿语言到超凡智能的探索之旅?
研博论文

ChatGPT:从婴儿语言到超凡智能的探索之旅?

本文探讨了ChatGPT爆火背后的技术逻辑和学习过程。作者通过类比人类教儿童语言,指出ChatGPT最初是通过不断重复训练建立词语理解和文本分割能力,随后通过关注重点(attention)来处理大量信息并形成自己的阅读策略。随着学习的深入,ChatGPT具备了生成预训练和领域适应的能力,可以理解各学科知识并具有接近人类聊天的水平。作者以此说明科技进步并非一味追求抽象和方法论,而是需要逐步理解和贴近实际应用。
文心一言,比ChatGPT晚出生的学霸
本科论文

文心一言,比ChatGPT晚出生的学霸

作者:吴辰光、李汭遥 备受瞩目的国产版ChatGPT终于来了。 3月16日,百度发布新一代大语言模型、生成式AI产品文心一言。从现场展示看,文心一言在某种程度上具有了对人类意图的理解能力,回答的准确性、逻辑性、流畅性都逐渐接近人类水平。 但或许有了谷歌仓促应对ChatGPT在演示时出现重大错误的前车之鉴,此次百度没有做现场演示。又或许是在百度发布会的两天前,OpenAI推出升级版ChatGPT-4,再一次将门槛提高,打乱了百度的节奏。总之,与一个月前的高调预热相比,此次发布低调了许多。 百度创始人、董事长兼首席执行官李彦宏也多次提及,这类大语言模型还远未到发展完善的阶段,进步空间很大,未来这段时间它一定会飞速发展,日新月异。 但不管怎样,大语言模型是无法突击速成的,百度能成为第一个对标ChatGPT的中国科技企业,终究是向前迈出了一步,而如何缩短与OpenAI的差距,将是下一步的看点。 文心一言如约而至 3月16日,百度召开新闻发布会,围绕新一代大语言模型、生成式AI产品文心一言展开。现场展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。 在文学创作场景中,文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结,并提出了五个续写《三体》的建议角度,体现出对话问答、总结分析、内容创作生成的综合能力。 在商业文案创作场景中,文心一言顺利完成了给公司起名、写Slogan、写新闻稿的创作任务。 面对“鸡兔同笼”这类锻炼人类逻辑思维的经典题,文心一言能理解题意,并有正确的解题思路,进而像学生做题一样,按正确的步骤,一步步算出正确答案。 中文理解方面,文心一言正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论,还用“洛阳纸贵”四个字创作了一首藏头诗。 多模态生成方面,李彦宏现场展示了文心一言生成文本、图片、音频和视频的能力,文心一言甚至能够生成四川话等方言语音,但视频生成能力则因成本较高,现阶段还未对所有用户开放,未来会逐步接入。 李彦宏表示,多模态是生成式AI一个明确的发展趋势。未来,随着百度多模态统一大模型的能力增强,文心一言的多模态生成能力也会不断提升。 从文心一言的表现看,某种程度上它具有了对人类意图的理解能力,回答的准确性、逻辑性、流畅性都逐渐接近人类水平。但整体而言,这类大语言模型还远未到发展完善的阶段,有赖于通过真实的用户反馈而逐步迭代。 CHIP奇谱科技总编罗国昭表示,文心一言不如预期但在预料之内,很多人会拿文心一言和ChatGPT-4相比,觉得无论在语言理解能力还是功能特性上都有较大差距,但这是以静态的方式来看待发展中的事物,其实双方都处于快速成长过程中。 在DCCI互联网研究院院长、知名互联网学者刘兴亮看来,文心一言比预期要好一些。虽然和ChatGPT总体上还有差距,但对于中文的理解更好一些。同时,文心一言抢先一步的生成图片功能也是个亮点。 高调预热低姿态发布 与一个月前的高调预热相比,此次发布低调了许多。 2023年伊始,随着微软对OpenAI追加数十亿美元的投资,让ChatGPT在国内刷屏了。百度、阿里、腾讯、华为等大厂纷纷表示自己在大模型领域已展开布局。此后,包括原美团创始人王慧文在内的多位科技圈大佬也纷纷发文宣布打造中国的OpenAI。其中,百度给出的信息是最详细的。 2月7日,百度通过其官方公众号宣布将推出类ChatGPT产品文心一言,引发热议,百度港股股价盘中一度拉高17%。一周内,已有上百家企业宣布将接入文心一言。李彦宏曾表示,中国AI市场即将迎来爆发性的需求增长,其商业价值的释放将是前所未有的、指数级的。 可见,无论是市场还是百度自己,都对文心一言充满信心。但GPT-4的出现或许打乱了百度的节奏。 3月14日,OpenAI正式发布了GPT-4,这个大型多模态模型可以实现强大的识图能力、字数限制提升至2.5万字、回答准确性显著提高、生成歌词、创意文本,实现风格变化等多项飞跃式提升,在各种专业测试和学术基准上表现与人类水平相当。总之,与GPT-3.5相比,GPT-4的能力大幅提升,就像是小学生跨越升级到高中生。 再回到文心一言的发布现场,李彦宏先是打了一剂预防针:“从某种意义上说百度为此(发布文心一言)已经准备了多年,我们十几年前就开始投入AI研究,2019年就推出了文心大语言模型,今天的文心一言是过去多年努力的延续。但也不能说我们完全ready了,文心一言要对标ChatGPT、甚至是对标 GPT-4的门槛是很高的,全球大厂还没有一个做出来的,百度是第一个。我自己测试感觉还是有很多不完美的地方。” 在李彦宏看来,是需求推动了文心一言的面世,百度的很多产品,从搜索到智能云,再到自动驾驶,到小度,大家都有需要,更重要的是客户需要,合作伙伴需要。 刘兴亮认为,ChatGPT-4确实给了百度很大的压力,但什么产品都不可能是完美的,新产品总要拉出来溜溜的。现阶段看,文心一言连续对话能力、逻辑推理能力与ChatGPT-4还是有一定差距的。 罗国昭告诉坤舆商业观察,文心一言的上线多少有仓促的因素,但百度的AI能力不用质疑。ChatGPT只是AI的一种模式,并不是全部,而百度的AI之路也不是从文心一言开始的。AI不仅是语言的理解能力,更依赖于其他多维模式,如图形、视频等。“AIGC好不好看、回答尴尬不尴尬,有相当成分的主观因素。对于技术的脉络,大家并无差距。” 未来仍有机会 一个插曲是,在文心一言发布后,百度股价经历下跌和大幅反弹,这表明市场对文心一言的技术能力、使用体验、商业化前景等维度存在巨大分歧,亦导致公司股价大幅波动。 中信证券认为,作为首次亮相的语言大模型,在模型微调、体验反馈、优化落地等方面仍需强化,同时参考海外经验,语言大模型从预训练完成到实际发布落地,亦需经过1-2个季度的优化与升级。而百度此次亦在生态合作伙伴中进行内部测试,通过测试实现产品的迭代与升级。 自2月份以来,已有超过650家企业宣布接入文心一言生态,未来预计会有更多企业进行申请参与。 中信证券预计,文心一言在短期仍将聚焦迭代升级。随着经济的持续复苏,百度的核心业务有望逐季度改善,并对当前公司估值形成支撑,后续AI模型的升级优化亦将带来估值弹性。维持百度的“买入”评级。 实际上,百度积累的优势不是一朝一夕可以完成。在过去的10年里,百度在AI的研发投入超1000亿元。 李彦宏指出,无论是哪家公司,都不可能靠突击几个月就能做出这样的大语言模型。深度学习、自然语言处理,需要多年的坚持和积累,无法速成。 人工智能时代,IT技术的技术栈发生了根本性变化,从过去三层到“芯片-框架-模型-应用”四层。百度是全球为数不多、在这四层进行全栈布局的人工智能公司,从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,到搜索、智能云、自动驾驶、小度等应用,各个层面都有领先业界的自研技术。 李彦宏认为,百度AI全栈布局的优势在于,可以在技术栈的四层架构中实现端到端优化,大幅提升效率。尤其是框架层和模型层之间,有很强的协同作用,可以帮助构建更高效的模型,并显著降低成本。事实上,超大规模模型的训练和推理,给深度学习框架带来了很大考验。比如,为了支持千亿参数模型的高效分布式训练,百度飞桨专门研发了 4D 混合并行技术。 在全球范围内,在四层架构的每一层都有领先产品的公司几乎没有,这是百度独特的优势。后续,芯片、框架、大模型和终端应用场景可以形成高效的反馈闭环,帮助大模型不断调优迭代,从而升级用户体验。 虽然目前还无法与ChatGPT相提并论,但百度毕竟是目前国内第一个对标ChatGPT的企业,未来一段时间内,在其他国内大厂没有进一步动作的情况下,百度仍肩负着国产ChatGPT的崛起重任。 “整体上要追上ChatGPT,个人觉得挺难的。因为你跑别人也在跑,ChatGPT作为先行者用户量越大数据越多,用户参与打分的行为越大,对于后来者来说,追赶的难度就越大。”刘兴亮说道,“但百度不是没有机会,如果说ChatGPT-4是目前的综合冠军,那百度可以在个别领域去争单项冠军。” 罗国昭认为,相比英文语料已经非常好的结构化,中文语料有着明显的差异。用发展的眼光看,在中文的环境里,本土的百度更具优势。同时,对这种产品来说,个人使用是小打小闹,更多的要看行业应用的可能性,行业应用可以快速导入商业应用。真正的AI能力既是企业的核心竞争力,也是国家的战略竞争力,这个是非常大的一个前景。 “目前OpenAI也处于初步的商业化过程中,百度有机会。ChatGPT-4是个学霸,文心一言则是晚出生一点的学霸。”罗国昭说道。