文章主题:人工智能, 聊天机器人, ChatGPT, 大型语言模型

666AI工具大全,助力做AI时代先行者!

自去年底推出名为ChatGPT的对话机器人以来,人工智能(AI)技术的出现明显地改变了研究人员的工作模式。

ChatGPT 是一款由OpenAI和其他公司共同研发的大型语言模型(LLM)。这款机器学习系统具备自主学习的能力,能够从海量的数据中吸取知识,并在经过大量文本数据集的训练后,生成出复杂且看似智能的文字。作为一种最新的同类模型,ChatGPT引发了广泛的关注和热议。其独特之处在于,它能够令人信服地用英语和其他语言与用户进行对话,探讨各种广泛的话题。而且,ChatGPT是免费提供的,操作简便,并具有持续学习的功能。

这项技术已对科学和社会产生了深远影响。如今,研究人员及其他专业人士正广泛运用ChatGPT与其他大型语言模型,进行论文与演讲的撰写、文献总结、论文草拟改进、研究差距分析,甚至计算机代码的统计分析。未来,此技术有望进一步发展,使得实验设计、手稿撰写、同行评审以及编辑对稿件的接收或拒绝等环节都能得到支持。

会话式AI有可能颠覆传统的研究方法和出版流程,为科研领域带来新的机遇与挑战。它有望提升创新速度,缩短发表周期,同时通过协助人们更流畅地撰写论文,使得科学研究更为公正、包容,推动科学观点的多样化。然而,另一方面,过度依赖这种技术可能导致研究质量下滑,透明度降低,甚至 fundamental上削弱作为人类研究者的独立性。尽管 ChatGPT 和其他LLM生成的文本具有一定的可信度,但它们生成的结果往往存在错误,可能扭曲科学事实,散布错误信息。

在我们看来,应用这项技术是不可避免的,因此,对其进行禁止是不现实的。学术界应当对这种潜在的颠覆性技术所带来的影响进行深入讨论。在此,我们将阐述五个关键问题,并提出何处着手进行探讨的建议:

1. 坚持人工验证

经过多年的发展,LLMs如今因数据集质量与规模的持续优化以及人类反馈校正模型的复杂性降低而变得更加强大。这种进步有望催生新一代的搜索引擎,使其具备应对各种复杂问题的能力,并能为用户提供详尽且丰富的答案。

然而,将对话AI应用于专门领域可能导致不精确、歧视和剽窃等问题。针对这一问题,我们对ChatGPT提出了多项问题与任务,要求其深入研究文献,并揭示其常生成虚假和误导性文本的现象。例如,在询问“接受治疗后的抑郁症患者复发率是多少?”时,ChatGPT给出的回答过于笼统,认为治疗效果通常持久。然而,许多高质量的研究均显示,治疗效果会逐渐减弱,且在治疗结束后第一年,复发风险可高达29%-51%。多次重复同一问题则会得到更为详尽且准确的答案。此外,我们还要求ChatGPT总结我们在JAMA Psychiatry上发表的关于认知行为疗法(CBT)对焦虑相关障碍有效性的系统评价。ChatGPT提供的回应看似有理有据,但实际上包含 several factual errors, misleading statements, and incorrect data.比如,它声称该评论基于46项研究,实际上却基于69项研究;更让人担忧的是,它夸大了CBT的效果。

某些错误的产生可能源于ChatGPT的训练数据中缺乏相关文章,或者无法准确提取所需信息,同时无法有效辨别可信与不可信来源。这种现象在一定程度上可能导致人类在决策过程中陷入误导,如实用性、选择性和确认偏见等问题。这些偏见在会话AI中被复制,甚至在某种程度上被放大,从而对人类的判断产生负面影响。

使用 ChatGPT 的研究人员可能会被虚假或有偏见的信息误导,并将其纳入他们的思想和论文中。由于光环效应,粗心的审稿人可能会被 AI 撰写的优美、权威的散文蒙骗,倾向于从一些显着的积极印象中过度概括 。而且,由于这项技术通常在不可靠地引用原始来源或作者的情况下复制文本,因此使用它的研究人员有可能不承认早期的工作,无意中剽窃大量未知文本,甚至可能泄露他们自己的想法。研究人员向 ChatGPT 和其他 LLM 透露的信息可能会被纳入模型,聊天机器人可以在不承认原始来源的情况下为其他人提供这些信息。

假设研究人员在工作中使用 LLM,学者们需要保持警惕。专家驱动的事实核查和验证过程将是不可或缺的。即使 LLM 能够准确地加快总结、评估和审查,高质量的期刊也可能决定包括人工验证步骤,甚至禁止使用该技术的某些应用程序。为了防止人类自动化偏差——过度依赖自动化系统——强调问责制的重要性将变得更加重要。我们认为人类应该始终对科学实践负责。

2. 制定问责制规则

已经有工具可以预测文本来自机器或人类的可能性。此类工具可用于检测造纸厂和掠夺性期刊不可避免地使用 LLM 来制造内容,但此类检测方法很可能会被进化的 AI 技术和巧妙的提示所规避。我们认为研究社区和出版商应该研究如何以诚信、透明和诚实的方式使用 LLM,而不是在 AI 聊天机器人和 AI 聊天机器人检测器之间进行一场徒劳的军备竞赛。

研究论文中的作者贡献声明和致谢应清楚具体地说明作者是否以及在何种程度上使用了 ChatGPT 等人工智能技术来准备他们的手稿和分析。他们还应该指出使用了哪些 LLM。这将提醒编辑和审稿人更仔细地审查手稿,以发现潜在的偏见、不准确和不正确的来源来源。同样,科学期刊应该对 LLM 的使用保持透明,例如在选择提交的手稿时。 研究机构、出版商和资助者应采取明确的政策,提高人们对使用对话式 AI 准备所有可能成为已发表记录一部分的材料的认识,并要求其透明度。出版商可以要求作者证明遵守了这些政策。

目前,LLMs不应该是手稿的作者,因为他们不能对自己的工作负责。但是,研究人员可能越来越难以确定 LLMs 在他们研究中的确切作用。在某些情况下,ChatGPT 等技术可能会根据作者的提示生成手稿的重要部分。在其他情况下,作者可能已经使用 AI 作为语法或拼写检查器进行了多次修订和改进,但没有使用它来编写文本。未来,LLM 很可能被纳入文本处理和编辑工具、搜索引擎和编程工具中。因此,他们可能会在作者不一定了解贡献的性质或规模的情况下为科学工作做出贡献。这违背了当今对作者身份、剽窃和来源的二元定义,其中某人要么是作者,要么不是,要么使用了来源,要么没有使用。政策将不得不调整,但完全透明始终是关键。 AI 设计的发明已经引发了对专利法的根本性反思,并且针对用于训练 AI 的代码和图像以及由 AI 生成的代码和图像的版权提起了诉讼(参见 go.nature.com/3y4aery)。对于 AI 撰写或辅助的手稿,研究和法律界还需要确定谁拥有文本的权利。是编写 AI 系统训练文本的个人、生产 AI 的公司还是使用该系统指导他们写作的科学家?同样,必须考虑和定义作者身份的定义。

3. 投资于真正开放的LLMs

目前,几乎所有最先进的对话式人工智能技术都是少数拥有人工智能开发资源的大型科技公司的专有产品。 OpenAI 主要由微软资助,其他主要科技公司也在竞相发布类似的工具。鉴于少数科技公司在搜索、文字处理和信息访问方面近乎垄断,这引发了相当大的道德问题。 研究界最紧迫的问题之一是缺乏透明度。 ChatGPT 及其前身的基础训练集和 LLM 不公开,科技公司可能会隐藏其对话式 AI 的内部工作原理。这违背了向透明和开放科学迈进的步伐,并且很难发现聊天机器人知识的来源或差距 。例如,我们提示 ChatGPT 来解释几位研究人员的工作。在某些情况下,它对根据 h 指数(一种衡量工作影响力的方法)被认为影响较小的科学家进行了详细描述。尽管它对一组 h 指数约为 20 的研究人员取得了成功,但它未能生成任何关于几位被高度引用和知名科学家的工作的信息——即使是那些 h 指数超过 80 的科学家。

为了消除这种不透明性,应优先开发和实施开源 AI 技术。大学等非商业组织通常缺乏跟上 LLM 快速发展步伐所需的计算和财务资源。因此,我们提倡科学资助组织、大学、非政府组织 (NGO)、政府研究机构和联合国等组织——以及科技巨头——对独立的非营利项目进行大量投资。这将有助于开发先进的开源、透明和民主控制的人工智能技术。 批评者可能会说这样的合作无法与大型科技公司相抗衡,但至少一个主要是学术合作的 BigScience 已经建立了一个开源语言模型,称为 BLOOM。科技公司可能会通过开源其模型和语料库的相关部分来从这样的计划中受益,以期创造更大的社区参与度,促进创新和可靠性。学术出版商应确保LLMs能够访问他们的完整档案,以便模型产生准确和全面的结果。

4. 拥抱人工智能的好处

随着学术界工作量和竞争的增加,使用对话式 AI 的压力也越来越大。聊天机器人提供了快速完成任务的机会,从努力完成论文的博士生到需要对其资助申请进行快速文献审查的研究人员,或者在时间压力下提交分析的同行评审员。

如果 AI 聊天机器人可以帮助完成这些任务,则可以更快地发布结果,从而使学者有更多时间专注于新的实验设计。这可以显着加速创新,并有可能导致许多学科的突破。我们认为这项技术具有巨大的潜力,前提是解决了当前与偏见、出处和不准确相关的初期问题。重要的是检查和提高 LLMs 的有效性和可靠性,以便研究人员知道如何明智地使用该技术进行特定的研究实践。

一些人认为,由于聊天机器人只是学习训练集中单词之间的统计关联,而不是理解它们的含义,LLM 将永远只能回忆和综合人们已经做过的事情,而不会展示科学过程中人性化的方面,例如创造性和概念思维。我们认为这是一个不成熟的假设,未来的人工智能工具可能能够掌握科学过程中今天似乎遥不可及的方面。在 1991 年的一篇开创性论文中,研究人员写道,人与智能技术之间的“智能合作伙伴关系”可以胜过单独的人的智力 11。这些智能合作伙伴关系可能会超越人类的能力,并将创新加速到以前无法想象的水平。问题是自动化能走多远,应该走多远?

人工智能技术可能会重新平衡学术技能组合。一方面,人工智能可以优化学术培训——例如,通过提供反馈来提高学生的写作和推理能力。另一方面,它可能会减少对某些技能的需求,例如进行文献检索的能力。它还可能引入新技能,例如提示工程(设计和制作用于提示会话 AI 模型的文本的过程)。某些技能的丧失不一定是问题(例如,大多数研究人员不再手动进行统计分析),但作为一个社区,我们需要仔细考虑哪些学术技能和特征对研究人员仍然至关重要。

如果我们只关心性能,那么随着 AI 技术的进步,人们的贡献可能会变得更加有限和模糊。未来,AI 聊天机器人可能会生成假设、开发方法、创建实验、分析和解释数据以及撰写手稿。代替人类编辑和审稿人,人工智能聊天机器人也可以评估和审阅文章。尽管我们距离这种情况还有一段距离,但毫无疑问,对话式 AI 技术将越来越多地影响科学出版过程的各个阶段。

因此,包括伦理学家在内的学者们必须就人工智能的使用创造潜在的知识生成加速与研究过程中人类潜能和自主权的丧失之间的权衡进行辩论。人们的创造力和独创性、教育、培训以及与他人的富有成效的互动对于开展相关和创新研究可能仍然至关重要。

5. 扩大辩论

鉴于 LLMs 的颠覆性潜力,研究界需要组织一场紧迫而广泛的辩论。首先,我们建议每个研究小组立即开会讨论并亲自尝试 ChatGPT(如果他们还没有的话)。教育工作者应该与本科生讨论它的用途和道德规范。在这个早期阶段,在没有任何外部规则的情况下,负责的小组领导和教师确定如何以诚实、正直和透明的方式使用它并就一些参与规则达成一致是很重要的。应提醒研究的所有贡献者,他们将对自己的工作负责,无论其是否由 ChatGPT 生成。每个作者都应该负责仔细核查他们的文本、结果、数据、代码和参考文献。

其次,我们呼吁立即召开一个持续的国际论坛,讨论发展和负责任地使用 LLM 进行研究。作为第一步,我们建议为相关利益相关者召开一次峰会,包括不同学科的科学家、科技公司、大型研究资助者、科学院、出版商、非政府组织以及隐私和法律专家。已经组织了类似的峰会来讨论和制定应对其他破坏性技术(例如人类基因编辑)的指南。理想情况下,这种讨论应该为所有相关方提供快速、具体的建议和政策。我们提供了一份可以在本次论坛上讨论的问题的非详尽清单(参见“辩论问题”)。

要解决的一个关键问题是对研究中多样性和不平等的影响。LLMs可能是一把双刃剑。它们可以帮助创造公平的竞争环境,例如消除语言障碍并使更多人能够编写高质量的文本。但可能的是,与大多数创新一样,高收入国家和享有特权的研究人员将很快找到利用 LLMs 的方法,以加速他们自己的研究并扩大不平等。因此,重要的是,辩论要包括来自研究中代表性不足的群体和受研究影响的社区的人,以将人们的生活经历作为重要资源。

与社会的许多其他领域类似,科学现在面临着人工智能技术引发的清算,侵犯了其最珍视的价值观、实践和标准。重点应该放在把握机遇和管理风险上。我们相信,科学将找到一种方法,从对话式 AI 中获益,同时不会失去许多重要方面,这些方面使科学工作成为最深刻和最令人满意的事业之一:好奇心、想象力和发现。

辩论问题

在有关对话式 AI 的论坛上讨论的问题。

• 哪些研究任务应该或不应该外包给大型语言模型(LLM)?

• 哪些学术技能和特征对研究人员仍然至关重要?

• 人工智能辅助研究过程中的哪些步骤需要人工验证?

• 应如何改变研究诚信和其他政策以解决LLMs问题?

• LLMs应如何纳入研究人员的教育和培训?

• 研究人员和资助者如何帮助开发独立的开源LLMs并确保模型准确地代表科学知识?

• LLM 应达到什么样的质量标准(例如,透明度、准确性、偏见和来源信用)以及哪些利益相关者对标准和 LLMs 负责?

• 研究人员如何确保LLMs促进研究公平,并避免扩大不公平的风险?

• 应如何使用LLMs来加强开放科学的原则?

• LLMs对科学实践有什么法律影响(例如,与专利、版权和所有权相关的法律法规)?

本文转译自nature最新comment:

仅供参考和讨论。

对话式人工智能:机遇与挑战并存

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!