文章主题:零点有数科技, ChatGPT, 语言模型, 应用前景
图片来源 @视觉中国
文 | 零点有数科技
ChatGPT 作为 OpenAI 最新的语言模型,具备与其他大型语言模型相似的生成文本能力,且在准确度、叙述细节以及上下文连贯性方面具有更为出色的表现。当前,ChatGPT 在众多领域展现出广阔的应用潜力。然而,任何技术的应用都需要遵循一定的原则,深入理解其背后的运作原理及存在的局限性,才能使这项技术发挥出最大的价值。
01 ChatGPT 概述
ChatGPT 是 OpenAI 最新的语言模型,较其前身 GPT-3 有大幅提高。与其他大型语言模型一样,ChatGPT 能够以不同的样式和目的生成文本,并且在准确度、叙述细节和上下文连贯性方面表现更加优异。作为 OpenAI 最新一代的大型语言模型,ChatGPT 的设计非常注重交互性。为了调优 ChatGPT,OpenAI 使用了监督学习和强化学习的组合,其中强化学习的组件使其独一无二。OpenAI 使用了 ” 人类反馈强化学习 “(RLHF)的训练方法,该方法在训练过程中利用人类反馈,以最小化无用、失真或有偏见的输出。
目前来看,ChatGPT 在很多领域都有广泛的应用前景,并且它的操作简单,对用户非常友好。但任何工具的应用都是有前提的,了解其背后的工作机制和局限之处,才能更好地利用这项技术,零点有数数据科学家将基于此谈谈 ChatGPT 在应用时需要注意的几个方面。
02 ChatGPT 的局限之处
多场景问题一是标注数据。诸如回答内容存在事实性错误,对于确定的事实,其给出的答案无法达到高置信度,对于常识性的知识问题不能高效地给出符合日常认知的答案。大模型训练所需语料涉及面非常广,仅就人文学科而言,就存在非常庞杂的知识的语料,因此,在标注过程中,相关任务对标注人员的知识面、逻辑思考能力等都有极高的要求。在此基础上,还需要针对更多语料中提及的知识进行自动抽取,反复校验,才可一步步改进。如下图,关于古诗《登鹳雀楼》的提问,ChatGPT 未能给出符合常识的回答,包括古诗的原文和作者信息。
二是数据理解。对于简单的数据说明可以顺利地进行比较分析,但面对略复杂的语义理解要求回答比较困难,对于中文丰富的词汇体系、语法和句法的特点,特别是涉及近义词之间的差别和近义程度的区分,还需要补充更多更广泛的训练数据、做进一步的训练和优化,才能修正相应问题。示例如下图。三是数据分析能力。由于数据理解和分析能力暂未完善,ChatGPT 目前无法正确有效地进行数理逻辑计算。如下图所示,针对四人四天喝四桶水,八人八天喝多少桶水的数据计算问题,并没有一次性形成合理的计算逻辑链路,给出正确的计算结果。
答复的生成内容不具备实时性
知识库信息未能实时更新。由于 ChatGPT 目前的版本仅支持 2021 年之前的语料信息提问,其回答的内容没有进行实时信息关联。训练一个模型的人力成本较大、时间周期较长,短期内难以有效地更新学习即时性的知识信息。
俄乌战争起始于 2022 年 2 月,而 ChatGPT 使用的最新训练数据只截止到 2020 年,因此对于最近发生的俄乌战争事件,无法给出具有时效性的情况分析。模型能力覆盖广,但专业深度仍有提高空间模型复杂度,丰富性和通用性足够高,但对于某个专业领域方向的资深知识信息结构认知仍有提高空间。在上述的问答中,ChatGPT 对于网络通信中的信息增益率公式只给出了概述性的描述,并未有效地展示公式的符合化表示及解释说明。
03 ChatGPT 场景应用问题
ChatGPT 的广泛应用虽然在许多领域中都展现了其强大的适应性,但也揭示了一些需要我们关注的问题。在一定程度上,ChatGPT 的出现给各个领域带来了全新的挑战。以教育教学为例,学生在学习过程中过度的依赖 ChatGPT,甚至直接询问,这不仅影响了他们对于知识的深入理解和掌握,而且也无法有效地培养他们的解决问题的能力,甚至可能导致过度依赖,这对于学生的创造力和教育的发展都是不利的。在公共安全领域,ChatGPT 的应用也引发了一些问题。例如,它可以模仿不同人员的对话习惯,结合语音合成功能,实现高仿真的人类交流和互动。如果这种功能被应用于诈骗等犯罪行为中,可能会加重社会的治安问题,威胁社会稳定。此外,随着 ChatGPT 模型的训练和使用,数据治理的风险也在增加,尤其是涉及到国家安全、商业机密和个人隐私等敏感数据。虽然 ChatGPT 模型训练所使用的数据通常是大量可公开的知识和数据,但是基于现有的技术研发数据管理体制,可能无法确保直接相关的敏感数据或通过公开数据研究得出的敏感数据不会被泄露。最后,ChatGPT 的广泛应用也引发了关于伦理道德的讨论。随着人工智能技术的不断发展,如何确保其在伦理道德的框架下合理应用,避免可能产生的负面影响,是我们必须面对和解决的重要问题。
在伦理道德层面上,个人、社会和国家都受到相应的影响。对于未成年人以及许多成年人来说,由于他们心智尚未成熟且稳定,因此在使用 ChatGPT 时,其个人观点容易受到直接或间接的影响,从而导致不适当的行为。从社会和国家的视角来看,如果 ChatGPT 被视为文化冲击的工具,可能会对社会和国家产生负面影响。
以上这些方面,都亟待相关技术方在技术层面对相关内容进行完善,对各种使用方进行权限的控制和监控,同时相关职能部门应从国家层面进行立法,进行合理的限制和管控。
04 关于 ChatGPT 算法的拓展构想
站在数据智能垂直应用的角度上,零点有数数据科学家基于丰富的业务经验,从以下四个方面谈了关于 ChatGPT 算法的拓展构想:
一是行业训练数据优势。ChatGPT 还需要进一步整合各行业历史沉淀数据,并将数据转换为高质量、有效的训练数据集,才能更好地提升行业应用模型的精度。
要提高推理能力,我们需要深入了解业务场景,并利用这些知识对未知业务场景进行推理和学习。为此,我们可以采用一种基于规则和向量表示的推理方法,将其转化为prompt的多层次学习推理过程,从而更好地应对各种情况。
三是实施动态的线上更新机制。这个机制能够实时地收集并分析线上数据,然后根据分析结果进行相应的模式化更新。这些更新结果将被迅速反馈到模型中,从而启动模型的自我调整过程,实现模型的长期反馈和学习。这种机制确保了模型的持续优化和提升,使其能够更好地适应不断变化的环境和需求。
四是合理挖掘发现行业应用场景。通过更深层次地将 GPT 技术与垂直行业的业务做融合,构建行业化的 GPT 模型,并服务于业务实际需求。(本文首发钛媒体 APP)
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体 App
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!