ChatGPT:文本处理与科学研究的革命性工具
期刊论文

ChatGPT:文本处理与科学研究的革命性工具

这篇文章主要介绍了人工智能助手ChatGPT在科研和学术领域的应用及其潜力。ChatGPT在文字处理、数据收集、计算和模型生成等方面展现出强大的能力,可以替代人工完成许多繁琐任务。例如,它可以从科学文献中获取典型参数,生成群体PK模型,开发可视化应用程序,以及用最小编码知识开发R代码。然而,也需要警惕用户滥用ChatGPT可能带来的问题,包括作弊、造谣、勒索和侵犯知识产权等。爱思唯尔等机构已经发布了一些政策,以尊重作者、审稿人和编者的权益。总的来说,ChatGPT有可能引发学术界的变革,促使研究人员更加注重真正的学术研究。
ChatGPT4时代的职场冲击:AI对普通人的影响与适应
研博论文

ChatGPT4时代的职场冲击:AI对普通人的影响与适应

这篇文章主要探讨了 AI 工具如 Chat-GPT 4 对普通职场人的影响。随着科技的发展,更多的行业开始广泛使用 AI 工具,提高了工作效率。Chat-GPT 4 的升级带来了更高效的体验,可以更快地完成任务,并提供了更多功能。但同时,AI 也对职场人的工作产生了一些影响,例如对数据安全的挑战以及对职场人要求的改变。总体而言,AI 工具的出现和发展正在改变着我们的工作和生活方式。
ChatGPT“火出圈”我们该“急眼”吗?中国经济网2023-02-20 09:30中国经济网2023-02-20 09:30
研博论文

ChatGPT“火出圈”我们该“急眼”吗?中国经济网2023-02-20 09:30中国经济网2023-02-20 09:30

能写论文、做翻译、编程序、出方案甚至代写情书、辞职信……最近,ChatGPT迅速火爆全网。它是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,能通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列任务。去年11月底诞生,在推出约2个月后,其活跃用户就突破1亿,成为历史上增长最快的消费者应用程序,与此相关的多个话题持续登陆各种热搜头条,一时间“10个公众号,8个在谈ChatGPT”。 ChatGPT为何能如此“火出圈”?它将给人类社会生活带来哪些影响?需要因此担忧随之而来的人工智能迅猛发展带来的挑战吗?针对诸多疑问,记者连日来走访了多位专家。 “火出圈” 是因为更“聪明”? “ChatGPT‘火出圈’是因为它能使人们直观感受到人工智能、自然语言处理等技术的进步。它以对话的方式进行交互,在文字和逻辑理解方面的性能提升显著,对于问题的理解和给出的解答是目前模型中表现最好的。”南开大学软件学院特聘研究员孙羽菲说。 作为人工智能技术研究工作者,南开大学人工智能学院副院长许静教授对ChatGPT的出现表示“非常兴奋”并“第一时间试用”:“从我的体验来说,回答问题的速度有些延迟,但回答的内容大多是准确的。” 许静说,最近几年,人工智能受到广泛关注,特别是谷歌的阿尔法围棋(AlphaGo)作为第一个战胜围棋世界冠军的人工智能机器人,引起大家兴趣,都很关注“机器人能不能超过人脑?”有说法称机器在处理规则方面能够超过人脑,却在处理大量知识方面很难超过人脑,但ChatGPT正是从浩瀚的知识中处理问题、解答问题,而且有些回答使我们感到意外,所以一经推出迅速火遍全球。 天津大学自然语言处理实验室负责人熊德意教授表示,ChatGPT“火出圈”的原因主要有两个:其一,它是一种普惠型的人工智能(AI)技术,以自然语言会话的形式与用户交互,普通大众都可以使用它,也就是说,ChatGPT天生具有广泛的用户基础。其二,基于大模型、AI对齐等技术,ChatGPT实现了语言智能技术的突破,在与用户的会话中,它通常能准确捕获用户的真实意图,完成包括文本生成、开放域问答、头脑风暴建议(如给出某个策划方案的提纲)、聊天、编写和修改代码、改写文本、生成摘要、翻译等用户通过人类自然语言方式交给它的任务,与以往对话式AI产品相比,ChatGPT表现令人惊艳,刷新了普通大众对AI会话水平的认识。 “其实ChatGPT模型并不是最近突然冒出来的,而是已有多年积淀。”南开大学计算机学院副院长、网络空间安全学院副院长刘晓光教授告诉记者,OpenAI从2015年开始陆续推出过3个模型,尤其GPT-3当时已在学界和业界产生很大影响,且是开源代码,带动了世界互联网企业和IT企业纷纷推出自己的大模型项目,但当时更偏向研究和技术能力展示。这次ChatGPT“火出圈”的原因,一是它作为直接面向公众应用的聊天软件,能逼真模仿人类对话,并对用户的提示作出详细的回应;二是其发布时正值国外学校考试季,一些学生直接用其生成由计算机抽取含义后重新组织的文字写作业和论文,十分“好用”,以致欧美许多学校明令禁止在课上使用该软件,引发火爆话题;三是它在业界产生了较大影响力,多名行业巨头评价其“好到吓人”“ChatGPT以及AI领域的进展令人激动”等,也助其引发极大关注。 “当然,ChatGPT火的根本原因是目前大家都比较认可它能较好完成相应功能,特别是与聊天、生成文本相关的,比如写个即时报告等,这方面能力已基本达到甚至有时还优于一个普通高校大学生。”刘晓光说,相对于人,计算机非常擅长在固定场景下干固定的事,但对根据具体场景自行组织文本回答则比较困难,学习能力更强、模型数据够大令ChatGPT远胜于具有同类核心技术的Siri、小度等智能助手。 不过,接受采访者也表示,ChatGPT远没到“封神”的地步。 “以前的模型是接着提示文本生成,比如提示‘今天天气’,它生成‘不错’。现在ChatGPT能做对话性的任务,代表它能执行命令了,这是一大改进。目前它的文字提取、润色做得十分优异,与人工差不多,但常识和计算方面是它的缺点,比如单位转化、时区转换及稍微复杂的数学问题就做不好,它的学习能力受限于材料的统计和汇总。”南开大学软件学院在读博士研究生钟震宇说,他试用时让该软件查去成都的旅游计划,“也许这个模型学习的文本中‘旅游’与‘北京’联系紧密,给我制定的成都旅游计划中出现了颐和园等北京景点。” 刘晓光试用时也发现,ChatGPT遇到偏专业性或冷门的问题会“一本正经地胡说八道”:“想让人工智能足够‘聪明’,需要有足够多的数据来训练它。训练数据中除了互联网上的静态数据,更重要的是用户的反馈数据。用户越多,它会改进越快、迭代式创新效果越好。” 火爆背后折射出什么? “ChatGPT不仅仅是一个聊天工具,它代表着人工智能的一次革新,也预示着人工智能将影响甚至改变我们未来的生活。”许静表示,人工智能技术经过几十年的发展,在特定领域已超过了人类。在通用人工智能方面,ChatGPT是一次全新的革命,会对各个行业各个产业的发展带来变革。我们人类周围,除了自然环境,还有我们发明的各种机器,这些机器都是为了延伸人类的某些技能。人工智能技术解决了人与机器的关系,让机器听得懂(语音)、看得懂(视觉)甚至自动驾驶等。之前的技术都是简单的交互,即机器服从简单命令,而ChatGPT是第一次机器与人的交互表现出了智能,这个模型可以做到知识的融合乃至自我学习,“这时候,我们该向机器学习了,要在知识之上提出更高级的需求,在机器迭代过程中,人类也逐渐进化,我认为这是我们对待人工智能技术进步的态度。” “ChatGPT火爆背后,首先是预示着一种深层次的信息革命。”在熊德意看来,人类发明计算机和互联网之后,获取、存储和使用信息的方式出现了翻天覆地的变化,但最近几十年基本上没有大的变动,主要以搜索引擎为主,呈现的信息通常需要用户进行二次处理或再加工才能满足要求,而ChatGPT呈现的信息通常可以直接满足用户需求,或通过交互方式逐步达到用户要求,“虽然目前还存在信息可靠性问题,但相信未来这些问题会不断得到改善。” 其次是人和机器关系会出现重大转变。以ChatGPT为代表的一类技术在精准捕获用户的真实意图方面迈出了一大步,一旦机器可以“理解”人类意图并完成相应任务,人和机器的交互就不再需要翻译成机器语言,而是直接使用人类语言作为交互载体。 再次是机器生成内容的能力大大增强。一些文字内容类工作,可以让机器辅助人类,使人的工作效率得到极大提升。“比如一些‘枯燥乏味’的文字工作可交给机器完成,人专注于更高层次的内容思想编辑工作,或通过人机交互方式协同生成更好的内容。”熊德意说。 产生“失业焦虑”,有必要吗? 对于ChatGPT的出现,有人感慨人工智能技术发展的速度,希望早日为我们的生活带来质的飞跃;也有人担心人工智能技术的发展太快了,会有负面影响,甚至会给我们带来灾难。 对于“失业焦虑”,许静表示,“机器人能否替代人类”,这是自人工智能技术开始研究之初就受到广泛关注的问题。ChatGPT出现后,在文字、绘画甚至写代码等方面都能展现出超强的能力,令一部分人感到恐慌,担心工作会被机器人替代。机器可以7×24小时工作,后台有庞大数据库的支持,可以解答我们学习生活中诸多问题,的确会有一些职业被取代。其实人工智能技术已经在很多行业替代了人类,国内外的无人工厂比比皆是,“我认为,人工智能的发展是为了解放人类、造福人类而决不是毁灭人类,在某些领域替代人类是不可挡的大趋势。一些职业被取代后,人类一方面可以进一步发明创造,另一方面还会有新的职业产生。人类的进步,就是要不断发明创造新的技术、新的机器来替代原有的机器、淘汰落后的行业,就像汽车取代马车,还有更先进的飞机可以带我们在天空翱翔,如果回到几百年前,这些都是不可想象的,所以没有必要对此感到恐慌。” 也有人在考虑选择一个将来不会被人工智能取代的职业。“我认为,在不远的将来,人工智能技术会渗透到我们生活的方方面面,就像现在的互联网,很多行业都离不开。与其选择不被人工智能替代的行业,不如拥抱人工智能,在自己从事的行业中,主动加入人工智能技术。可以预见,使用人工智能技术的工种会淘汰不使用人工智能技术的,各行各业都是如此。”许静说,相对因ChatGPT的出现导致“失业焦虑”的人,有些人因看到商机而十分兴奋,“就像有了互联网平台后,就可以开发购物、社交、娱乐,有了GPS后,就可以有导航、外卖点餐等,在ChatGPT走红后,一些中国科技企业也纷纷对外宣布自己已具备开发类似ChatGPT产品的能力,并着手进行产品的开发与上线准备,积极布局新业务,推动在这个模型之上的应用。” 熊德意说,基于上述趋势,未来人类获取信息的方式、与机器交互的方式都会出现变化,与人类意图、价值观、伦理准则高度对齐的信息智能体会帮助我们高效获取信息、生成信息和发布信息。以ChatGPT为代表的大模型及其后续更新技术会逐步充当各种机器、设备、机器人的“大脑”,人机之间的交互会更加以人为中心,而不是以机器为中心。 相应的技术会对多个行业、领域产生影响,如教育(规范使用ChatGPT等类型技术,避免学生使用它们做作业,发挥新技术对教育的积极辅助作用,而不是成为作弊利器)、医疗(将大模型技术应用于医疗问答、药物研发、DNA/蛋白质建模等)等,搜索引擎、办公软件等传统的计算机软件,也会受到影响和冲击。 “ChatGPT出来后,可能会重塑整个互联网行业格局生态。”刘晓光说,ChatGPT目前所“掌握”的知识、能给出的答案都在它学过的范围里,即现有的互联网上产生的知识,它会学习得很好,但不会创造新知识,“所以最容易被AI替代的是重复性劳动较多、不需要太多创造力的工作。” “技术突破对人类是好事。ChatGPT的确会对某些职业产生冲击,但目前它还远远达不到取代人类,作为工具的意义更大。”南开大学软件学院院长张玉志教授表示,就像会背诗和会写诗是两码事,ChatGPT对判断事物是否正确的能力尚弱,也无法完成创造性的工作,而人是能具有鉴别能力和创造力的,“ChatGPT对搜索引擎、人工客服的冲击可能更大些,应该会逐渐对其产生影响,但颠覆性的结果并非一朝一夕能完成。” ChatGPT 存在的短板 ●生成的内容仍然存在未对齐行为,未来在这方面需要进一步研究和突破。 ●以ChatGPT为代表的大模型技术通常被具有丰富算力和数据资源的企业垄断,不利于大模型技术研究和突破。 ●目前大模型的算力消耗非常庞大,模型轻量化技术需要进一步探索。 ●要提升模型的可解释性,要研制相关技术使得ChatGPT为代表的大模型技术可以自我追溯信息源头,增强可信性。 ●ChatGPT背后还存在很多科学问题未有明确答案。 距离大规模商业化应用还远吗? 在许静看来,ChatGPT在某些行业,比如客服,现在就已达到商业应用的需求了,主要需解决观念问题。在某些特殊领域,ChatGPT技术再加入领域知识、领域数据,使模型自我进化之后,就可以使用了。 熊德意则认为,ChatGPT技术虽然取得了重要进展,但仍然面临诸多挑战。第一,虽然采用了人类反馈强化学习(RLHF)AI对齐技术,但是生成的内容仍然存在未对齐行为,例如不符合常识,存在偏见、歧视等内容,信息真实性有时存疑(即“一本正经地胡说八道”),未来在AI对齐技术上需要进一步研究和突破;第二,以ChatGPT为代表的大模型技术通常被具有丰富算力和数据资源的企业垄断,且不开源,不利于大模型技术研究和突破;第三,目前大模型的算力消耗非常庞大,要实现大规模真实场景应用,模型轻量化技术需要进一步探索;第四,要提升模型的可解释性,要研制相关技术使得ChatGPT为代表的大模型技术可以自我追溯信息源头,增强可信性;第五,ChatGPT背后还存在很多科学问题未有明确答案,比如:大模型突现能力是如何形成的?语境学习机制是什么?AI对齐为什么使大模型具有指令泛化能力?这些科学问题的探索将会推动未来技术更好地发展。 “ChatGPT应用主要得看落地在哪些方面。”张玉志说,像搜索引擎,应该会很快投入应用,但像智能客服、撰写法律文书等在具体场景下一些背景知识的应用,路还比较长,“上TB级的数据,很考验企业能提供给模型的算力、数据量是否充足。人工智能公司也会考虑人工和模型的投入哪个成本大。这是个群策群力的事。” “中国版ChatGPT”有望很快出现? 随着ChatGPT引发的热议持续升温,谁将最先打造出“中国版ChatGPT”也令人关注。 “从以往的发展来看,在信息领域,我们的科技人员在利用已有平台发展新的场景和应用领域上有着独特的优势和快速的系统构建,但是在原始创新上还稍显不足。”许静介绍,目前国内有不少公司正在布局这一领域,百度已宣布将于3月正式推出旗下类ChatGPT应用“文心一言”。 熊德意表示,2020年OpenAI发布1750亿参数的GPT-3之后,国内企业和科研机构,同Google、微软、DeepMind、Meta AI等一样,于2021年至2022年间,研制了类似于GPT-3架构的千亿级大模型,因此,在底层技术上我们不存在任何问题。但是要实现“中国版ChatGPT”,需要在多个方面加强研究、压实工作。首先,在数据上,我们要使用与GPT-3相当的数据量和计算量训练模型,目前中文缺乏像英文那样的多个开源大规模数据集,各家企业使用的中文数据也很少开源,很多时候数据也未像OpenAI那样进行精选处理以提升质量;其次,国内在AI对齐研究上需要加强,尤其是在已经预训练的大模型上;再次,要充分调动以大模型为代表的新型AI技术的研发活力,鼓励已经研制的大模型接受广大用户检测,同时也要积极培育专攻某一类核心技术(如大模型AI对齐技术)的初创企业,不求短期市场回报。 “国内主要互联网公司其实都已有自己的大模型,他们要推出类似产品,技术上难度并不大,最重要的是跟自己原有的优势产品结合在一起。”刘晓光说,他了解到,目前百度“文心一言”一些相关功能已陆续在百度搜索内上线或内测,包括多答案回复、智能生成等,同时小度、爱奇艺、触宝等公司以及20多家媒体等平台已官宣接入“文心一言”,成为生态合作伙伴。 “相信国内在这一领域会越做越好。预计一到两年,我们也有可能拥有ChatGPT惊艳表现的国产化模型。”张玉志说。 还有哪些方面的风险 不容忽视...
ChatGPT产生版权纠纷的可能与不可能中国日报网2023-02-20 15:03中国日报网2023-02-20 15:03
研博论文

ChatGPT产生版权纠纷的可能与不可能中国日报网2023-02-20 15:03中国日报网2023-02-20 15:03

ChatGPT作为语言模型人机沟通产品在信息市场的投放,迅速形成全球性新话题场域,引发包括经济投资界、政治公共话语界、跨语际文化思考者乃至宗教信仰者们的普遍关注。当作为场域存在时,人们更多地关注这一产品的现状和未来趋势的各种可能性,不仅限于制度化的规范和梳理,哪怕是超越了现有的伦理道德而进入想象空间,都未尝不可。但作为规则或者规则假设,则需要从现有的法律规则出发去考量,考量的范围需要回溯到这一语言模型的数据训练原理、社会分工参与以及外部成果呈现等三个阶段。这里最直接和最相关的调整规则,不是约定商业获利模式的合同法,也不是提问者与计算机软件权利人OpenAI公司之间冗长的用户协议,而是版权法。 版权法贯穿了ChatGPT语言模型的全过程,包括上述三个阶段。据此,给法律界提供了一个恰当且具有公共性的维度。由于国家主权的客观存在并随着全球贸易摩擦的加剧,版权产品的市场交易和法律管制,普遍存在地域性问题。ChatGPT的用户协议里面约定了发生版权或使用法律纠纷的管辖权、审判地和法律选择均以加利福尼亚州旧金山为中心,因此,跨国际应用所产生的版权法律问题,涉及到国际私法中的冲突规范以及适用冲突规范的制度等复杂问题。为获得更为准确的版权法分析结论,我们有必要将分析框架和分析准则设定为中国版权法,即中国著作权法。需要记住的是,这只是一个假定。 遵循逻辑学三段论大前提、小前提的要求,在固定了大前提框架之后我们需要进一步审视ChatGPT人机对话语言模型的工作方式。用程序员的语言来描述这一工作,可以表达为“输入”与“输出”。输入过程按照Stephen Wolfram的解释,是一个从基础模型概念到构造神经网络的过程。这是一个复杂的内部学习过程,需要语言训练和知识筛选以及大量语料的参与。从人的角度而言,这一过程偏向于物料搅拌的过程,情感审美、价值观念和信仰偏好并未参与其中。在该过程中可能出现语料基于主权壁垒、语言区隔、数量大小的偏差,最终导致输出结论的偏差;甚至可能出现为达到某种目标,大量人为制造语料进而引导结论的隐秘行为。在这种隐秘行为之下,语料制造者或者作品作者更为看重的并非版权而是版权之外的其他目标。因此,放弃版权而促进语料参与ChatGPT语言模型工作显然是更佳的战斗策略。以侵犯版权为由去追究该计算机软件权利人的侵权责任,或者投入法律资源以满足繁复投诉要求,都不是优质选项。特别是在我们将该场域视为舆论争夺和价值观较量的新兴领域的条件之下,版权责任问题往往可以通由其他方式得以高效解决。从“输入”过程的特性来看,语言训练的过程不大可能产生侵犯版权的问题,理由是,这一过程具有内部属性。我们将训练行为和语料采集行为作区分,在未经授权的情况之下,破坏他人的版权保护技术措施而获得作为训练语料的作品,当然可能构成侵权。但如果是搜索、获取已经发表并未采取接触保护技术措施的作品,进而作语言训练并建立内部知识结构,则这一阶段不具有侵权的可能性。 人机对话过程的“输入”,还需要有提问者的参与,这是不可或缺的角色。问题本身不会有侵犯他人版权的法律风险,但可能存在被机器收集个人信息的数据风险。数据不平等不单单存在于机器语言的训练过程,也存在提问者与ChatGPT之间。除了作为算法的存在,ChatGPT还是一个海量的数据库,而且跨语言。根据使用者的调查并向ChatGPT征询,ChatGPT目前对提问的回答,其答案的方向仍然基于问题的语言,并不做跨语际回复。语言包含价值和价值冲突,ChatGPT作为机器或者软件,无法作出人类的价值判断或情绪表达。提问者所使用的语言,成为重要的个人数据,当提问足够多的时候,对话软件可以对用户画像并可能投其所好,甚至有意误导。如此一来,不同人哪怕提出同一个问题,ChatGPT给出的回复完全可能是不相同的,甚至是对立的。当这些个人数据足以影响到个体隐私或者声誉等利益的时候,作为收集者和商业利用者的软件平台ChatGPT可能需要承担包括财产和精神上的民事责任。 作为结论的“输出”,由于具有明显的外部显示性,成为版权法观察者的重点。从外观来看,ChatGPT的输出结果是文字表达,法律性质上属于较为明显的文字作品。按照实质性相似判断规则进行比对,再加上文字重复率的量化计算,很容易判断是否构成对版权作品的侵权。OpenAI公司并不否认自己产品的输出成果可能会侵犯到他人作品的版权,在作出权利声明的同时提供了明确的投诉路径和解决方案。通过实验,ChatGPT对这一问题作出了类似的回复。免除侵权责任可能性也是存在的,合理使用制度确保了这一可能性的实现,商业化与否则是是否能够适用合理适用制度的核心构成要件。对OpenAI公司而言,商业盈利是其终极目标,哪怕目前处于不收费的试验阶段,但其Plus收费模式将紧随其后。对用户而言,提出问题、获得答案,具有强烈的个人使用属性,一般不构成商业行为。但如果确有后续的商业使用行为,那么也有可能构成侵权行为。哪怕这一问一答构成了社会分工角度的合作作品,也难以免除其侵权责任。 说在最后的话:ChatGPT提供了新话题场域,但尚不足以构成对版权规范的挑战,更不用说重塑或者重构。说到底,还是人工智能及其成果的话语体系。 (作者系西南政法大学民商法学院、知识产权学院,副教授、硕士生导师 康添雄) 来源:中国日报网 举报/反馈