AIGC_666论文助手

研博论文

ChatGPT爆火，带飞这家上海公司

记者｜杨松编辑｜谭璐 “2023年，我觉得是人工智能进入新阶段的一个起点。” 提及当下大热的ChatGPT，达观数据董事长、CEO陈运文兴奋地告诉《21CBR》记者，其写出来的内容，相较之前的计算机写作有了质的飞跃，写作能力已经超过了普通人。陈运文觉得，ChatGPT与自己的创业项目，有“非常强的相关性。”达观对文本进行智能化处理，与ChatGPT本质上是一致的，都使用到了自然语言处理技术。人工智能技术主要应用在三个方面，语音识别、图像识别、自然语言处理。前两个领域进展迅速，已经上市的商汤、科大讯飞等公司，业务均集中在图像、语音方面。 2008年从复旦大学博士毕业后，陈运文的工作一直围绕着“人工智能”和“文本”，先后担任盛大文学首席数据官、腾讯文学高级总监、百度核心技术研发工程师等职务。 2015年，陈运文创办了专注于智能文本机器人公司达观数据。创业初期，他组建了一个算法团队，参加全球算法竞赛，两次获得世界冠军。经过7年技术研发，达观首创了国内第一套文本智能处理IDP处理平台，行业无锚点OCR文字提取系统，以及独家开发RPA（机器人流程自动化）文字元素自适应穿透捕获算法。产品应用方面，达观的业务已遍布金融、制造、政务等细分领域。天眼查显示，2022年3月，达观数据完成C轮5.8亿元融资，投资方包括中信证券、招商证券、广发证券、中信建投等券商，累计融资额超过10亿元。陈运文透露，今年公司的营收有望超过历史上任何一年，预计会完成新一轮融资。以下为陈运文自述：加速研发 ChatGPT所运用的技术原型，在2017年就诞生了，我们叫做Transformer模型，既可以用来做文档资料的阅读理解，也可以用来写作。我印象中人工智能上一次这么热，还是2016年AlphaGo下围棋。6年之后又有一个非常巨大的技术突破，挺鼓舞人心的。行业内有句话，自然语言理解，是人工智能皇冠上的明珠。我之前估计，人工智能的水平超过人类，需要5-10年，现在时间进程大大加快。2023年人工智能进入一个新的阶段,标志着新时代的开始。 ChatGPT背后的大模型技术，是通过海量文档资料进行深度学习，智能程度已经达到非常高的水平。不仅能直接给出选择题的答案，还可以帮用户写代码、找bug，写各种各样的文档资料。大家对人工智能的未来前景也越来越乐观，以前觉得人工智能做不了的事情，接下来会一点一点实现，超过人类的相应能力。达观所从事的研究领域，是文档资料的智能处理，与ChatGPT的工作原理类似。达观的产品则应用在企业级领域，面向更为垂直的行业。不过，通用大语言模型与专用模型，有很大差异。如果用户问ChatGPT一些专业性问题，还是会发现它的回答可能东拉西扯，说不到重点或不够深刻。我曾问过关于自然语言处理领域特别专业的技术知识，它的回复不太好。在垂直领域，还是需要类似达观所提供的专用语言模型。在自然语言处理领域，OpenAI（ChatGPT背后的公司）的模式已经走通，我们可以跟随，并在垂直领域做得更好，未来会有非常优秀的国产语言大模型。达观在2021年建立了一个专家工作站，与复旦大学计算机科学技术学院教授黄萱菁合作，她也是国内自然语言处理领域的知名专家。今年，达观和复旦大学联合实验室的重点任务，在AIGC（AI Generated Content，利用人工智能技术生成内容）领域，争取推出优秀的成果。 ChatGPT的大热，也给我们研发团队更大的压力。以前觉得技术没那么快成熟，而美国同行做出了这么优秀的产品，我们需要加速研发进度。我自己是研发出身，现在也是管研发更多一些。时不我待，近期研发同事都在加班。我对达观今年的研发期望很大，希望在专用语言模型和知识图谱方面均有所突破。行业样本过去几年，我们围绕文档资料处理，研发了很多相关技术和产品。比如，针对文档扫描环节，我们开发了达观OCR（文字扫描）相关平台；推出模拟重复性操作文档资料的RPA功能模块，不管是纸质还是电子版的文档资料，达观平台都能处理。针对不同行业，我们在研发产品时，需要行业内大量专有语料数据，对系统进行强化训练。达观招聘了很多垂直行业的业务专家，也跟行业领先的公司合作，比如，和很多金融行业的头部银行、证券公司合作，将业务专家的专业知识引入语音模型中，让系统拥有专家能力。金融行业的文书工作很多，比如各种信贷报告、招股书、研报等，需要大量的文档处理工作，且对准确率要求高，AI系统非常有优势。这个领域的人才成本比较高，期望利用AI系统提高效率，达观产品内嵌到金融公司内部的作业系统中，几乎是员工日常工作的标配工具。比如银行的流水核查，甚至更复杂的财报中数据出现矛盾，通过系统都能鉴别出来。计算机处理文字资料的效率，大概是普通白领员工的100倍，可以24小时工作，对很多行业来说是非常有价值的。例如进出口企业，海外订单可能是半夜才到，需要系统立即处理，而不是等到第二天员工上班才去处理。证券领域，前30大券商都是达观的客户。其中4家头部企业在几年前已经使用产品，后来也成为了我们公司的股东。行业类产品，从研发到成熟到大规模复制普及，整个过程需要一定周期性。达观通常从市场容量高的行业优先切入，目前布局了金融、制造等板块。在自然语音处理领域，国内外有很多大平台，比如百度、谷歌都有多年积淀。互联网巨头未来可能会推出面向个人用户端的通用语言大模型，而类似达观这类TO B初创公司，则专注于垂直领域的专用大模型，会有一个差异化发展路径。在文档资料领域，除了审核还有写作环节。智能化写作将是达观重要的技术突破点，完成之后就能形成产品闭环。万亿市场在去年的艰难环境中，我们是AI行业增长最快的公司，团队做了很多努力，挺不容易的。今年整个经济形势及市场信心回暖得非常快，我觉得今年的收入和业务发展，应该超过公司历史上任何一年。...

0 0

本科论文

风头仍劲的ChatGPT，真的会引领未来技术走向吗？

人工智能正在把我们带入一个新纪元，从很多维度看都是如此。首先是一个叫作“人工智能生成内容”（Artificial Intelligence Generated Content，AIGC）的概念开始得到认可。它区别于之前的用户生产内容（User Generated Content，UGC），也不同于更早期的专业机构生产内容（Professionally Generated Content，PGC）。这个历程既表明了内容生产主体的切换，意味着具备生产能力和掌握发布权力的主体，正在从象征着“内容民主化”的个人，转移到善用AI辅助创作的“超级个体”——甚至可以是独立工作的AI本身；同时，它也意味着，AI能施展魔法的疆域正在跨越一个分界点：从“判别式领域”迈入“生成式领域”。过去，AI被认为只能做好判别性的工作。比如，判断一张图片中的人脸是不是特定的某人，一封来自未知地址的邮件是否为垃圾邮件，一篇分享到社交网络中的文章是否带有负面情绪，或者在一辆自动驾驶汽车前面晃动的到底是需要避开的真人还是无须在意的树影。 2022年面世的两个文生图产品改变了人们对AI的能力偏见。一个是DALL·E 2，发布者是后来因推出ChatGPT闻名的硅谷初创公司OpenAI。另一个是Stable Diffusion，出自位于伦敦、同样是初创公司的Stability AI之手。两个产品的图片生成水平第一次让业界看到商用可能。此前，业界最优秀的图像生成工具是生成对抗网络（Generative Adversarial Network，GAN），只能生成特定图片——比如人脸，换成小狗就不行，得重新训练——DALL·E 2和Stable Diffusion没有这种局限性。上一个让业界看到商用可能并大获成功的AI技术是图像识别。2015年，基于深度学习的计算机视觉算法在ImageNet数据库里的识别准确率首次超过人类。此后，人脸识别系统迅速取代数字密码，成为最新潮的身份标识；可识别商品的自助结算系统也很快进入各类线下门店；连追求安全至上的自动驾驶都用上了AI的视觉判断。 Stable Diffusion和DALL·E 2的商业前景毋庸置疑，但它们关于AI新时代的开启充其量只是报幕员，ChatGPT才是主角，因为只有它解决了语言问题——起码看起来如此。语言问题的解决意味着新的交互革命，这是AI新纪元的另一个涵义。科幻作家特德·姜（Ted Chiang）体验ChatGPT后，将其背后的AI模型（GPT）比作互联网的“有损压缩”，意思是，当它学习了所有网上文字的统计规律后，就相当于获得了一个互联网信息的压缩版本——信息有所损失，但没那么多，重要的是，我们需要保存的文件更小了。假使外星人袭来，互联网毁灭，只要GPT还在，理论上我们能通过询问它获得原本存储在互联网上的所有东西。事实上，不用幻想外星人入侵，特德·姜想象的这一天可能在不久之后就会到来。当人们可以用自然语言与机器交流，而机器不仅听得懂这些自然语言，还能与人对话、按照人的话语行事——回答人的问题、画一幅画或者创作一个视频、生成一款游戏，根据反馈意见再次修改，直到提出需求的人满意为止——这时候，每个人的电脑、手机上还需不需要安装那么多应用软件就值得重新考虑。也许，只留一个ChatGPT就够了。此刻，相信你对无论ChatGPT还是更大范畴的AIGC到底意味着什么已有足够感知，可能也听过不少业界的溢美之词，比如英伟达创始人黄仁勋称现在为“AI的iPhone时刻”，比尔·盖茨认为AI革命的重要性不亚于互联网的诞生，微软CEO纳德拉则表示这种技术扩散堪比工业革命。我们打算就此打住，不再过多陈述包括ChatGPT在内的生成式AI可能掀起的产业革命——本期杂志的其余几篇文章会继续从不同视角讨论它。这里，我们后退一步，走到AIGC尤其ChatGPT的背后，看看这些最新出圈的AI明星究竟站在怎样的基石之上。 01 Transformer的力量 ChatGPT发布之后，OpenAI团队成员接受采访，说公众的热情程度让他们意外，因为“ChatGPT背后的大部分技术并不新鲜”。这一说法属实，外界与之类似的总结是：ChatGPT是一种新时代的“炼金术”，把一个语言统计模型和基于人类反馈的强化学习放在一起，然后就是用可以拿到的语料、估计可行的人工神经网络层数放在一起“炼丹”。但相较于2018年以前的AI模型，ChatGPT背后的GPT至少有一样东西是新的，那就是看待语言问题的视角。人下一个会说出口的词，往往是统计学上下一个最可能出现的词——这个理念在语言学界早已有之，但将这种想法开发成对话语言模型是第一次。在此之前，几乎所有号称使用自然语言与人对话的机器人，从百度小度到微软小冰，从亚马逊Alexa到苹果Siri，甚至拿到日本公民身份的Sophia，本质上都是基于搜索树的查询系统。而自然语言处理（Natural language processing，NLP）领域也被工程化地划分为文本分类、机器翻译、阅读理解、文章分级等数十种任务，每种任务都对应一种或几种算法模型。这些看似不同的问题背后其实是同一个问题。比如，如果一个对话机器人“足够聪明”，聪明到可以在电影评论中预测下一个单词，那么它一定能完成一个简单的正负分类任务，成为一个电影分类器——区分动画片、爱情或者科幻电影——接管之前判别式AI所做的工作。通关密码就是2017年Google Brain团队写在论文里的Transformer（转换器），GPT的历代模型都基于这一算法架构。工作时，它会计算每个词与之前输入和生成的其他词之间的依赖关系（通常被称作“自注意机制”）。在最新发布的版本GPT-4中，模型能够注意到的单词量多达24576个。 Transformer认为，语言的内部数据之间长跨度地相互依赖，Transformer所做的工作，就是将既有文字的“内部依赖关系”转换到未来的文字中去，也就是“生成”。信息内部的基本要素之间相互依赖，且具有预测功能——这种看待语言的视角之后也被用到了图片上。2021年，Google Brain团队再次推出一个叫“视觉转换器”（Vision Transformer，ViT）的模型，通过计算同一图像中像素与像素之间的依赖关系来识别图像。在此之前，语言和视觉被视为不同的东西。语言是线性的、序列的，视觉则是一种有空间结构的、并行的数据。但Transformer证明，图片也可以当成序列问题来解决，一张图片就是由像素起承转合地构成的句子。不仅图片，大部分问题都可以转化为序列问题。不要小看这种思维的转变。2018年，DeepMind发布的AlphaFold具有预测蛋白质结构的能力，靠的就是对氨基酸序列的学习，其背后架构也是Transformer。 02 语言的价值...

0 0

本科论文

ChatGPT：未来已来？它将如何改变生活与工作？

清华大学新闻学院教授沈阳对ChatGPT进行了分析，指出其通过连续追问和多轮对话展现逻辑关联，显著功能在于撰写文章和提供架构，目前相当于211本科生水平。未来，ChatGPT与虚拟人、机器人结合将是趋势，可在数字藏品等领域提升效率。然而，沈阳也提到ChatGPT可能带来的问题，如内容可信度、回答复杂性增加以及在价值观偏见方面存在不足，这引发就业和教育领域的争议，提醒人们需理性看待其潜在影响。

0 0

期刊论文

ChatGPT：未来已来？人工智能聊天机器人革命与挑战探讨

ChatGPT，一款由OpenAI研发的先进聊天机器人，通过L3工程师测试，年薪高达18.3万，其月活跃用户增长迅速，已破亿，成为现象级产品。ChatGPT被评价为语言模型、搜索工具和文本创造工具，尽管在搜索功能上存在局限性（依赖客观语料且易出错），但展现了强大的语言生成能力和“泛化性”。然而，它无法进化或创新，只能复述训练集内容，对特定问题有良好应答，但在需要理解深度和原创思维的领域应用有限。ChatGPT主要用作工具而非研究平台，其在学术写作上的能力值得怀疑。随着科技巨头纷纷布局AI生成内容(AIGC)，相关概念正引起上市公司关注，而ChatGPT作为此类技术的代表，将继续引领行业动态。

0 0