ChatGPT崛起:南开大学计算机科研成果助力华为Mate10,埃隆·马斯克高度认可
本科论文

ChatGPT崛起:南开大学计算机科研成果助力华为Mate10,埃隆·马斯克高度认可

南开大学的计算机科学与技术学科体系及其与宝德计算机系统股份有限公司等企业合作成果,得到了包括埃隆·马斯克在内的业界的认可。南开大学校友李瑞杰和张云分别担任该公司董事长和创始人,另一名校友周儒欣是北京北斗星通导航技术股份有限公司的董事长,还有校友陆婷娟在杭州某解放军医院担任信息工程师。
文心一言PKChatGPT:AI大语言模型的较量
期刊论文

文心一言PKChatGPT:AI大语言模型的较量

百度的“文心一言”和ChatGPT是两款不同类型的AI助手,前者专注于提供信息、知识和灵感,而后者则致力于多模态对话。尽管ChatGPT在英文对话方面表现优异,但文心一言在中文识别与作答方面更具优势。随着越来越多的企业接入文心一言生态,我国AI产业发展趋势愈发明显。
新的可能性于是,他开始了对类ChatGPT的研究,并在短短几个月内完成了第一个版本然而,马新并没有想到,ChatGPT的火爆程度会如此之高,连带着让他也受到
本科论文

新的可能性于是,他开始了对类ChatGPT的研究,并在短短几个月内完成了第一个版本然而,马新并没有想到,ChatGPT的火爆程度会如此之高,连带着让他也受到

本文介绍了国内团队正在研发类似于ChatGPT的大型语言模型。尽管这些技术可以用于文案宣传、智能营销、智能风控和代码编写等领域,但它们的复杂性和技术进步仍需要时间和努力。复旦大学计算机科学技术学院的邱锡鹏团队已经开发出了类ChatGPT模型MOSS,并在训练大型语言模型方面取得了进展。然而,大型语言模型的参数量仍然很高,需要大量的计算资源和智能投入。
人工智能时代,媒体人的未来该何去何从?
研博论文

人工智能时代,媒体人的未来该何去何从?

ChatGPT是由OpenAI开发的一款人工智能聊天机器人程序,能聊天、能写论文、能作诗编程,被誉为“大号Siri”。它的功能引起了广泛关注,甚至被视为可能会取代部分人类工作。面对这样的挑战,我们需要不断学习新技能,提升自身素质,以适应时代的变化。半撇私塾于2023年全新推出《新媒体自习室》,旨在帮助新媒体人及想要进入该领域的人士掌握相关技能,提高工作效率。
ChatGPT与MOSS:人工智能content生成技术的突破与应用
本科论文

ChatGPT与MOSS:人工智能content生成技术的突破与应用

本文介绍了人工智能内容生成技术ChatGPT及其应用场景,包括文案宣传、智能营销、智能风控和代码编写等。文章以踢足球比喻ChatGPT的技术难度,并提到了国内复旦大学计算机科学技术学院邱锡鹏团队研发的类ChatGPT模型MOSS。邱锡鹏团队在2022年开始研究大型语言模型,并在今年春节前成功让模型理解人类指令并具备对话能力。然而,MOSS在参数规模上仅为ChatGPT的1/10,且仍需不断优化。尽管如此,邱锡鹏团队仍将继续追求最前沿的AI模型研究。
国产ChatGPT「套壳」的秘密,现在被找到了
未分类

国产ChatGPT「套壳」的秘密,现在被找到了

衡宇 发自 凹非寺量子位 | 公众号 QbitAI “科大讯飞套壳ChatGPT!”“百度文心一言套皮Stable Diffusion!”“商汤大模型实则抄袭!”…… 外界对国产大模型产生质疑已经不是一次两次了。 业内人士对这个现象的解释是,高质量的中文数据集实在紧缺,训模型时只能让采买的外文标注数据集“当外援”。训练所用的数据集撞车,就会生成相似结果,进而引发乌龙事件。 其余办法中,用现有大模型辅助生成训练数据容易数据清洗不到位,重复利用token会导致过拟合,仅训练稀疏大模型也不是长久之计。 业内渐渐形成共识: 通往AGI的道路,对数据数量和数据质量都将持续提出极高的要求。 时势所需,近2个月来,国内不少团队先后开源了中文数据集,除通用数据集外,针对编程、医疗等垂域也有专门的开源中文数据集发布。 高质量数据集虽有但少 大模型的新突破十分依赖高质量、丰富的数据集。 根据OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸缩法则(scaling law)可以看到,独立增加训练数据量,是可以让预训练模型效果变更好的。 这不是OpenAI的一家之言。 DeepMind也在Chinchilla模型论文中指出,之前的大模型多是训练不足的,还提出最优训练公式,已成为业界公认的标准。 △主流大模型,Chinchilla参数最少,但训练最充分 不过,用来训练的主流数据集以英文为主,如Common Crawl、BooksCorpus、WiKipedia、ROOT等,最流行的Common Crawl中文数据只占据4.8%。 中文数据集是什么情况? 公开数据集不是没有——这一点量子位从澜舟科技创始人兼CEO、当今NLP领域成就最高华人之一周明口中得到证实——如命名实体数据集MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整体数量和英文数据集相比可谓九牛一毛。 并且,其中部分已经老旧,可能都不知道最新的NLP研究概念(新概念相关研究只以英文形式出现在arXiv上)。 中文高质量数据集虽有但少,使用起来比较麻烦,这就是所有做大模型的团队不得不面对的惨烈现状。此前的清华大学电子系系友论坛上,清华计算机系教授唐杰分享过,千亿模型ChatGLM-130B训练前数据准备时,就曾面临过清洗中文数据后,可用量不到2TB的情况。 解决中文世界缺乏高质量数据集迫在眉睫。 行之有效的解决方法之一,是直接用英文数据集训大模型。 在人类玩家打分的大模型匿名竞技场Chatbot Arena榜单中,GPT-3.5在非英文排行榜位居第二(第一是GPT-4)。要知道,96%的GPT-3.5训练数据都是英文,再刨去其他语种,用来训练的中文数据量少到可以用“千分之n”来计算。 国内top3高校某大模型相关团队在读博士透露,如果采用这种方法,不嫌麻烦的话,甚至可以给模型接一个翻译软件,把所有语言都转换成英语,然后把模型的输出转换为中文,再返回给用户。 然而这样喂养出的大模型始终是英文思维,当遇到成语改写、俗语理解、文章改写这类含有中文语言特色的内容,往往处理不佳,出现翻译错误或潜在文化的偏差。 还有个解决办法就是采集、清洗和标注中文语料,做新的中文高质量数据集,供给给大模型们。 开源数据集众人拾柴 察觉现况后,国内不少大模型团队决定走第二条路,着手利用私有数据库做数据集。 百度有内容生态数据,腾讯有公众号数据,知乎有问答数据,阿里有电商和物流数据。 积累的私有数据不一,就可能在特定场景和领域建立核心优势壁垒,将这些数据严格搜集、整理、筛选、清洗和标注,能保证训出模型的有效性和准确性。 而那些私有数据优势不那么明显大模型团队,开始全网爬数据(可以预见,爬虫数据量会非常大)。...
AI创作时代来临:ChatGPT与AIGC:智能创作时代探讨未来智能创意产业
本科论文

AI创作时代来临:ChatGPT与AIGC:智能创作时代探讨未来智能创意产业

文章主要介绍了近期火爆的AI助手ChatGPT以及其背后的技术原理,以及一位 expert 的观点。ChatGPT凭借其强大的通用性和广泛的应用场景,迅速吸引了大量用户,引发了人工智能领域的新一轮热潮。人工智能的发展已经从过去的选择题阶段进化到了能进行简答和创作的新时代。ChatGPT的技术基础在于超大参数规模和训练集,结合人类反馈的强化学习,使其具有了超强的理解和创作能力。此外,ChatGPT还具有广泛的应用场景,包括提供咨询、编写代码、写作、翻译、生成图像、音频、视频和游戏等内容。对于未来的发展,作者认为人工智能将会在创造性产业中扮演越来越重要的角色。