国产ChatGPT「套壳」的秘密,现在被找到了
未分类

国产ChatGPT「套壳」的秘密,现在被找到了

衡宇 发自 凹非寺量子位 | 公众号 QbitAI “科大讯飞套壳ChatGPT!”“百度文心一言套皮Stable Diffusion!”“商汤大模型实则抄袭!”…… 外界对国产大模型产生质疑已经不是一次两次了。 业内人士对这个现象的解释是,高质量的中文数据集实在紧缺,训模型时只能让采买的外文标注数据集“当外援”。训练所用的数据集撞车,就会生成相似结果,进而引发乌龙事件。 其余办法中,用现有大模型辅助生成训练数据容易数据清洗不到位,重复利用token会导致过拟合,仅训练稀疏大模型也不是长久之计。 业内渐渐形成共识: 通往AGI的道路,对数据数量和数据质量都将持续提出极高的要求。 时势所需,近2个月来,国内不少团队先后开源了中文数据集,除通用数据集外,针对编程、医疗等垂域也有专门的开源中文数据集发布。 高质量数据集虽有但少 大模型的新突破十分依赖高质量、丰富的数据集。 根据OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸缩法则(scaling law)可以看到,独立增加训练数据量,是可以让预训练模型效果变更好的。 这不是OpenAI的一家之言。 DeepMind也在Chinchilla模型论文中指出,之前的大模型多是训练不足的,还提出最优训练公式,已成为业界公认的标准。 △主流大模型,Chinchilla参数最少,但训练最充分 不过,用来训练的主流数据集以英文为主,如Common Crawl、BooksCorpus、WiKipedia、ROOT等,最流行的Common Crawl中文数据只占据4.8%。 中文数据集是什么情况? 公开数据集不是没有——这一点量子位从澜舟科技创始人兼CEO、当今NLP领域成就最高华人之一周明口中得到证实——如命名实体数据集MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整体数量和英文数据集相比可谓九牛一毛。 并且,其中部分已经老旧,可能都不知道最新的NLP研究概念(新概念相关研究只以英文形式出现在arXiv上)。 中文高质量数据集虽有但少,使用起来比较麻烦,这就是所有做大模型的团队不得不面对的惨烈现状。此前的清华大学电子系系友论坛上,清华计算机系教授唐杰分享过,千亿模型ChatGLM-130B训练前数据准备时,就曾面临过清洗中文数据后,可用量不到2TB的情况。 解决中文世界缺乏高质量数据集迫在眉睫。 行之有效的解决方法之一,是直接用英文数据集训大模型。 在人类玩家打分的大模型匿名竞技场Chatbot Arena榜单中,GPT-3.5在非英文排行榜位居第二(第一是GPT-4)。要知道,96%的GPT-3.5训练数据都是英文,再刨去其他语种,用来训练的中文数据量少到可以用“千分之n”来计算。 国内top3高校某大模型相关团队在读博士透露,如果采用这种方法,不嫌麻烦的话,甚至可以给模型接一个翻译软件,把所有语言都转换成英语,然后把模型的输出转换为中文,再返回给用户。 然而这样喂养出的大模型始终是英文思维,当遇到成语改写、俗语理解、文章改写这类含有中文语言特色的内容,往往处理不佳,出现翻译错误或潜在文化的偏差。 还有个解决办法就是采集、清洗和标注中文语料,做新的中文高质量数据集,供给给大模型们。 开源数据集众人拾柴 察觉现况后,国内不少大模型团队决定走第二条路,着手利用私有数据库做数据集。 百度有内容生态数据,腾讯有公众号数据,知乎有问答数据,阿里有电商和物流数据。 积累的私有数据不一,就可能在特定场景和领域建立核心优势壁垒,将这些数据严格搜集、整理、筛选、清洗和标注,能保证训出模型的有效性和准确性。 而那些私有数据优势不那么明显大模型团队,开始全网爬数据(可以预见,爬虫数据量会非常大)。...
AIGC产业峰会在京举行,探讨AI新纪元下的机遇与挑战
未分类

AIGC产业峰会在京举行,探讨AI新纪元下的机遇与挑战

首次中国AIGC产业峰会在京举行,由量子位主办,探讨了包括大模型、生成式AI、ChatGPT等在内的 时下热议趋势和话题,并发布了首份中国AIGC产业全景报告暨中国AIGC 50。AIGC时代下新机遇和新挑战,以及展望新未来。NLP领域领军人物周明博士讲述了ChatGPT对NLP技术的颠覆,并提到ChatGPT和文心一言为代表的应用已展现出产品化、商业化潜力。百度集团副总裁袁佛玉分享了文心一言持续带来的技术、商业和产业变革。此外,北京智源研究院副院长兼总工程师林咏华和微软大中华区首席战略官关玮雅分别从底层技术和战略规划的角度探讨了AIGC产业的发展。
AIGC产业峰会盛大召开,探讨AI新纪元下的机遇与挑战
未分类

AIGC产业峰会盛大召开,探讨AI新纪元下的机遇与挑战

本文介绍了首届中国AIGC产业峰会的相关信息。该峰会由量子位主办,旨在探讨大模型、生成式AI、ChatGPT等当下热门话题。会议发布了首份中国AIGC产业全景报告和中国AIGC 50,展望了中国AIGC产业的未来。与此同时,百度集团副总裁袁佛玉分享了文心一言的技术、商业和产业变革。另外,北京智源研究院和科大讯飞等公司也分享了他们在AIGC产业中的经验和见解。总之,本次峰会为业界提供了一个交流平台,以便更好地应对AIGC时代带来的机遇和挑战。
AIGC产业峰会在京举行,探讨ChatGPT时代的新机遇与挑战
未分类

AIGC产业峰会在京举行,探讨ChatGPT时代的新机遇与挑战

首届中国AIGC产业峰会近日在北京举行,聚焦大模型、生成式AI、ChatGPT等当下热点话题,并发布了首份中国AIGC产业全景报告暨中国AIGC 50。 Attendees included representatives from industry, research, and education, as well as leaders from technology companies such as Microsoft and Baidu. The event explored the new opportunities and challenges brought about by the AI revolution, and discussed how Chinese companies can best seize these opportunities.