未分类_Page 20_666论文助手

未分类

国产ChatGPT「套壳」的秘密，现在被找到了

衡宇发自凹非寺量子位 | 公众号 QbitAI “科大讯飞套壳ChatGPT！”“百度文心一言套皮Stable Diffusion！”“商汤大模型实则抄袭！”…… 外界对国产大模型产生质疑已经不是一次两次了。业内人士对这个现象的解释是，高质量的中文数据集实在紧缺，训模型时只能让采买的外文标注数据集“当外援”。训练所用的数据集撞车，就会生成相似结果，进而引发乌龙事件。其余办法中，用现有大模型辅助生成训练数据容易数据清洗不到位，重复利用token会导致过拟合，仅训练稀疏大模型也不是长久之计。业内渐渐形成共识：通往AGI的道路，对数据数量和数据质量都将持续提出极高的要求。时势所需，近2个月来，国内不少团队先后开源了中文数据集，除通用数据集外，针对编程、医疗等垂域也有专门的开源中文数据集发布。高质量数据集虽有但少大模型的新突破十分依赖高质量、丰富的数据集。根据OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸缩法则（scaling law）可以看到，独立增加训练数据量，是可以让预训练模型效果变更好的。这不是OpenAI的一家之言。 DeepMind也在Chinchilla模型论文中指出，之前的大模型多是训练不足的，还提出最优训练公式，已成为业界公认的标准。 △主流大模型，Chinchilla参数最少，但训练最充分不过，用来训练的主流数据集以英文为主，如Common Crawl、BooksCorpus、WiKipedia、ROOT等，最流行的Common Crawl中文数据只占据4.8%。中文数据集是什么情况？公开数据集不是没有——这一点量子位从澜舟科技创始人兼CEO、当今NLP领域成就最高华人之一周明口中得到证实——如命名实体数据集MSRA-NER、Weibo-NER等，以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在，但整体数量和英文数据集相比可谓九牛一毛。并且，其中部分已经老旧，可能都不知道最新的NLP研究概念（新概念相关研究只以英文形式出现在arXiv上）。中文高质量数据集虽有但少，使用起来比较麻烦，这就是所有做大模型的团队不得不面对的惨烈现状。此前的清华大学电子系系友论坛上，清华计算机系教授唐杰分享过，千亿模型ChatGLM-130B训练前数据准备时，就曾面临过清洗中文数据后，可用量不到2TB的情况。解决中文世界缺乏高质量数据集迫在眉睫。行之有效的解决方法之一，是直接用英文数据集训大模型。在人类玩家打分的大模型匿名竞技场Chatbot Arena榜单中，GPT-3.5在非英文排行榜位居第二（第一是GPT-4）。要知道，96%的GPT-3.5训练数据都是英文，再刨去其他语种，用来训练的中文数据量少到可以用“千分之n”来计算。国内top3高校某大模型相关团队在读博士透露，如果采用这种方法，不嫌麻烦的话，甚至可以给模型接一个翻译软件，把所有语言都转换成英语，然后把模型的输出转换为中文，再返回给用户。然而这样喂养出的大模型始终是英文思维，当遇到成语改写、俗语理解、文章改写这类含有中文语言特色的内容，往往处理不佳，出现翻译错误或潜在文化的偏差。还有个解决办法就是采集、清洗和标注中文语料，做新的中文高质量数据集，供给给大模型们。开源数据集众人拾柴察觉现况后，国内不少大模型团队决定走第二条路，着手利用私有数据库做数据集。百度有内容生态数据，腾讯有公众号数据，知乎有问答数据，阿里有电商和物流数据。积累的私有数据不一，就可能在特定场景和领域建立核心优势壁垒，将这些数据严格搜集、整理、筛选、清洗和标注，能保证训出模型的有效性和准确性。而那些私有数据优势不那么明显大模型团队，开始全网爬数据（可以预见，爬虫数据量会非常大）。...

2023-06-08 0 5

ChatGPT：聊天机器人概念股的崛起与前景

国产ChatGPT「套壳」的秘密，现在被找到了

ChatGPT引发的司法风波：一位律师的惊心经历

AI+英伟达：鸿博股份的跨界之旅