ChatGPT评中国最好的十大高校,网友:啊这……
本科论文

ChatGPT评中国最好的十大高校,网友:啊这……

ChatGPT大家想必已经知道是什么了,那么在ChatGPT眼中「中国最好的十大高校」是哪些呢?以下是ChatGPT所列出的学校名单。 图源:网络 网友锐评:ChatGPT还是不懂中国 要么说AI还是太年轻,对于ChatGPT这个回答,网友表示能看出来它还是不太了解中国。 因为众所周知,我国排名前二的学校有两所,但排名第三的学校有十几所。 图源:网络 甚至于为了避免谁才是中国排名第三的高校之争,百度百科都关闭了「中国十大名校」词条的解释,搜索结果成了 「百度百科不收录此类标准不清晰的评比结果,也请广大网友理性讨论。」 图源:百度百科 要想说清谁是国内第三,我们先要讲讲为什么清华北大是国内前二。其实纵观中国教育史,清华北大并非一直独孤求败,清北发展成国内的一枝独秀其实不过20余年而已。 清华北大是两所历史悠久的高校,在民国时期就名震全国了,但那时清北就是国内的TOP2吗?并不是。 上世纪30年代时,众多的教会大学实力也相当突出,比如后来被拆分的燕京大学,就不逊清北,一部分以上海沪江大学为首的都市大学也实力不俗,这时的清北只能说国内一流。 到50年代时,国内的高校经历了一次大的院系合并,诞生了一系列专业型大学,这时的大学数量少,学科泾渭分明,少有形成直接竞争的高校,比如中国政法大学和北京工业学院谁更好,专业不同没有什么比较性。 一直到80年代,清北都算不上国内的TOP2。这段时间国内刚刚恢复高考,能考上大学的就是顶级人才了,在人们眼里,上清北的学生也不比普通大学生高到哪去,而且这时全国最优秀的学生一般都选择国内的另一所名校:中国科学技术大学。80年代是中科大的天下,清北恐怕只能算个TOP3。 而且这时国内顶尖高校间的差距并不大,比如西安交大、哈工大不比清华差多少,复旦、南大也和北大在一个档次。 真正让清华北大彻底脱颖而出的,是著名的“985计划”。 1998年5月,国家首次提出建设世界一流大学的建议,这就是著名的“985计划”,而最先挑出来被重点扶持的大学就是首都的两所名校——清华北大。 当年,清北两校就各自获得教育部的18亿拨款,在科研经费上一下子甩开了原来的老对手们。 随后,为了扩大受众大学的数量,中央决定让地方政府全面参与985计划,扶持省内重点大学。1999年,七所非北京高校入选985计划,复旦、浙大、南大也获得12亿拨款。 不过之后,清华北大一直由中央直接拨款,而其他重点大学则由中央和地方政府共同拨款,这就体现了政府眼中清北的特殊性,国家就是要把清北打造成国内大学的“门面”。 可以说,清北之所以能迅猛发展,是靠真金白银砸出来的。 但国家虽目的明确地要把清北建设成国内的TOP2,可并没有选出谁是国内第三,那我们该如何评判呢? 排行榜一般作为辅助依据 国际上目前最通用的三大排行榜,分别是QS(Quacquarelli Symonds) 世界大学排行榜、上海交通大学世界大学学术排名(ARWU)、泰晤士报高等教育世界大学排行榜(THE)。 在QS榜中2022-2023国内前三名都是清华、北大、复旦大学。在ARWU榜单中国内前三名是清华、北大、浙江大学。在THE榜单中,前三名是清华、北大、复旦大学。 这或许也是ChatGPT回答的依据之一。 不过还有更细心的网友表示,北京的官方也曾“官宣”过谁排名第三。 2021年,北京市发布了《北京市引进毕业生管理办法》。《办法》及北京人力资源和社会保障局在“解读问答流程《北京市引进毕业生管理办法》”中提到,国内7所,世界前200高校的本科生及以上、“双一流”建设学科硕士研究生走计划单列渠道,符合一定条件可办理落户。 图源:北京人力资源和社会保障局 国内7所高校是哪7所? 北京这次给出的答案是:清华大学,北京大学,复旦大学,上海交通大学,浙江大学,中国科学技术大学,南京大学。 图源:北京人力资源和社会保障局 这也让不少人表示,目前复旦恐是官宣过后的排名第三。 关于这波ChatGPT的回答,你怎么看?文源:募格学术公 众 号 推 荐Highly Recommend
文章探讨大语言模型的诞生及对人工智能发展的影响
本科论文

文章探讨大语言模型的诞生及对人工智能发展的影响

这篇文章讨论了大语言模型的诞生被视为临界点,可能加速技术奇点的发展。从信息动力学角度看,大语言模型在输入信息、信息处理、输出信息方面达到与人类匹敌的复杂性。人类的思维活动包括快速直觉判断和语言思考两个系统,大语言模型本质上是模拟快速直觉判断的系统,而没有像人类一样进行语言思考。文章提出了大语言模型达到临界点、信息动力学、系统1和系统2的概念,以及利用范畴论改进大语言模型的观点。
国产ChatGPT「套壳」的秘密,现在被找到了
未分类

国产ChatGPT「套壳」的秘密,现在被找到了

衡宇 发自 凹非寺量子位 | 公众号 QbitAI “科大讯飞套壳ChatGPT!”“百度文心一言套皮Stable Diffusion!”“商汤大模型实则抄袭!”…… 外界对国产大模型产生质疑已经不是一次两次了。 业内人士对这个现象的解释是,高质量的中文数据集实在紧缺,训模型时只能让采买的外文标注数据集“当外援”。训练所用的数据集撞车,就会生成相似结果,进而引发乌龙事件。 其余办法中,用现有大模型辅助生成训练数据容易数据清洗不到位,重复利用token会导致过拟合,仅训练稀疏大模型也不是长久之计。 业内渐渐形成共识: 通往AGI的道路,对数据数量和数据质量都将持续提出极高的要求。 时势所需,近2个月来,国内不少团队先后开源了中文数据集,除通用数据集外,针对编程、医疗等垂域也有专门的开源中文数据集发布。 高质量数据集虽有但少 大模型的新突破十分依赖高质量、丰富的数据集。 根据OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸缩法则(scaling law)可以看到,独立增加训练数据量,是可以让预训练模型效果变更好的。 这不是OpenAI的一家之言。 DeepMind也在Chinchilla模型论文中指出,之前的大模型多是训练不足的,还提出最优训练公式,已成为业界公认的标准。 △主流大模型,Chinchilla参数最少,但训练最充分 不过,用来训练的主流数据集以英文为主,如Common Crawl、BooksCorpus、WiKipedia、ROOT等,最流行的Common Crawl中文数据只占据4.8%。 中文数据集是什么情况? 公开数据集不是没有——这一点量子位从澜舟科技创始人兼CEO、当今NLP领域成就最高华人之一周明口中得到证实——如命名实体数据集MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整体数量和英文数据集相比可谓九牛一毛。 并且,其中部分已经老旧,可能都不知道最新的NLP研究概念(新概念相关研究只以英文形式出现在arXiv上)。 中文高质量数据集虽有但少,使用起来比较麻烦,这就是所有做大模型的团队不得不面对的惨烈现状。此前的清华大学电子系系友论坛上,清华计算机系教授唐杰分享过,千亿模型ChatGLM-130B训练前数据准备时,就曾面临过清洗中文数据后,可用量不到2TB的情况。 解决中文世界缺乏高质量数据集迫在眉睫。 行之有效的解决方法之一,是直接用英文数据集训大模型。 在人类玩家打分的大模型匿名竞技场Chatbot Arena榜单中,GPT-3.5在非英文排行榜位居第二(第一是GPT-4)。要知道,96%的GPT-3.5训练数据都是英文,再刨去其他语种,用来训练的中文数据量少到可以用“千分之n”来计算。 国内top3高校某大模型相关团队在读博士透露,如果采用这种方法,不嫌麻烦的话,甚至可以给模型接一个翻译软件,把所有语言都转换成英语,然后把模型的输出转换为中文,再返回给用户。 然而这样喂养出的大模型始终是英文思维,当遇到成语改写、俗语理解、文章改写这类含有中文语言特色的内容,往往处理不佳,出现翻译错误或潜在文化的偏差。 还有个解决办法就是采集、清洗和标注中文语料,做新的中文高质量数据集,供给给大模型们。 开源数据集众人拾柴 察觉现况后,国内不少大模型团队决定走第二条路,着手利用私有数据库做数据集。 百度有内容生态数据,腾讯有公众号数据,知乎有问答数据,阿里有电商和物流数据。 积累的私有数据不一,就可能在特定场景和领域建立核心优势壁垒,将这些数据严格搜集、整理、筛选、清洗和标注,能保证训出模型的有效性和准确性。 而那些私有数据优势不那么明显大模型团队,开始全网爬数据(可以预见,爬虫数据量会非常大)。...
ChatGPT与全球变暖:人工智能的喧嚣与真实
未分类

ChatGPT与全球变暖:人工智能的喧嚣与真实

这篇文章主要讲述了哥伦布利用万年历摆脱困境的故事,以及现代与过去训练语言模型的巨大差异。随着技术的发展,现在训练语言模型的方法和设备有了很大的提升,但相应的,所需的计算资源和成本也大幅增加。另一方面,如今网络上的内容大多缺乏新信息、原创性和深度,大部分短视频 content 仅是东拼西凑的复制品。而像 ChatGPT 这样的语言模型,虽然能够提供一定的答案和帮助,但其背后的真正意义在于推动科学研究和技术进步。