马斯克xAI创始成员国内首发声:ChatGPT时代「乱世出英雄」
萧箫 西风 发自 凹非寺量子位 | 公众号 QbitAI 马斯克组局xAI“钻研宇宙本质”,创始成员高深又神秘。 相比专注于AI领域本身,这些成员大多具有基础学科背景,接触AI之前或是在研究基础数学,或是在搞物理。 这家公司究竟要做什么? 就在这两天,丘成桐弟子杨格(Greg Yang),成为第一个以“xAI创始成员”身份在国内会议上发言的人。 在国际基础科学大会的“基础科学与人工智能”论坛上,他谈及了自己一直以来、也是接下来要进行的数学AI工作,以及对大模型当前发展现状的看法。 而他的个人经历也再次浮出水面,为更多人所关注。 接下来要进行什么研究? 在国际基础科学大会上,杨格就自己正在研究的方向进行了一场演讲。 演讲主题,主要与AI和数学交叉学科有关—— 从数学角度出发,建立一种描述神经网络架构的统一编程语言Tensor Programs。 这是他从微软研究院开始就一直钻研的领域,继2019年连续独立发表的两篇论文之后,迄今这一项目已经有7篇相关论文问世。 具体来说,Tensor Programs项目有一个“短期目标”和一个“长期目标”。 短期来看,这个编程语言能实现在设计新神经网络架构时,自动进行初始化条件分析,并给出其中最优的超参数初始化条件,从而让模型训练更顺利。毕竟此前,这一领域的初始化设置几乎“全靠经验”。 长期而言,Tensor Programs项目的目标是开发大规模深度学习的“万物理论”。 这也与杨格在推特说的、他在xAI要进行的研究方向一致: 目前无论是大模型还是其他AI研究方向,都依旧没有真正意义上解决AI“黑箱”的问题,换而言之,AI究竟走哪种研究方向(堆叠更大参数量的模型、还是MoE)收益更高,还没有一个明确的结论。 因此,Tensor Programs最终目标是找到一种理论上的规则,可以真正理解AI大模型的行为。 Tensor Programs最新的项目进展,是微软与OpenAI合作发表的论文µTransfer,杨格以共同一作的身份完成了这项研究。 这项研究的核心是帮助大模型找到最合适的超参数配置,从而替更多模型节省时间和算力成本,否则对于大模型来说,“重训”是一个非常浪费参数的行为。 目前这项研究已经开源,杨格也在这次的演讲中着重以µTransfer为例,介绍了Tensor Programs项目的进展。 从这几篇研究论文侧重的AI模型来看,大模型如今已经是杨格研究的重点方向之一。 一个值得关注的点就是,μTransfer已经用到GPT-4中了。 公众号“安迪的写作间”作者在杨格(Greg Yang)演讲结束后,和他聊了聊: 下台我问了他关于GPT-4用到μTransfer了吗,给出肯定回答。 所以,他究竟如何看待大模型的未来? 在这次论坛的圆桌对话上,杨格也提到了自己对大模型发展方向的看法。 他认为,继续堆叠大模型参数可以让模型效果越来越好,但这有个前提,即数据集的质量和数量必须要上升。 以前收集网络数据就行,如今训练集必须变得更偏向数学、科学、更有逻辑性,才能提高模型的科学和数学推理能力。 同时,杨格也给了如今拼搏在科研、交叉创新一线的AI研究人员一点建议,就是“Follow your dreams”:...