文章主题:人工智能, 深度学习, 自然语言处理
打造能 ” 理解宇宙真正本质 ” 的人工智能。
一周年后的ChatGPT,已经引领了生成式AI技术的浪潮,并且,伊隆·马斯克旗下的xAI公司正打算将他们在11月初发布的大模型Grok接入X平台(推特),向X Premium订阅者提供。
xAI 成立于今年七月份,不久便迅速训练出了基础模型Grok-0,并经过优化进化为Grok-1。尽管该模型的参数数量仅约为330亿,但其性能却已经超越了llama2的70B和GPT-3.5,尤其是在数学和编码领域表现尤为抢眼。此外,研究团队还在深入探讨如何提高大模型的推理能力和可靠性。
马斯克汇聚了一批顶级科研人才,形成了一支精英核心团队。这支团队汇聚了DeepMind、OpenAI、谷歌研究院、微软研究院、特斯拉和多伦多大学等领域的佼佼者,他们主导了一系列AI基础算法研究和知名AI项目。尤为引人注目的是,这个团队的华人成员比例过高,甚至还有两位研究人员在他们的研究成果中获得了超过20万次引用的荣誉。
Grok 是一个强大的工具,它能够通过独特的方式获取 X(原推特)上的实时信息和用户生成的帖子。这个平台可以访问 X 上发布的最新数据,并在用户提出实时问题时提供最新的信息。这种方法使得 Grok 能够提供与 X 上的其他内容源不同的内容,从而实现差异化的服务。
01 打造 ” 追求真理的 ” 的 AI,马斯克组建了豪华核心团队
作为人工智能领域的领军人物,马斯克对AI技术有着深刻的理解和认识。他早在2013年便开始了特斯拉在自动驾驶领域的探索,经过多年的研发,如今特斯拉的自动驾驶硬件已经迭代至第四代,FSD算法也升级至V12版本,预计不久将会进行更新。
马斯克作为OpenAI的联合创始人,在将其从非营利研究机构转变为以人工智能为主导的商业实体过程中发挥了关键作用。他投入巨资,为OpenAI的初期发展提供了强有力的支持,其规模高达5000万至10亿美元。与此同时,OpenAI的另一位联合创始人Andrej Karpathy在2017年6月至2022年7月期间,担任特斯拉的AI总监一职,负责推动特斯拉的自动驾驶项目。
在 2018 年,埃隆·马斯克从 OpenAI 公司离职,这一举动引发了公众的广泛关注。据 OpenAI 公司的博客文章以及马斯克本人的推文透露,马斯克离任的主要目的是为了避免因特斯拉公司日益侧重于人工智能领域而导致他与 OpenAI 之间出现利益冲突。此外,据 Semafor 报道,马斯克曾试图接任 OpenAI 的首席执行官一职,然而该提议并未得到 board of directors 的同意,因此马斯克最终选择了离职。另外,《金融时报》的报道中也提到,马斯克离职的原因在于他与 OpenAI 董事会成员和员工在人工智能安全方法上存在分歧。
在历经多年的脱离OpenAI之后,随着ChatGPT引发AI热潮的热潮,马斯克在今年7月正式宣布成立了xAI公司。这家企业的宗旨是致力于打造能够洞悉宇宙终极本质的人工智能技术。
马斯克在接受采访时表示:” 从人工智能安全的角度来看,一个极度好奇的人工智能,一个试图理解宇宙的人工智能,将会支持人类。”
豪华的核心技术团队
马斯克搭建了一个豪华的核心技术团队,他们来自 DeepMind、OpenAI、谷歌研究院、微软研究院、特斯拉和多伦多大学。
他们在过去主导过不少 AI 研究和技术的突破,例如 Adam 优化器,对抗性示例,Transformer-XL,Memorizing Transformer,自动形式化等。此外,还包括 AlphaStar、AlphaCode、Inception、Minerva、GPT-3.5 和 GPT-4 等工程和产品方面的重要成果。
这个团队除了来自大厂和研究院外,还有一个特点是大多数拥有扎实的数学、物理背景。
例如 xAI 联合创始人杨格(Greg Yang )在哈佛取得数学学士与计算机硕士学位,师从丘成桐。丘成桐带着杨格出席活动、认识各个方向的博士生、数学家,还推荐他申请数学界本科生能取得的最高荣誉:摩根奖。
杨格透露,xAI 将深入研究人工智能的一个方面— ” 深度学习的数学 “,并 ” 为大型神经网络发展‘万物理论’ “,以将人工智能 ” 提升到下一个层次 “。
除了作为联合创始人的杨格外,在核心团队中还有张国栋 (Guodong Zhang),戴自航 (Zihang Dai),吴宇怀(Yuhuai Tony Wu),以及之后加入的 Jimmy Ba、xiao sun、Ting Chen 等华人成员,他们都在底层技术上有建树。
戴自航(Zihang Dai)是 CMU 和 Google Brain 于 2019 年发布预训练语言模型 XLNet 论文的共同一作,这个模型在 20 项任务上超越了当时的 SOTA 模型 BERT。
戴自航 2009 年入读清华经管学院的信息管理与信息系统专业,此后前往 CMU 开启六年的计算机硕博生涯,师从 Yiming Yang。在博士期间深度参与图灵奖得主 Yoshua Bengio 创立的 Mila 实验室,Google Brain 团队,并在博士毕业后正式加入 Google Brain,担任研究科学家,主要方向为自然语言处理、模型预训练。
张国栋( Guodong Zhang)本科就读于浙江大学,他在辅修的竺可桢学院工程教育高级班中连续三年排名专业第一;此后,他前往多伦多大学攻读机器学习博士学位。
读博期间,他在 Geoffrey Hinton 的指导下,作为谷歌大脑团队的实习生从事大规模优化与快速权重线性注意力研究(Large-scale optimization and fast-weights linear attention),而他也在多智能体优化与应用、深度学习、贝叶斯深度学习等领域发表顶会论文。
博士毕业后,张国栋全职加入 DeepMind,成为 Gemini 计划(直接对标 GPT-4)的核心成员,负责训练与微调大型语言模型。
吴宇怀 Yuhuai ( Tony ) Wu的高中和大学时光均在北美度过,他本科在纽布伦斯威克大学读数学,并在多伦多大学获得机器学习学位,师从 Roger Grosse 和 Jimmy Ba(也是 xAI 核心团队成员)。
在求学期间,吴宇怀在 Mila,OpenAI,DeepMind 和 Google 做过研究员。而在他的一项研究中,他和其他研究人员训练了一个增强大语言模型 Minerva,这个模型数学能力很强,在波兰的 2022 年国家数学考试中,答对了 65% 的问题。这与 xAI 深入研究 ” 深度学习的数学 ” 的目标非常匹配。
Jimmy Ba曾担任多伦多大学的助理教授(AP),他的本硕博也都在多伦多大学完成,博士时的导师是 Geoffrey Hinton。
他还是加拿大先进研究院人工智能主席,长期目标是如何构建具有类人效率和适应性的通用问题解决机器。Jimmy Ba 在谷歌学术的引用数达到 200844,而光是与 Adam 优化器有关的论文就超过 16 万,2015 年与注意力相关的论文引用也超过 1.1 万。他事实上也是现在大模型技术的理论奠基人之一。
xiao sun在北京大学获得学士学位,在耶鲁大学获得 EE 的博士学位,此后在 IBM Watson 和 Meta 担任研究科学家。他的技术背景不在于 AI 模型,而在于 AI 相关的硬件和半导体,尤其是 AI 的软硬件协同。他曾获得 MIT TR35(35 岁以下创新 35 人)奖项。
Ting Chen在北京邮电大学获得学士学位,在美国东北大学和 UCLA 分别获得一个博士学位。之后他在谷歌 Brain 担任研究科学家,他的谷歌学术总引用数达到 22363。他引用数最高的论文提出 SimCLR,一个简单的视觉表示对比学习框架。这篇论文是与 Geoffrey Hinton 合作的,引用数达到了 14579。
除了 Jimmy Ba 外,创始团队中还有另一位谷歌学术论文应用数超过 20 万的资深研究者,他是Christian Szegedy。Szegedy 是吴宇怀在谷歌时的团队负责人,在谷歌工作了 13 年,有两篇论文引用数超过 5 万,另有多篇超过 1 万,文章的方向都指向 AI 的本质性算法研究。Szegedy 是波恩大学应用数学博士。
Igor Babuschkin和Toby Pohlen共同参与了 DeepMind 著名的 AI 项目 AlphaStar,AlphaStar 从 50 万局「星际争霸 2」游戏中学习,随后自己玩了 1.2 亿局来精进技术。最终,它达到了最高的宗师段位,水平超越了 99.8% 玩家。
02 Grok-1 模型能力仅次于 GPT-4,在推理和数学能力上优化
xAI 在 11 月初发布了他们的第一个基础大语言模型 Grok-1(约 330 亿参数),这个模型是在它们的原型大模型 Grok-0 的基础上经过微调和 RLHF 完成。他的训练数据截至 2023 年第三季度,输出上下文长度为 8k。
据称,Grok-0 只使用了一半的训练资源,就达到了接近 llama 2 70B 的能力,之后又在推理和编码能力进行了针对性的优化。
在 xAI 官方公布的测试中,我们可以评估 Grok-1 的能力。在这个评测中,主要包括:
1.GSM8k:中学数学文字问题,使用思维链提示。
2.MMLU:多学科选择题,考验综合理解能力。
3.HumanEval:Python 代码完成任务,考验编码能力。
4.MATH:中学和高中数学问题,用 LaTeX 编写,考验更高阶的数学能力。
从图表中可以看出,Grok-1 在几乎所有的测试中都领先 llama 2 70B 和 GPT-3.5,在 HumanEval 和 Math 这两个测试中更是大幅领先 llama 2 70B。但是它与 Claude2 和 GPT-4 仍然存在可见的差距。
不过鉴于 Grok-1 的模型规模应该只有 33B,而且训练资源上只花费了 llama 2 70B 的一半,我们可以说它在效率方面有突出表现。未来若推出参数规模更大的版本,能力还有提升的空间。
由于以上的测试都比较主流,为了摒除刻意优化的因素,xAI 测试了 Grok 与主要竞争对手在 2023 年匈牙利国家高中数学期末考试上的实际表现,这更贴近真实场景,为表公平,xAI 没有为这次评估做特别的调整。
实验结果显示,Grok 以 C 级(59%)通过了考试,而 Claude-2 也获得了相同的成绩(55%),GPT-4 则以 B 级(68%)通过。
除了大模型,xAI 还公布了 PromptIDE,这是一个集成的开发环境,专为提示工程和可解释性研究而设计。PromptIDE 的目的是为了让工程师和研究人员能够透明地访问 Grok-1。这个 IDE 旨在赋予用户能力,帮助他们快速探索 LLM 的能力。
在 11 月初刚发布大模型时,Grok-1 只对有限的用户开放,在本周 xAI 计划将 Grok 的能力向 X Premium+ 订阅者们开放,xAI 也为 Grok 提供了搜索工具和实时信息的访问权限,这一点相较于其他模型具有差异化优势。
它还提供专用的 ” 趣味 ” 模式、多任务处理、可分享的聊天和对话反馈。趣味模式将是所有功能中最有趣的,因为它赋予 Grok 独特的个性,使其能够以带有讽刺和幽默的方式进行更吸引人的对话。
03 大模型的竞争格局会变么?能力将往何处发展?
在 ChatGPT 发布正好一年的这一天,看起来 OpenAI 的模型能力和生态产品建设在各个大模型厂商中仍旧是明显领先的。能够与它竞争的公司 Anthropic,Inflection,包括 xAI 都还处于追赶态势。谷歌,亚马逊等大厂也仍然落后。
基础大模型厂商之间的竞争,是全方位的竞争,而且鉴于 AI 模型预训练需要的高成本,当未来模型版本迭代时,又需要持续投入巨大的算力和资金成本。除此之外,找到能够充分释放模型能力价值的场景也非常重要,不然无法形成反馈的循环。
目前来看,xAI 不缺人才,也不缺算力和资金,此外因为 X(推特)的存在,它也不愁在前期找不到应用场景。尽管 Grok-1 现在的绝对能力与 GPT-4 仍然有差距,但是当后续它有更大规模参数的版本出现后,将会大大缩小与 OpenAI 的距离。
大模型的竞争是大厂与超级独角兽的竞争,但是正因为有这些公司在竞争和迭代,做应用的公司和终端的用户才会有越来越强,越来越便宜的 AI 能力使用,最终所有行业都会被 AI 翻新一遍。
在大模型进入公众视野一年后,对于大模型的局限性我们有了更清楚的认知,那就是推理能力和可靠性的不足。而在发展方向上,肯定是多模态。
xAI 为了应对这些问题,也做了定向研究,对于推理能力不足,他们研究可扩展的工具辅助监督学习,让 AI 和人类协同对 AI 模型进行调优。
对于 AI 的可靠性不足,他们研究形式验证,对抗性鲁棒性等技术,增强 AI 的可靠性。此外,尽管目前 Grok 因为参数量的原因在多模态能力上不如 GPT-4 等模型,但是 xAI 也在积极研究这个方向,未来会有具备视觉和音频能力的模型。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!