DriveGPT引领自动驾驶新革命？ChatGPT式大模型能否端到端智行？雪湖・海若，2023年智

文章主题：DriveGPT, 自动驾驶生成式大模型, 毫末智行, 端到端自动驾驶

机器智行原创

作者：于雷

AI大模型 DriveGPT 重塑汽车智能化技术路线。

🌟🚀毫末智行引领自动驾驶新风尚！🔥🔥DriveGPT震撼发布！💡🚀2月17日，自动驾驶领域的创新巨头毫末智行即将揭秘一款革命性的生成式大模型——DriveGPT！它以Transformer的超凡智慧，与ChatGPT齐名，引领未来智能驾驶的新潮流。💥🔍不同于ChatGPT基于自然语言文本的训练路径，DriveGPT独树一帜，采用驾驶场景数据为养分，通过RLHF（人类反馈强化技术）的精雕细琢，实现了深度学习与实际操作的无缝对接。🎯🌐DriveGPT不仅懂车，更懂路！它在海量真实人驾数据的磨砺下，不断自我优化，以精准、高质量的驾驶建议，为自动驾驶保驾护航。🛡️🚀准备好迎接这场技术盛宴吧！让DriveGPT带你领略自动驾驶的无限可能，体验智能驾驶带来的便捷与安全。🌐记得关注我们，获取更多自动驾驶前沿动态！🏆#毫末智行# #自动驾驶# #DriveGPT

DriveGPT引领自动驾驶新革命？ChatGPT式大模型能否端到端智行？雪湖・海若，2023年智

🎉【AI新纪元】昨日，4月11日的HAOMO AI DAY上，行业迎来了一项里程碑式的创新——毫末DriveGPT自动驾驶大模型全球首发！🌟这是一款引领潮流的生成式技术，以「雪湖・海若」之名震撼亮相，为智能驾驶领域注入强大动能。🌍毫末科技，以其深厚的技术积累与前瞻性视野，再次展示了AI技术在自动驾驶领域的突破性进展。这款模型不仅提升了驾驶决策的智能化水平，更预示着人车交互新时代的到来。🌈DriveGPT凭借其卓越性能和广泛适用性，无疑将重塑自动驾驶行业的格局，引领行业迈向更加安全、高效和人性化的未来。🏆欲了解更多详情，敬请关注官方平台或搜索相关关键词，让我们共同见证这场AI技术的革命性飞跃！🌐

🌟【毫末智行引领自动驾驶新纪元】🚀 顾维灏CEO透露，DriveGPT——这颗自动驾驶领域的璀璨明珠，致力于打造端到端的智能驾驶解决方案。当前，它专注于解决自动驾驶中的关键认知决策问题，展现出强大的技术实力。未来，我们期待看到毫末智行整合多模巨擎，将智能驾驶推向更高境界。🚀✨ #自动驾驶# #毫末智行# #技术创新

🌟毫末科技闪耀时刻！🚀 雪湖・海若的首秀大作——魏牌新摩卡 DHT-PHEV 正式揭开神秘面纱，即将在魏牌蓝山落地生根。🔥 这不仅是2023年度智能驾驶产品领域的重大突破，更是雪湖・海若引领潮流、塑造未来的关键一步。🚀 期待它以卓越科技实力，为市场注入强大动力，开启智能驾驶新篇章！🏆 #魏牌新摩卡 #雪湖海若 #智能驾驶新篇章

🌟预测2023：自动驾驶新时代的里程碑🌟随着科技的飞速迭代，智能驾驶正迎来其关键的「冲刺与考验年」！毫末智行的领军人物张凯洞察未来，预计这一年内，无人驾驶产品的革新将如火如荼展开，大模型技术将深度嵌入车辆，引领一场前所未有的车端应用革命。车主们将成为这场变革的直接受益者，他们的使用体验和满意度将成为产品成功与否的关键指标。🚀SEO优化提示：自动驾驶、2023年趋势、智能驾驶产品爆发、大模型落地、用户体验、产品竞争力

DriveGPT雪湖・海若大模型的发布，无疑是毫末迈向自动驾驶3.0新时代的重要里程碑。这标志着公司在智能驾驶领域正逐步摆脱单纯依赖软件的2.0模式，转向以大数据、大算力和先进模型为核心的数据驱动时代。这一跃动不仅彰显了技术实力的提升，也将深刻影响未来的自动驾驶生态。🚀

什么是 DriveGPT？

GPT 的全称是生成式预训练 Transformer 大模型，主要应用在 NLP 领域，本质上是不断求解下一个词（Token）出现的概率。然后再将这个词作为下一个时间步的输入，如此往复进行生成，最终获得一个连贯、通顺的文本。

最近广受关注的 ChatGPT 就属于语言类生成式大模型，主要是模拟人类语言行为，根据输入的文字或图片生成回答，与用户交互。而 DriveGPT 雪湖・海若则是用于自动驾驶场景的生成式大模型，所以毫末智行把 ChatGPT 输入的自然语言文本串，换成智能驾驶感知到的过去场景，输出也就变为了包括自车决策规控、障碍物预测以及决策逻辑链等条件在内的未来场景。

在这之中，一个重点就是如何将智能驾驶场景，变为和自然语言一样的 Token，毫末智行给出的答案是 Drive Language。其基于毫末智行的 CSS 场景库理论，利用 BEV 网格来做整个空间的离散化，将每一个网格定义为一个固定大小的词表，这样输入代表已发生场景的 Token 序列，就可以根据历史生成未来的 Token 序列。

目前，毫末智行 Token 化后的词表空间，已经达到了 50 万量级。最终，一连串的 Token 拼起来就是一个完整的驾驶场景时间序列，包括了未来某个时刻的完整交通环境状态和自车状态。

顾维灏介绍：「DriveGPT 可以按概率生成很多个这样的场景序列，每一个场景序列都是未来有可能发生的一种实际情况，这是它的第一个特性。它的第二个特性是在所有场景序列都产生的情况下，能把场景中我们最关注的自车行为轨迹给量化出来，也就是生成场景的同时，便会产生自车未来的轨迹信息。」

这样一来，在统一的生成式框架下，就可以做到规划、决策与推理等多个任务全部的完成。

根据规划，DriveGPT 雪湖・海若现阶段主要用于解决自动驾驶的认知决策问题，属于原本自动驾驶认知大模型的能力升级，后续视频自监督大模型、3D 重建大模型、多模态互监督大模型、动态环境大模型等模型的能力也将被整合进来。而 DriveGPT 雪湖・海若的最终目标是实现端到端自动驾驶。

DriveGPT 雪湖・海若

用类 ChatGPT 方法搞定「自动驾驶认知」

DriveGPT 雪湖・海若的训练，是根据历史去生成未来所有可能的场景，并根据概率推理出未来一段时间的多个可能。这一过程利用了大概万多的接管数据来进行 RLHF 训练，反馈数据当中就会隐藏了不同场景下错误的自动驾驶开法与正确的人类开法。看到这里，是不是有很熟悉的味道，那就是 DriveGPT 采用了和 ChatGPT 训练同源的算法。

而且，雪湖・海若的初始化模型（Pretrain model）共使用了 4000 万量产车驾驶数据训练，本身能够对各种场景做生成式任务，但这些生成结果还需要按照人类偏好去调优，在安全、高效、舒适等维度上做出取舍。

所以，毫末智行为了对生成决策结果进行调优，利用强化学习的思路做了一个打分系统。简单的说，在同一环境下，系统与驾驶者判断一致（不被接管）的行为会打高分，被接管的打低分，还会与将同场景的系统与人类驾驶行为对比，越接近代表越能被真实驾驶者喜欢。

顾维灏表示：「我们通过一个初始化模型（Pre-Train Model）去生成并收集一些候选数据。然后，通过一个反馈模型给这些数据打分排序，再用强化学习的思路，把反馈模型认为好的结果排上来，差的结果排下去。最后，把参数更新到一个备份模型（Active Model）中，通过强化学习的方式，DriveGPT 生成的效果就会有一个明显地提升。」

在强化学习阶段，毫末智行还在过去搜集到的所有接管数据里人工挑选出大概 5 万段能够覆盖到各种比较复杂场景、真实驾驶偏好的数据，回灌训练反馈模型。有了这个之后，雪湖・海若就能在预训练模型上加入 Prompt 提示语，模型就可以根据其所代表的特征，将含有决策逻辑链（Chain of Thought，CoT）的未来序列重新排序，给出更符合期望的驾驶策略。

「DriveGPT 还能输出决策逻辑链，这里面利用了 Prompt 提示语技术，输入端需要给到模型一个提示，告诉它『要去哪、慢一点还是快一点、并且让它一步步推理』。经过这种提示后，它就会朝着我们期望的方向去生成结果，并且每个结果都带有决策逻辑链。每个结果也会有未来出现的可能性。这样我们就可以选择未来出现可能性最大，最有逻辑的链条驾驶策略。」顾维灏介绍。

毫末 CSS 自动驾驶场景库是 CoT 的重要输入，拥有超过几十万个细颗粒度场景，将 Prompt 提示语和完整决策过程的样本交给模型去学习，学到推理关系，从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程，完成可理解、可解释的推理逻辑链生成。

AI 大模型基础设施

MANA OASIS 雪湖・绿洲再升级

DriveGPT 雪湖・海若的训练和落地，也离不开算力的支持。毫末智行目前已对其智算中心 MANA OASIS 雪湖・绿洲进行了三大升级，使训练过程中的稳定性、效率和速度得到有效提升。

首先是避免训练时出错导致非正常中断，浪费前期投入的大量资源。毫末智行在大模型训练框架的基础上，与火山引擎共同建立了全套训练保障框架，包括 Monitor&Alert、Tracer&Log、Profile&Checkpoint 等功能。通过训练保障框架，可以通过集群调度器实时获取服务器异常、并及时将异常节点从训练 pod group 中删除，再结合 CheckPoint 功能，利用 VePFS 高性能存储和 RDMA 网络高效分发。

「最终我们实现了异常任务分钟级捕获和恢复能力，可以保证千卡任务连续训练数月没有任何非正常中断，有效地保障了 DriveGPT 大模型训练的稳定性。」顾维灏表示。

其次是基于量产自动驾驶规模优势，构建了以真实数据回传为核心的增量式学习推广到大模型训练。结合增量学习数据以动态数据流的形式，持续不断将量产回传和筛选的存量数据，传入感知和认知 Pre-train 大模型。系统定时采样评测模型学习状态，出现异常快速回滚，持续提取最佳模型版本。

顾维灏介绍：「由于每天回传的数据不同的时段数据量差异巨大，这就要求我们训练平台具备弹性调度能力，自适应数据规模大小。我们将增量学习技术推广到了大模型训，构建了一个大模型持续学习系统，研发了任务级弹性伸缩调度器，分钟级调度资源，集群计算资源利用率达到 95%。」

最后在训练效率上，毫末智行还针对 Transformer 大矩阵计算，通过对内外循环的数据拆分，尽量保持数据在 SRAM 中，以提升计算的效率。Transformer 类大模型计算复杂度高，训练难度大。传统训练框架中存在 PyTorch，算子流程很长等问题，毫末智行通过引入火山引擎提供的 Lego 算子库实现算子融合，将端到端吞吐提升 84%。

DriveGPT 雪湖・海若落地

能带来什么？

按照毫末智行的规划，雪湖・海若即将应用到毫末第三代智能驾驶系统 HPilot3.0 上。首先落地的车型是魏牌新摩卡 DHT-PHEV，后续还有魏牌蓝山。

雪湖・海若引入车端之后，其决策会让车辆的动作更丝滑、更人性，且会有合理的逻辑告诉驾驶者，车辆为什么会选择这样的决策动作。对于普通用户来说，对车辆的信任感也会增强，可感受到车辆的行为都是可预期、可理解的。

目前，雪湖・海若已实现了模型架构与参数规模的升级，参数规模达到 1200 亿，预训练阶段引入 4000 万公里量产车驾驶数据，RLHF 阶段引入 5 万段人工精选的困难场景接管 Clips。

不过在未来，雪湖・海若的目标是实现端到端自动驾驶。

在 MANA 五大模型的帮助下，毫末最新的车端感知架构，已从过去分散的多个下游任务集成到一起，形成一个更加端到端的架构。这次，雪湖・海若又将 MANA 感知和认知相关大模型能力统一整合起来，打通了感知和认知。接下来，随着更多大模型的整合，雪湖・海若也将逐步向着端到端自动驾驶的最终目标进发。

顾维灏称：「DriveGPT 运用在车端后，未来可在四大场景上将带来突破，分别是城市 NOH、捷径推荐、智能陪练、场景脱困。最终，我们希望能够抵达自动驾驶的终极场景 —— 无人驾驶。」

随着雪湖・海若的正式发布，毫末迎来了包括北京交通大学计算机与信息技术学院、火山引擎、华为云、高通、京东科技、四维图新、魏牌新能源、英特尔等首批合作伙伴。毫末还将面向首批合作伙伴逐步开放 DriveGPT 的智能驾驶、驾驶场景识别、驾驶行为验证、困难场景脱困四大应用能力。

昨天，毫末已经对行业生态伙伴开放了 DriveGPT 的驾驶场景识别能力，同时毫末还将对行业开放一套基于 4D Clips 数据的高性价比的驾驶场景识别方案，其单帧图片整体标注成本仅相当于行业平均水平的 1/10。

顾维灏介绍：「在行业上，给出正确的标注结果，一张图片需要大概 5 元。如果使用 DriveGPT 的场景识别标注服务，一张图片的价格将下降到 0.5 元。」

自动驾驶数据形态的升级和成本的下降，会为自动驾驶技术跃升带来巨大影响。

AI 大模型下

视觉感知能力持续提升

除了 DriveGPT 雪湖・海若的架构升级和能力升级之外，MANA 视觉感知能力也得到了持续提升。

首先是视觉自监督大模型架构做了扩展，将预测环境的三维结构、速度场和纹理分布融合到同一个训练目标里，训练后的模型就可以理解场景当中的结构、速度和纹理等核心信息。

比如，这样输入前面 K 个时刻的信号，就可以通过 4D 编码器，提取出相关的动静态障碍物，路面、天气、光照等局部和全局的语义信息，形成 4D 特征空间。有了这个由前面 K 个时刻融合的 4D 特征，再输入解码器 3D 空间的位置编码，就能把后面 H 个时刻的三维结构和纹理信息都恢复。

顾维灏表示：「目前，我们的视觉自监督大模型的数据集超过 400 万 Clips，感知性能提升 20%。」

视觉能力提升之后，毫米智行下一点考虑的是能不能拿掉一些不必要的传感器，用更低的成本做更多事情。这里第一个被关注的是近距离测距任务。

「我们将鱼眼相机也引入到视觉 BEV 的感知框架当中，鱼眼图像通过 2D backbone 提取出视觉特征，经过空间转换映射至 BEV 空间，并在该空间下对于障碍物的轮廓边界进行识别和测量。」顾维灏介绍。

目前，毫末智行已经能做到在 15m 范围内达到 30cm 的测量精度，2m 内精度高于 10cm 的视觉精度效果。与主流的 USS 超声波雷达方案相比，其探测距离极限明显更高，近距离探测精度也不相上下，有能力在泊车场景取代 USS，进一步降低智能驾驶硬件成本。

通过视觉自监督大模型技术，做到不依赖激光雷达，将收集的大量量产回传视频转化为可用于 BEV 模型训练、带 3D 标注的真值数据后，毫末智行还在纯视觉 NeRF 三维重建方面取得更多进展。

其中，单趟重建做到了误差小于 10cm，并能对于场景中的车辆等动态物体做到很好的重建和渲染，肉眼基本看不出差异；多趟重建可以提供更多的观测视角，采用多趟轨迹对齐，提供出更好的重建结果，弥补单趟重建的不足。

通过 NeRF 进行场景重建后，就可以直接编辑合成真实环境难以收集到的 Corner Case，减去采集成本。其是在原有的全局视角修改、添加光照 / 天气效果的基础上，新增合成虚拟动态物体的能力，可以在原有设定的运动轨迹上，合成各种 Hard Case，模拟城市复杂交通环境，用更低成本测试提升城市 NOH 能力边界，更好提升应对城市复杂交通环境。

毫末智行是国内最早明确「重感知」路线的自动驾驶公司，这些年也一直在大模型、车端感知能力、智算中心方面做出大量努力。而如今，毫末推出 DriveGPT 雪湖・海若大模型，持续升级视觉感知能力，致力于端到端自动驾驶的路线，这些意味着毫末正在完成数据驱动的关键闭环。

这些前沿深奥的 AI 技术如何让大众能够体验到呢？

毫末张凯表示，毫末将加速推送城市 NOH 的快速落地，最新功能将在摩卡 DHT-PHEV 上开放，明年预计在国内 100 个城市完成落地。

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

ChatGPT 禁止

相关文章