WAYVE：探究未来智能出行的新模式

文章主题：人工智能, 语言模型, 自然语言处理

初创公司 Wayve 的无人驾驶汽车现在支持了语音交流，乘客可以询问系统的驾驶决策，并得到答案。背后的想法是使用与 ChatGPT 相同的技术来帮助训练无人驾驶汽车。

该公司将其现有的自动驾驶软件与一个大型语言模型相结合，创建了一个名为 LINGO-1 的混合模型。LINGO-1 可以将视频数据和驾驶数据（汽车每秒采取的行动），与捕捉汽车所见所做的自然语言描述同步。

（来源：WAYVE）

这家总部位于英国的公司在过去几年里取得了一系列突破。2021 年，它展示了自己的车辆可以在伦敦街头接受人工智能训练，并在英国其他四个城市使用人工智能驾驶汽车，这一挑战通常需要进行重大的工程再造。2022 年，它使用同样的人工智能驾驶了不止一种类型的车辆，这也是该行业的首创。现在它实现了和汽车聊天。

在该公司本周给我的一个演示中，其 CEO 艾利克斯·肯德尔（Alex Kendall）播放了一辆捷豹 I-PACE 汽车拍摄的视频，然后跳到视频的一个随机时间点，并开始提问：“天气怎么样？”答：天气多云。“你看到了什么危险？”答：左边有一所学校。“你为什么停车？”答：因为红绿灯是红色的。

肯德尔说：“在过去的几周里，我们看到了一些了不起的事情。我从来没有想过要问这样的问题，但是你看这个。”他输入：“右边的建筑有多少层？”答：三层。

“看到没！”他说，听起来像个骄傲的爸爸。“我们从未训练它去实现这一点。这真的让我们感到惊讶。我们认为这是人工智能安全方面的突破。”

“我对 LINGO-1 的能力印象深刻，”美国加州大学伯克利分校的机器人研究员、机器人公司 Covariant 的联合创始人皮特·阿比尔（Pieter Abbeel）表示，他尝试了这项技术的演示。阿比尔问 LINGO-1，如果“如果灯是绿色的，你会怎么办？”

“它几乎每次都给出了非常准确的答案，”他说。

Wayve 希望通过询问自动驾驶软件的每一步行为，准确了解其汽车为什么以及如何做出某些决定。大多数时候，汽车开得很好。但当汽车行驶出现问题时，就可能很难办，正如Cruise 和 Waymo 等行业领先者所发现的那样。

这两家公司都在美国几个城市部署了小规模的无人驾驶出租车车队。但技术远非完美。Cruise 和 Waymo 的汽车发生了多起轻微碰撞（据报道 Waymo 杀死了一只狗），并在不知所措时阻碍了交通。

旧金山官员声称，2023 年 8 月两辆 Cruise 汽车挡住了一辆载有一名伤者的救护车，该伤者后来在医院不治身亡。Cruise 否认了官方的说法。

Wayve 希望，当自己的汽车做错了什么时，可以要求它们解释自己的行为，这将比仔细查看视频回放或单纯查看错误报告更快地发现缺陷。

阿比尔说：“自动驾驶最关键的挑战是安全。有了 LINGO-1 这样的系统，我想你会更好地了解它对驾驶的理解。”他说，这使得弱点识别变得更容易。

肯德尔说，下一步是用语言来训练汽车。为了训练 LINGO-1，Wayve 让其专业司机团队，其中一些是前驾驶教练，在驾驶时大声说话，解释他们在做什么以及为什么这样做：他们为什么加速，为什么减速，他们意识到了什么危险。

该公司利用这些数据对模型进行微调，为其提供驾驶技巧，就像教练指导人类学员一样。肯德尔说，告诉汽车如何做某事，而不仅仅是展示它，可以大大加快训练速度。

Wayve 并不是第一个在机器人技术中使用大型语言模型的公司。其他公司，包括谷歌和 Abbeel 的 Covariant 公司，正在使用自然语言测试或指导家用或工业机器人。这种混合技术甚至有一个名字：视觉语言动作模型（VLAM，visual-language-action models）。但 Wayve 是第一个将 VLAM 用于自动驾驶的公司。

肯德尔说：“人们经常说一图胜千言，但在机器学习中，情况恰恰相反。几句话抵得上一千张图片。”一张图片包含大量冗余数据。他说：“当你开车的时候，你不在乎天空，也不在乎前车的颜色，或者诸如此类的东西。文字可以集中在重要的信息上。”

纽约大学机器人研究员乐瑞尔·宾图（Lerrel Pinto）说：“Wayve 的方法特别有趣且独特。”他尤其喜欢 LINGO-1 解释其行为的方式。

但他很好奇当模型瞎编乱造时会发生什么。“我不相信大型语言模型会完全输出真实的东西，”他说，“我不确定我是否可以信任它们来接管我的车。”

佐治亚理工学院的研究员乌云普尔·爱桑（Upol Ehsan）也有类似的保留意见，他致力于研究让人工智能向人类解释其决策的方法。爱桑说：“用简单的话说，大型语言模型可以生成很棒的废话。我们需要贴上亮黄色的‘警告’标签，确保生成的语言不包含‘幻觉’。”

Wayve 非常清楚这些问题，并正在努力使 LINGO-1 尽可能准确。肯德尔说：“我们在任何大型语言模型中都看到了同样的挑战。这当然还不完美。”

与非混合模型相比，LINGO-1 的一个优势是，它的回应是基于相关的视频数据的。理论上，这应该使 LINGO-1 更加真实可信。

肯德尔说，这不仅仅是关于汽车的。“人类进化出语言是有原因的：这是我们所知道的、交流复杂话题最有效的方式。我认为智能机器也是如此。我们未来与机器人互动的方式将是通过语言完成的。”

阿比尔对此表示赞同。“我认为我们即将看到机器人技术的革命，”他说。

作者简介：威尔·道格拉斯·海文（Will Douglas Heaven）是《麻省理工科技评论》人工智能栏目的高级编辑，他在这里报道新的研究、新兴趋势及其背后的人。此前，他是英国广播公司（BBC）科技与地缘政治网站 Future Now 的创始编辑，也是 New Scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位，深谙与机器人合作的体验。

支持：Ren

举报/反馈

WAYVE：探究未来智能出行的新模式

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

ChatGPT 博士重大

相关文章