以ChatGPT为代表的生成式AI在自动驾驶领域的应用

刘胜语赫荣亮 ☉ 文来源：意见领袖 2023-03-16 @ 哈希力量

【小哈划重点：ChatGPT作为一个语言模型主要用于生成自然语言文本，如对话、文章等，而自动驾驶算法需要处理的是感知、决策和控制等方面的问题，看似二者并没有太大的关联，但是从技术逻辑上，ChatGPT能够给自动驾驶算法技术路线发展带来两大启发。】

美国人工智能公司OpenAI发布的ChatGPT以其高效信息获取、海量数据调用、超强优化学习能力火速出圈。ChatGPT不仅是人工智能技术的应用端普及，更是凭借完善的逻辑归纳能力、有监督的持续改进调优以及连续对话的交互体验开启了通用人工智能（AGI）的一扇窗，不仅仅在内容生产、便捷交互和简化工作等消费端的应用快速普及，并向工业设计、药物研发、材料科学等领域快速扩散。

而随着集度、吉利、红旗等汽车企业纷纷宣布支持汽车机器人自然交流，以人工智能为技术驱动的自动驾驶，将成为新能源汽车发展的重要方向。本文就近期ChatGPT此类预训练大模型人工智能技术的突破，将对自动驾驶领域带来哪些变革进行探讨。

一、ChatGPT能够给自动驾驶带来语音交互提升，成为提升智能座舱语音交互质量的重要工具

ChatGPT是以其令人惊艳的“对话聊天”能力出圈的，对比市面上现有的机械式的车载智能语音交互模式，ChatGPT依托海量参数的预训练大模型实现了降维打击。当前车载智能语音交互主要有识别、理解和执行三大重点，而在目前提供的解决方案中，语音识别部分已经能够达到90%以上，堵点难点主要聚焦于“理解”部分。

由于机器不具备语义理解能力，用户只能通过触摸屏与部分语音相结合的方式，按照指定命令与汽车进行交互，功能的复杂性和关键词的多少成正相关，整个系统机械化运行、功能单一。据相关机构调研，2022年1-8月，语音交互功能在智能座舱的渗透率达到73.3%，但用户对智能语音交互感兴趣程度仅为42.9%。

所以，ChatGPT作为自然语言处理技术功能强大，ChatGPT能够在沟通中结合用户提出的问题不断做出精准的、连续的回应，一方面通过对模型在车内对话场景的专项定制，可以在车载运行环境中取得优异的识别效果；另一方面模型的学习能力和上下文结合能力，可以让ChatGPT实现连续对话交互。这种语义理解能力应用在车机交互上，最直观的变革就是语音交互更加直接，更符合人类思考的习惯，会更加接近于人与人之间的交流，交互效率直线提升，大幅提升用户体验。

二、生成式AI为自动驾驶模型训练提供高质量合成数据，破解自动驾驶数据和测试难题

ChatGPT属于生成式AI在自然语言对话场景中的应用，而AIGC（人工智能生产内容）能够灵活运用于写作、绘图、语音、视频等不同维度的创作领域，结合自动驾驶模型训练的数据需求，AIGC能够生成任何人类想象到的驾驶场景。

自动驾驶需要通过真实世界的数据来训练、测试和验证模型算法的安全性和准确性，其过程需要大量数据支持和复杂的驾驶环境，甚至涵盖许多极端环境的“边缘案例”，某种意义上说需要数百年的真实驾驶才能收集构建真正安全的自动驾驶汽车所需的所有数据，并且真实世界的图像数据必须先手动标记，然后才能用于训练AI模型。谷歌（Waymo）已经投入了数十亿美元，并花费了十多年的时间来收集数百万英里的真实驾驶数据，并将其作为其自动驾驶技术堆栈的护城河。

相较而言，合成数据无论从成本还是场景方面都有着无可比拟的优势，因此第一批出现的合成数据初创公司也主要瞄准了自动驾驶汽车终端市场，帮助自动驾驶企业解决其在自动驾驶系统开发过程中所面临的数据和测试难题。

随着AIGC技术持续创新发展，基于AIGC算法模型创建、生成合成数据迎来重大进展，有望解决自动驾驶发展应用过程中的数据限制。一是通过合成数据来改善基准测试数据的质量来实现数据增强和数据模拟，解决数据匮乏、数据质量等问题；二是利用合成数据训练AI模型可以有效避免用户隐私问题；三是合成数据可以自动创建、生成现实世界中难以或者无法采集的数据场景，能有效应对长尾、边缘案例，提高模型算法的准确性、可靠性；四是合成数据技术可以实现更廉价、高效地批量生产自动驾驶模型训练开发所需的海量数据，毕竟人工标注一张图片可能需要6美元，但人工合成的话只需要6美分。

三、大模型技术路线启发自动驾驶底层算法跃迁升级

ChatGPT作为一个语言模型主要用于生成自然语言文本，如对话、文章等，而自动驾驶算法需要处理的是感知、决策和控制等方面的问题，看似二者并没有太大的关联，但是从技术逻辑上，ChatGPT能够给自动驾驶算法技术路线发展带来两大启发。

第一点，是大模型的突现能力，即参数规模超过一个阈值后，模型的“思维链”能力突然就涌现出来，这就是所谓大模型的“突现能力，通俗讲就是量变引起质变，大模型就意味着大参数、大数据，当然伴随的也是大成本和大投入。ChatGPT的破圈给人工智能业界带来的突破性认知和范式转变是突现能力只存在于大型模型中，而不是小型模型。各种测试表明，只有模型达到175B的规模才有可能形成“突现能力”，模型能够展示类似人类的复杂推理和知识推理能力——思维链，基于“思维链”的推理能力能够在提问时附加给出提示，模型就能自动学习并做出相应推理得到正确结果。这对于自动驾驶“跃进式”和“渐进式”两大路线的选择无疑会产生深远影响。

第二点，是人类反馈的强化学习（RLHF），简单理解就是应用人类处理问题的方式去训练算法。从2020版本的GPT-3到2022版本的ChatGPT，在控制参数量和训练数据不变的情况下对比监督学习指令微调和RLHF，能够发现在RLHF的参与下，模型的回答更加详实、公正，并且能够拒绝不当和知识范围以外的问题。将这类模式映射到自动驾驶的算法模型中就是应用人类司机正确的驾驶数据来训练算法，驾驶员针对自动驾驶算法的接管视为决策纠正，同时也是正向反馈的强化学习。ChatGPT的成功则证明应用RLHF是可以训练出模型来验证、评价机器模型的输出，使其不断进步，最终达到人类的驾驶水平，在自动驾驶业内毫末通过该方式，在掉头、环岛等公认的困难场景，通过率提升30%以上。

一句话，以ChatGPT为代表的内容生成式AI在自动驾驶领域还处于探索阶段，目前看在智能座舱语音、自动驾驶模型训练等方面具备应用，随着科技领域、产业领域、资本领域的持续介入，预训练大模型“思维”能力更强，在自动驾驶领域的应用将进一步拓宽，我团队将持续关注。（赛迪研究院刘胜语、赫荣亮）

收录来源链接或附上。内容并不代表投资建议。

本文收录后固定可引用URL链接

http://www.haxililiang.com/jishu/rumen/35475.html

☉ 文库同一主题内容智能推荐 ☉

哈希力量 ☉ 通用人工智能文库