投稿|Nature封面:人类又输给了AI,这次是玩《GT赛车》游戏( 二 )


投稿|Nature封面:人类又输给了AI,这次是玩《GT赛车》游戏
文章图片

图|游戏比赛数据对比(来源:Nature)
近年来,利用全尺寸、大规模和模拟车辆,自主赛车的研究不断加速 。一种常见的方法是预先计算轨迹,并使用模型预测控制来执行这些轨迹 。然而,当在摩擦的绝对极限下行驶时,微小的建模误差可能是灾难性的 。
与其他车手比赛对 AI 建模精度提出了更高的要求,并引入了复杂的空气动力学相互作用,进一步促使工程师改进控制方案,以不断预测和适应赛道的最优轨迹,有朝一日,无人驾驶汽车下赛道与人类车手一决高下,也并非空谈 。
“AI赛车手”的炼成在 GT Sophy 的开发过程中,研究人员探索了各种使用机器学习来避免建模复杂性的方法,包括使用监督学习来建模车辆动力学,以及使用模仿学习、进化方法或强化学习来学习驾驶策略 。
为了取得成功,赛车手必须在四个方面具备高度技能:(1)赛车控制,(2)赛车战术,(3)赛车礼仪和(4)赛车策略 。
为了控制汽车,车手们对他们的车辆动力学和赛道的特性有详细的了解 。在此基础上,驾驶者建立所需的战术技能,通过防守对手,执行精确的演习 。同时,驾驶员必须遵守高度精炼但不精确的体育道德规则,最后,车手在模拟对手、决定何时以及如何尝试超车时,会运用战略思维 。
模拟赛车是一个需要在具有高度真实、复杂物理环境中进行实时、连续控制的领域,GT Sophy 在这种环境下的成功首次表明,在一系列汽车和赛道类型中,有可能训练出比顶尖人类赛车手更好的人工智能代理 。
这一结果可以被视为是计算机在国际象棋、围棋、冒险、扑克牌和星际争霸等竞争性任务持续发展的另一个重要步骤 。
投稿|Nature封面:人类又输给了AI,这次是玩《GT赛车》游戏
文章图片

图|GT Sophy 的训练(来源:Nature)
值得注意的是,GT Sophy 在短短几个小时内就学会了绕道而行,并超过了数据集中 95% 的人类选手,它又训练了九天时间,累计驾驶时间超过了 45000 小时,跑圈时间减少了十分之一秒,直到圈速停止改善 。
单凭进步奖励还不足以激励AI程序赢得比赛 。如果人类对手的速度足够快,AI程序将学会跟随,并在不冒潜在灾难性碰撞风险的情况下尝试积累更多奖励,实现超车 。
为了评估 GT Sophy,研究人员在两项赛事中让 GT Sophy 与顶级 GT 车手进行了较量,GT Sophy 在所测试的三条赛道上都取得了超人的计时表现,它能够执行几种类型的转弯,有效地利用漂移,扰乱后面车辆,拦截对手并执行其他紧急操纵 。
尽管 GT Sophy 展示了足够的战术技能,但仍有许多方面有待改进,尤其是在战略决策方面 。例如,GT Sophy 有时会在同一条跑道上留出足够的空间,让对手有机可乘 。
投稿|Nature封面:人类又输给了AI,这次是玩《GT赛车》游戏
文章图片

图|AI 车手超越人类玩家(来源:Nature)
竞技游戏外更值得关注关于电子竞技、博弈类的游戏,AI 能战胜人类早已经不是什么稀奇事,而且可以肯定的是,AI 还会越来越强,即便是人类顶尖选手也只能甘拜下风,但能赢电子比赛并没有太多悬念和意义,关键还是看这些超越人类的 AI 程序如何切实攻克产业瓶颈,真实造福人类生活 。

推荐阅读