Amazon DeepRacer训练日志分析范例与强化学习Reward Function设计 ml

文章图片

Amazon DeepRacer 是一款专门为帮助开发人员进行强化学习（Reinforcement learning）实践而开发的1/18 比例的完全自动驾驶赛车。Amazon DeepRacer 为开发人员提供了一种学习强化学习的简单方法，用新的强化学习算法和模拟到真实域传输方法进行实验，并在现实世界中体验强化学习。开发人员可以在在线模拟器中训练、评估和调整强化学习模型，将他们的模型部署到Amazon DeepRacer 上，从而获得现实世界的自动驾驶经验，并参加Amazon DeepRacer League 的比赛。
在开启Amazon DeepRacer之旅之前，我们首先在Amazon DeepRacer 线上模拟器中进行模型训练。一般而言，在训练完成后，我们需要追溯训练过程中agent的运动情况，并进行针对性分析，才能优化强化学习核心reward function设计。在本文中，我们将会阐述针对训练过程运动日志分析的操作步骤，并针对分析结果进行reward function的调优与调优后对比。
打开Amazon DeepRacer控制台，点击Reinforcement learning—Your models，选择对应模型。

文章图片

在Training下，点击Download logs。

文章图片

解压模型文件后，我们会看到如下层级:

文章图片

其中logs下为训练过程日志，metrics下为训练过程指标，sim-trace下为每个iteration下的trace以及对应award的记录。我们有多种方式对于过程数据进行分析，这里主要分析不同reward function对于sim-trace的影响。
为了统一进行分析，首先需要将所有training-simtrace下的csv进行concat，脚本如下图所示：

文章图片

运行后，在$OutFileName路径下生成新的.csv文件。之后，我们将训练日志按episode来进行划分，依次查看在训练不同阶段的reward以及对应的action变化：

文章图片

文章图片

Waypoint限制reward function下train log 可视化。
上图所示是一个进行了局部waypoint限制的reward function下的0-10% episode与90%-100% episode的reward记录，可以看到，在该reward下，模型快速收敛，并且迅速获取到较高reward记录。

文章图片

all_wheels_on_track，速度与转向限定reward function下train log 可视化。
不同的reward function下reward分布不同，上图所示对于all_wheels_on_track，速度与转向进行了限定的训练log展示，该图中reward峰值连续且均匀，但是在连续过弯时候因为没有waypoint限制容易出界，即上图中的黄色区域。

文章图片

Steer

文章图片

throttle
Waypoint限制的reward function下的reward分布整体均匀，但是如果我们将feature换为steer或者throttle, 如上图所示，可以看到，由于reward并没有对于连续action的奖励，action特别是throttle在训练过程中呈不连续状态。Throttle的不连续性不会影响completion_percentage，但是会影响速度，在竞速比赛中难以拿到优秀成绩。
针对这一问题，我们在reward function中额外增加了对于连续action的reward, 之后新的log如下图所示：

文章图片

Steer

文章图片

可以看到，在限制了转向与速度后，虽然动作变得更连续，但是原有waypoint的限制被弱化，整体线路不再顺畅，特别是在左下角部分，出现了异常的弯道，这在实体赛会存在出圈的风险。同时，分析log不难看出，算法收敛也显著变慢。可见，Reward设置需要综合考虑多方面的因素，并留给算法足够的优化空间，并不一定限制越多，效果越好。
强化学习的reward function设计需要持续进行优化。特别是在实体赛中，遇到的sim2real gap会带来额外的调整。持续可视化训练过程log的过程，也是我们逐步理解不同reward function对模型结果影响的过程。
本篇作者
【Amazon DeepRacer训练日志分析范例与强化学习Reward Function设计】
文章图片

赵安蓓
亚马逊云科技解决方案架构师
负责基于亚马逊云科技云平台的解决方案咨询和设计，尤其在大数据分析与建模领域有着丰富的实践经验。

Amazon DeepRacer训练日志分析范例与强化学习Reward Function设计

推荐阅读

飞亚达手表回收飞亚达机械手表价格

知心爱人付笛声任静歌词知心爱人歌曲任静,付笛声简谱

识别情绪，控制和养成情绪

脊髓再生成功高位截瘫吧

广州积分入学小学积分后初中还要积分吗

耳朵疼是怎么回事

mysql模糊查询匹配最优 mysql多条件模糊查找

凝聚的近义词是什么词？凝聚的近义词是什么?

秦国是如何从弱小走向霸主的呢？

车辆保养多久做一次?汽车保养明细表大全车辆保养多久做一次

浅谈《伤寒论》的辨证思维方式

描能组什么词语

医生|50岁的阿姨抽出“猪油血”，医生提醒：春节饮食要注意

爱普生打印机固件刷机

对于非法出售增值税专用发票案公安追诉标准是多少

绘本讲师训练营【31期】20/21实践原创《鳄鱼怕怕，牙医怕怕》

快速调出照片的梦幻紫色调

吃啥降低胆固醇最快吃什么降低胆固醇最快

系统安全性分析

酸梅汤的功效与作用夏季喝酸梅汤有啥好处