一种自主导航机器人

控制器,其用于根据所述状态数据以及目标点相对位置对机器人所处的场景进行分
类,若为简单场景,则执行PID控制策略;若为复杂场景,则执行强化模仿学习控制策略;若
为紧急场景,则执行约束强化模仿学习控制策略;并且通过执行相应的控制策略计算出机
2.根据权利要求1所述的自主导航机器人,其特征在于,在所述控制器中配置有碰撞预
测模型,所述碰撞预测模型根据所述状态数据以及机器人的自身速度预测机器人能否发生
4.根据权利要求1至3中任一项所述的自主导航机器人,其特征在于,所述控制器在执
行PID控制策略时,将机器人前进正方向与目标点之间的夹角设置为偏差,代入PID计算公
式,计算出机器人的角速度,并保持机器人的线所述的自主导航机器人,其特征在于,所述控制器所执行的强化模仿
强化学习过程,其利用经模仿学习过程训练后的Actor网络以及Critic网络,结合状态
数据、机器人的自身速度以及目标点相对位置计算输出动作a,并根据所述动作a控制所述
行走机构调整机器人行走的线所述的自主导航机器人,其特征在于,所述控制器在模仿学习过程
存储器,其用于存储控制器在执行强化模仿学习控制策略时计算输出的动作a、机器人
在环境中执行了动作a后到达的状态s以及机器人执行动作a获得的奖赏r,并将所收集到的
其中,所述控制器在存入经验池中的数据的数量满足设定条件时,计算强化学习模型
的损失值,进而对强化学习模型中的Actor网络和Critic网络进行更新。
8.根据权利要求7所述的自主导航机器人,其特征在于,所述控制器对强化学习的奖赏
9.根据权利要求7所述的自主导航机器人,其特征在于,所述控制器在强化学习过程
其中,φ为Critic网络的权重;γ为折扣因子;t为时间步;T为最大步数;s
所述约束强化模仿学习控制策略与所述强化模仿学习控制策略中所使用的Actor网络
若小于等于设定阈值,则缩小传感器检测到的距离数据,并将缩小后的距离数据输入
强化学习模型,使通过强化学习模型计算输出动作a中表示机器人速度的数值减小。
进行环境感知,并获得几何空间的各维度信息。根据获得的几何空间信息并结合避障算法,
这可以使得移动机器人具备像人类一样的行为策略,能够在未知的环境中躲避机器人前方
学习方法。其中,路径规划方法需要对机器人及其所处环境进行准确感知,以保证规划出的
路径长度是最优的。但是,该方法需要中央服务器集中计算,难以在大规模的机器人群中以
及有动态障碍物的未知环境中使用。监督式学习方法能够根据传感器数据进行决策,KAIYUN体育官方平台入口使得
移动机器人可以躲避动态障碍物。但是,该方法所需数据的采集难度较大,若机器人所观察
到的环境状态未在训练数据集中出现过,则无法做出正确的决策,因此,泛化能力较差。强
化学习方法通过机器人与环境交互进行训练,不需要数据集,在环境中所采取的策略具有
一定的随机性。但是,基于强化学习模型设计的自动导航机器人,在简单的场景下无法沿直
线行驶,走出最短路径。并且,在接近目标点位置时,会出现机器人在目标点附近徘徊,而不
是迅速接近目标点的情况。同时,在周围的障碍物非常密集以及障碍物突然出现在面前等
策略,可以弥补传统路径规划方法无法躲避动态障碍物,监督式学习方法泛化能力差,强化
一种自主导航机器人,包括传感器、控制器和行走机构;其中,所述传感器用于检
测障碍物相对机器人的距离和角度,形成状态数据;所述控制器用于根据所述状态数据以
及目标点相对位置对机器人所处的场景进行分类,若为简单场景,则执行PID控制策略;若
为复杂场景,则执行强化模仿学习控制策略;若为紧急场景,则执行约束强化模仿学习控制
策略;并且通过执行相应的控制策略计算出机器人行走的线速度和角速度;所述行走机构
物,可以在所述控制器中配置碰撞预测模型,所述碰撞预测模型可以根据所述状态数据以
达目标点周围的场景;所述紧急场景为通过所述碰撞预测模型机器预测出机器人会发生碰
在本申请的一些实施例中,所述控制器在执行PID控制策略时,可以将机器人前进
正方向与目标点之间的夹角设置为偏差,代入PID计算公式,计算出机器人的角速度,并保
持机器人的线速度不变。采用PID控制策略可以控制机器人以最短的路径行驶,并在接近目
强化学习过程,其利用经模仿学习过程训练后的Actor网络以及Critic网络,结合
状态数据、机器人的自身速度以及目标点相对位置计算输出动作a,并根据所述动作a控制
控制器在执行强化模仿学习控制策略时计算输出的动作a、机器人在环境中执行了动作a后
到达的状态s以及机器人执行动作a获得的奖赏r,并将所收集到的(s ,a ,r)数据存入经验
池;所述控制器在存入经验池中的数据的数量满足设定条件时,计算强化学习模型的损失
值,进而对强化学习模型中的Actor网络和Critic网络进行更新,以实现网络优化。
模仿学习控制策略中所使用的Actor网络和Critic网络相同;所述控制器在执行约束强化
模仿学习控制策略时,首先判断机器人的线速度是否大于设定阈值;若大于设定阈值,则将
机器人的速度设置为0,即,控制机器人停止,以实现紧急避障;若小于等于设定阈值,则缩
小传感器检测到的距离数据,并将缩小后的距离数据输入强化学习模型,使通过强化学习
模型计算输出动作a中表示机器人速度的数值减小。通过降低机器人的行走速度,并借助强
分类模型,随时对机器人所在的环境进行分类。针对简单场景,采用PID控制策略,控制机器
人直线、快速地到达目标点,避免了机器人在目标点附近徘徊,而不是迅速接近目标点的情
况出现。针对复杂场景,采用强化模仿学习控制策略进行导航,以控制机器人安全避开障碍
物。针对紧急情况,采用约束强化模仿学习控制策略,控制机器人对突然出现的障碍物及时
做出反应,避免发生碰撞。三种控制策略的结合应用,可以使得机器人以较短的时间和路经
如图1所示,本实施例的移动机器人为了实现自主导航功能,在硬件配置上主要配
角度等信息,以形成状态数据,提供给导航策略使用。在某些实施例中,所述传感器可以选
置,对机器人所处的场景进行分类。然后,根据机器人所处的场景类型执行与该场景相对应
行强化模仿学习控制策略时计算输出的动作a、机器人在环境中执行了动作a后到达的状态
s、机器人执行动作a获得的奖赏r等。控制器将收集到的(s,a,r)数据存入经验池(存储器中
本实施例的导航策略采用PID控制策略、强化模仿学习控制策略、约束强化模仿学
习控制策略相结合的方式制定。其中,当机器人处于简单场景下时,可以采用PID控制策略
进行导航,以控制机器人直线、快速地到达目标点位置,避免机器人在目标点附近徘徊,而
不是迅速到达目标点的情况出现。当机器人处于复杂场景下时,可以采用强化模仿学习控
制策略进行导航,以使机器人在安全躲避障碍物的情况下,走出比较优化的路线。当机器人
处于紧急场景下时,可以采用约束强化模仿学习控制策略进行导航,以使机器人能够对突
控制器中配置了基于碰撞预测的场景分类模型,结合图2、图3所示。机器人在运行过程中,
实时地通过传感器观察环境状态,并将检测到的状态数据以及机器人的自身速度(包括但
不限于线速度和角速度)输入到碰撞预测模型中,以预测出机器人可能发生碰撞的概率,进
训练时,可以使用多种以往的机器人导航算法,在多种不同的仿真模拟环境中进行测试,并
收集大量类型为“传感器数据、机器人自身速度、是否发生碰撞”的数据;然后,利用收集到
的上述类型的数据对碰撞预测模型进行训练;最后,将训练后的碰撞预测模型应用到实际
行分类。例如,若通过传感器检测到机器人前方没有障碍物或者机器人已经到达了目标点
周围,则可以将此时的场景定义为简单场景;若通过碰撞预测模型生成的预测结果为会发
生碰撞(例如,机器人周围的障碍物非常密集或者有障碍物突然出现的场景),则可以将此
参见图3,机器人在实际运行过程中,定时地将传感器观测到的状态数据以及自身
的速度信息输入到碰撞预测模型中,进行碰撞预测。当然,也可以将历史碰撞数据输入到碰
行避障,即,执行约束强化模仿学习控制策略。如果预测不会发生碰撞,则对当前场景作进
一步分类,例如,若传感器检测到机器人已经到达了目标点附近或者机器人前方没有障碍
物,则执行简单场景下的PID控制策略;否则,判定机器人处于复杂场景下,执行强化模仿学
在PID控制策略中,可以将机器人前进正方向与目标点之间的夹角设置为偏差,代
入PID计算公式,计算出机器人的角速度,并保持机器人的线速度不变。在PID计算公式中,
机器处在一个环境中,每个状态为机器对当前环境的感知;机器只能通过动作来影响环境,
当机器执行一个动作后,会使得环境按某种概率转移到另一个状态;同时,环境会根据潜在
的奖赏函数反馈给机器一个奖赏。综合而言,强化学习主要包含四个要素:状态、动作、转移
信息调整策略,最终生成一个较好的策略π,机器根据这个策略便能知道在什么状态下应该
执行什么动作。一个策略的优劣取决于长期执行这一策略后的累积奖赏,换句话说:可以使
用累积奖赏来评估策略的好坏,最优策略则表示在初始状态下一直执行该策略后,最后的
本实施例在模仿学习过程中,使用专家数据对Actor网络进行训练,在优化导航性
参见图5,KAIYUN体育官方平台入口在模仿学习阶段,可以使用已经得到验证的导航算法(例如ORCA、RL、
Hybrid‑RL算法),在若干种不同的仿真环境中进行测试,收集形式为(s,a)的数据作为专家
使用专家数据集中的数据对Actor网络进行训练。通过训练,使Actor网络拟合专
家数据,这样在后续环境交互过程中,机器人不会在环境中盲目地进行探索,继而加快模型
的收敛速度。与此同时,专家数据集中的数据,都是机器人在简单以及紧急情况下有着完美
表现,能够执行完美策略所对应的数据。因此,使用专家数据集训练出的Actor网络,能够在
接下来,可以在强化学习阶段,利用机器人在实际运行过程收集到的数据对Actor
累计奖赏为目标实现的。强化学习模型不为机器人规划路径,而是针对机器人在环境中所
结合图2、图4所示,强化学习模型根据机器人自带传感器在环境中所观察到的状
态、机器人的自身速度以及目标点相对位置,输出一个动作的概率分布。之后,从概率分布
中随机采样,得到机器人应该执行的动作a。机器人在环境中执行动作a之后,到达了状态s。
同时,执行动作a会获得一个立即回报r(即,奖赏)以及新的观测状态。机器人将于环境中所
收集到的数据以(s,a ,r)的形式存入经验池。当经验池中存储的数据的数量满足一定条件
时,计算强化学习模型的损失值,用于对强化学习模型中的Critic网络和Actor网络进行更
均为超参数。超参数是在开始学习过程之前设置的参数,而不是通过训练得到的参数数据。
通常情况下,需要对超参数进行优化,给学习模型选择一组最优超参数,可以提高学习的性
Critic网络的优化目标是最小化与经验池中累积奖赏值的误差,因此,本实施例
其中,φ为Critic网络的权重;γ为折扣因子;t为时间步;T为最大步数;s
Actor网络的优化目标是最大化累计奖赏的期望值,因此,本实施例配置Actor网
利用计算出的Actor网络的权重θ和Critic网络的权重φ,对Actor网络和Critic
训练后的Actor网络和Critic网络,可以应用到紧急场景下的约束强化模仿学习
能会发生的碰撞。之后,执行约束的强化模仿学习控制策略,利用该控制策略对机器人所执
略的基础上增加约束条件,通过限制机器人的行走速度,达到安全避障的技术效果。
如图6所示,当机器人处于紧急环境下时,首先判断机器人的线速度是否大于设定
阈值;若大于设定阈值,则说明会有极大的概率发生碰撞,此时可以将机器人的速度设置为
0,即,控制机器人停止运行,以躲避突然出现的障碍物;否则,缩小传感器检测到的距离数
据,并将缩小后的距离数据输入强化学习模型,使得通过强化学习模型计算输出动作a中表
