RL2-Lab

locomotion

方向简介

Dirichlet策略约束

基于学习的控制器在机器人控制任务中表现出了有前景的性能。然而，由于难以确保复杂动作约束的满足，它们仍然存在潜在的安全风险。我们提出了一种新颖的受约束的强化学习方法，将受限的动作空间转换为其对偶空间，并使用Dirichlet分布策略来保证严格的约束满足以及随机探索。我们在基准环境中和一个真实的四足运动任务中验证了该方法。我们的方法在奖励和推理速度方面优于其他基准，并且在真实机器人实验中的结果表明了我们方法的有效性和潜在应用。

Paper List

Jianming Ma, Zhanxiang Cao, Yue Gao*,"Constrained Dirichlet Distribution Policy: Guarantee Zero Constraint Violation Reinforcement Learning for Continuous Robotic Control", IEEE Robotics and Automation Letters (IEEE RA-L), 2024. (Corresponding Author) [paper]