GateRL-Humanoid: 基于门控多头强化学习的人形机器人控制系统

项目背景与目标

人形机器人作为最接近人类形态的自主系统,具备执行复杂环境任务和与人类自然交互的潜力。然而,实现全身动作的稳定与协调仍是极具挑战的问题[2]。尤其在动作数据有限的情况下,直接端到端训练大规模策略容易出现收敛困难和灾难性遗忘[3],难以满足真实场景需求。 系统核心是提出一种分区逐步解锁的门控多头强化学习方法,通过先稳定下半身[4],再逐步开放上半身自由度,并在门控调度下进行分阶段训练,最终蒸馏为统一控制器[5]。核心目标如下:

  1. 获得稳健的下半身控制,在不同环境与干扰条件下维持稳定;
  2. 逐步增加上半身能力,实现动作扩展与任务叠加;
  3. 利用门控结构协调多头策略,减少不同部分的干扰[6];
  4. 统一蒸馏为全身控制器,在保持稳定性的同时提升多任务适应性[7]。

核心任务设计

任务一:分区门控架构设计(30分)

在第一阶段,实现的重点是设计整体的控制架构。系统采用共享特征编码器与多头策略相结合的结构,观测输入包括关节状态、IMU信号和接触信息,经由统一编码器映射到隐空间,再由多个策略头分别输出动作。其中,下半身的策略头主要负责稳定运动,上半身的多个策略头分别承担不同任务,而门控模块则依据环境上下文、动作相位或任务标签来选择或加权这些输出。 为了保证训练初期的稳定性,门控单元可以采用硬切换等方式,在任务间切换时能够避免动作突变;随着训练的深入,再逐步过渡到稀疏混合的形式,使动作更加自然和平滑。

考核要点:门控策略的设计合理性、对不同自由度的解耦能力、在任务间切换时的平稳性。

任务二:下半身鲁棒策略学习(25分)

在完成架构设计之后,第二阶段的重点是训练一个高度鲁棒的下半身控制器,使机器人能够在各种地形和干扰条件下保持平衡并完成步行。训练过程覆盖了平地、斜坡、障碍和随机扰动等环境,同时对动力学参数、摩擦系数、传感噪声和时延进行大范围随机化,以增强策略的泛化能力。奖励函数强调质心稳定、速度跟踪、接触一致性和能耗效率,从而引导策略形成稳定而自然的步态。

在算法选择上,可以使用PPO为优化器,通过大规模并行仿真提高样本效率,并在训练中引入额外的对称性正则,以避免步态出现偏差。

考核要点:推搡恢复成功率、步态对称性、能耗效率。

任务三:逐步解锁上半身任务(30分)

第三阶段聚焦于逐步开放上半身自由度,并在已有的下半身稳定性基础上,扩展机器人在全身动作上的表现。最初,系统会在下半身策略冻结的情况下加入上肢的简单动作,例如姿态保持与自然摆臂,以改善运动的协调性与自然性。随后,逐步引入更复杂的双臂协同任务,如搬运和举起物体,最终过渡到抓取和搬运等高难度动作。

为了避免对下半身稳定性的破坏,这一阶段的策略训练可以采用残差控制方式,在已有的动作输出上叠加小幅调整,从而兼顾稳定性与任务灵活性。门控机制在此过程中起到关键作用,它能够根据任务上下文动态激活合适的策略头,使机器人在不同动作模式间灵活切换。该阶段的挑战在于如何处理任务间的干扰和冲突,确保全身动作的协调与平衡。

考核要点:任务成功率、与下半身的协同度、跨任务切换时的稳定性。

任务四:策略整合与统一蒸馏(15分)

在多头策略完成训练并覆盖了上下半身的多样任务后,最后一个阶段的目标是将这些策略统一整合为一个全身控制器,以减少推理复杂度并提升实际部署的可靠性。该过程可以通过策略蒸馏实现,多个任务头作为教师网络,统一策略作为学生网络,训练时利用KL散度保持动作分布一致。

同时,系统的难点在于防止在蒸馏过程中出现灾难性遗忘,可以使用弹性权重固化(EWC)等方法,在保留旧任务能力的同时吸收新任务知识,最终形成的全身控制器无需复杂的门控结构即可执行多任务,降低推理开销,提升实机部署的可靠性。

考核要点:统一控制器在未见任务和新环境中的泛化表现。

数据集与技术栈

数据集及仿真平台:AMASS 大规模开源动捕数据集[1], 仿真平台建议使用IsaccSim,通过IsaacLab进行代码构建,可以通过MuJoCo进行Sim-to-sim的策略验证,来辅助进行真机实现。利用少量人类动作捕捉数据来提供上肢任务的先验知识,帮助策略在数据稀缺的情况下保持自然性。此外,通过参数扰动和域随机化手段构建扩展数据集,以增强模型的Sim2Real迁移能力。

基线方法:可以采用端到端单策略强化学习作为最直接的对照,验证分区与门控机制的价值。其次,以模仿学习结合RL微调[8]的方法评估在有限数据下的表现,并与本项目的残差训练方式进行比较。再者,使用层级强化学习(HRL)[9] 作为另一类对照,其高层调度低层控制器但缺乏统一蒸馏机制,可以凸显本项目在统一策略上的优势。可以选择基于动作先验的全身统一控制方法(如AMP[10]和HOVER[11])作为更高层次的基准,检验本项目在稳定性与任务多样性上的综合优势。通过这些基线方法的对照实验,可以系统评估所提出方法的创新性与有效性。

评估标准与预期成果

评分分配(100分)

  • 下半身稳态指标(30分):平均推搡恢复率、步态对称性、单位能耗。
  • 上半身任务完成度(30分):抓取/搬运成功率,动作自然度。
  • 多头门控性能(25分):切换稳定性、动作平滑度、不同任务的适配性。
  • 统一策略表现(15分):在未见任务与环境中的泛化能力。

预期交付物

  • 完整代码库(含训练脚本与环境配置)
  • 多场景仿真视频演示(下半身→上半身→全身)
  • 技术文档(含奖励设计、门控策略、评估指标)
  • 10分钟的系统演示视频

参考文献

  1. Mahmood N, Ghorbani N, Troje N F, et al. AMASS: Archive of motion capture as surface shapes[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 5442-5451.
  2. Hwangbo J, Lee J, Dosovitskiy A, et al. Learning agile and dynamic motor skills for legged robots[J]. Science Robotics, 2019, 4(26): eaau5872.
  3. Kirkpatrick J, Pascanu R, Rabinowitz N, et al. Overcoming catastrophic forgetting in neural networks[J]. Proceedings of the National Academy of Sciences, 2017, 114(13): 3521-3526.
  4. Kumar A, Fu Z, Pathak D, et al. Rma: Rapid motor adaptation for legged robots[J]. RSS, 2021.
  5. Rusu A A, Colmenarejo S G, Gulcehre C, et al. Policy distillation[J]. ICLR, 2016.
  6. Shazeer N, Mirhoseini A, Maziarz K, et al. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer[J]. ICLR, 2017.
  7. Parisotto E, Ba J L, Salakhutdinov R. Actor-mimic: Deep multitask and transfer reinforcement learning[J]. ICLR, 2016.
  8. Peng X B, Abbeel P, Levine S, et al. Deepmimic: Example-guided deep reinforcement learning of physics-based character skills[J]. ACM Transactions On Graphics (TOG), 2018, 37(4): 1-14.
  9. Pateria S, Subagdja B, Tan A, et al. Hierarchical reinforcement learning: A comprehensive survey[J]. ACM Computing Surveys (CSUR), 2021, 54(5): 1-35.
  10. Peng X B, Ma Z, Abbeel P, et al. Amp: Adversarial motion priors for stylized physics-based character control[J]. ACM Transactions on Graphics (ToG), 2021, 40(4): 1-20.
  11. He T, Xiao W, Lin T, et al. Hover: Versatile neural whole-body controller for humanoid robots[J]. ICRA, 2024.
Previous
Next