基于机器学习的移动机器人运动规划方法 | Yixin Zhu

项目背景与目标

传统运动规划方法（如基于采样的 PRM/RRT*、基于优化的 CHOMP/TrajOpt）在高维空间、狭窄环境以及多任务场景中，往往存在规划时间长、依赖精确模型、成功率低等问题。近年来，随着模仿学习、强化学习以及基于扩散的轨迹生成方法的发展，学习驱动的规划方式能够直接生成可行轨迹，从而加速规划过程并提升成功率。

本项目的目标是构建一个基于机器学习的移动机器人全身协调运动规划系统。在多样化场景中训练学习型运动规划器（Learning-based Motion Planner），使其能够在未见过的新环境下快速生成无碰撞、平滑且高效的运动轨迹。

核心任务设计

任务一：安装并测试 3D Diffusion Policy（10分）

打开3D Diffusion Policy 项目网站，下载并安装 python 算法库。

安装完成后，下载项目网站提供的仿真环境数据，并运行训练与推理。

任务二：安装 Isaac Sim 与 curobo（10分）

打开curobo 项目网站，下载并安装。

打开Isaac Sim 项目文档，下载并安装 4.5.0 版本。

运行curobo 演示程序，并进行截图记录。

任务三：在 Isaac Sim 和 curobo 中构建任务环境，采集移动机器人的运动轨迹和视频（30分）

目标是在 Isaac Sim 中搭建仿真环境，并利用 curobo 规划移动机器人轨迹，同时采集视频数据。场景既可从已有数据集 [1][2] 中选取并格式转换，也可通过场景生成方法 [3][4] 构建。任务由学生自定义，例如简单的“抓取—放置”任务，明确物体的初始状态和目标状态即可。

本任务主要分为两个步骤：规划轨迹，与采集轨迹对应的视频。

在规划轨迹阶段，学生需要使用 curobo 的轨迹规划功能，根据自己定义的物体初始与目标状态，使用 mobile franka 机器人执行物体的抓取、摆放任务。你可以参考 curobo 的这个示例。物体的抓取姿态可手动指定，不必自动生成。本阶段成功的话，你应该可以在图形界面中观察机器人完成抓取与移动过程。

在视频采集阶段，学生需要使用 Isaac Sim 的 camera 功能，采集对应的 rgbd 视频数据。视频的采集应当参考任务一中 3D Diffusion Policy 使用的视频数据格式。

期望产出：

场景与任务定义：构建一个仿真场景，在场景中设计机器人需要执行的具体任务，明确交互物体、物体的初始状态以及目标状态。
规划的轨迹：针对上述场景与任务定义，规划机器人抓取、放置移动轨迹。
采集的轨迹视频：根据采集到的轨迹，录制仿真环境下的动作视频（图像序列）。

加分项：构建多个场景和任务，统计和报告每个场景的几何特征，包括障碍物数量、类型、尺寸、位置等，并在这些场景上进行数据采集。（最多额外10分）

加分项 2（难度非常大）：尝试完成开门任务并采集轨迹和视频。（最多额外30分）

任务四：将采集的数据迁移到 3D Diffusion Policy 进行训练和推理，测试效果（30分）

本任务的目标是使用上述采集的数据进行模型训练和推理，并验证结果。本任务分为两个步骤：模型训练，推理仿真验证。

模型训练阶段，学生需要将上述采集的轨迹和图像数据转换为 3D Diffusion Policy 使用的数据格式，并进行训练。

推理仿真验证阶段，学生需要在仿真环境内采集 camera 的RGB-D图像，并使用训练得到的模型进行推理，查看任务完成效果。

学生需要更改如训练轨迹数量、图像预处理方式、网络参数等变量，分析这些因素对结果的影响。

期望产出：

训练得到的模型：在任务三的基础上，使用得到的数据集进行训练。
任务验证代码：使用训练的模型进行推理的代码，应包含模型视频输入、机器人控制等部分。
任务验证实验结果：更改各种变量后对比验证的实验结果。

加分项：除3D Diffusion Policy，增加使用其他算法（最多额外30分）

任务五：撰写报告，总结上述数据采集、训练和推理过程中的主要问题 (20分)

基于以上已完成的工作，总结数据采集阶段的问题（比如：数据生成速度慢，视频质量不好等），以及训练过程中的各种问题（如：推理效果差等），结合相关文献调研，撰写一份报告。

报告应包括：

curobo的演示程序截图
数据采集使用的具体方法
训练及验证阶段使用的参数
数据采集、推理阶段的主要瓶颈
潜在的改进思路

预期交付物：

代码库：数据采集、训练、推理流程的可复现代码
数据：按照任务三要求采集的数据
视频：推理成功、失败的代表性视频
报告：按照任务五要求撰写的报告

最终评分将根据各环节完成情况打分，额外加分计入总分，如果总分超过100分取100分。

参考文献

[1] Fu, Huan, et al. “3d-front: 3d furnished rooms with layouts and semantics.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

[2] Yeshwanth, Chandan, et al. “Scannet++: A high-fidelity dataset of 3d indoor scenes.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[3] Raistrick, Alexander, et al. “Infinigen indoors: Photorealistic indoor scenes using procedural generation.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

[4] Yang, Yandan, et al. “Physcene: Physically interactable 3d scene synthesis for embodied ai.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

[5] Sundaralingam, Balakumar, et al. “curobo: Parallelized collision-free minimum-jerk robot motion generation.” arXiv preprint arXiv:2310.17274 (2023).