TowerCollapse: 基于神经网络的塔倒塌预测模型 | Yixin Zhu

项目背景与目标

在现实世界中，预测结构是否稳定（例如一座积木塔是否会倒塌）不仅是一个趣味问题，更是涉及建筑工程、机器人操作、灾害预警等多个领域的关键挑战。人类依靠视觉直觉和经验，往往能在瞬间判断一座塔是否稳固，甚至能预估它倒塌的方向和时间。这种预测能力本质上源自于对物理规律的隐性学习与因果推理能力的结合。

然而，当前的人工智能模型在这类任务上仍存在明显差距。传统的计算方法依赖显式物理引擎模拟，虽然准确，但计算代价高昂、泛化性不足；而端到端的深度学习模型在视觉识别上表现出色，却缺乏物理推断与因果理解能力。如何结合感知、物理建模与推理，让智能体具备“直觉物理感知”，已成为人工智能迈向通用智能的重要一步。

本项目旨在基于深度神经网络，开发一个塔倒塌预测平台 TowerCollapse。该平台将在不确定、动态、物理约束的复杂环境下，推动智能体学习和推理的协同能力：

视觉输入建模：通过卷积神经网络（CNN）快速理解塔的结构布局；

时序推断机制：结合序列建模（RNN/Transformer），预测塔在未来的演化轨迹；

多任务输出：既能判断塔是否会倒塌（分类任务），又能预测倒塌发生的过程模式（时序预测任务）。

最终目标是构建一个可端到端训练的神经网络预测器，让人工智能能够像人类一样 “看一眼就知道塔会不会倒”，并具备一定的因果推断与物理直觉。这不仅在虚拟仿真与认知科学研究中具有学术意义，也在机器人操作、自动化建模、建筑安全、灾害模拟等应用场景中具备重要价值。

TowerCollapse 使用 Blender 生成塔结构及其倒塌过程（会提供参考代码），提供图像序列与标签。支持以下场景：

交付内容：
一个小规模数据集（如 1k 样本），包含不同条件下的塔结构图像与标签；提供一个脚本或录屏展示数据生成过程。

任务目标：利用任务二中训练好的“倒塌过程预测模型”，设计一个能够主动规划积木摆放顺序与位置的系统，使积木塔能够在限定高度下保持稳定。

任务设置：

方法设计：

状态建模：使用相机图像或状态描述（积木位置、角度、形状）作为输入。借助任务二中的预测模型，对新结构的稳定性进行前向预测。
动作选择：给定若干候选动作（如不同位置、角度放置新积木），预测模型评估其未来倒塌风险。采用规划/搜索方法（如 Monte Carlo Tree Search, Beam Search）或强化学习方法，选择最优动作。
反馈修正：如果预测结果显示高风险，系统需重新选择放置方式，直至找到相对稳定的方案。

评估指标： 需要讲规划出来的搭建方式在任务一中的Blender物理模拟器中验证。

对比实验：

核心数据集：TowerCollapse（自建数据集，支持图像、序列标签）。
推荐技术栈：
- 数据生成：Blender, Python 脚本
- 模型训练：PyTorch/TensorFlow
- 可视化：Matplotlib/Seaborn

评分分配（100分）

预期交付物

Lerer A, Gross S, Fergus R. Learning physical intuition of block towers by example. International conference on machine learning, 2016.
Groth O, Fuchs F B, Posner I, et al. Shapestacks: Learning vision-based physical intuition for generalised object stacking, 2018.