CivRealm: 基于文明演化的多智能体学习与推理决策仿真

项目背景与目标

在人类社会的发展进程中,决策常常需要“基于历史经验的学习”与“复杂环境下的推理”协同进行。当前主流人工智能决策体在绝大多数交互环境中,更重视单纯的学习,而忽视了推理与协商等真实决策关键环节。

本项目旨在基于文明系列策略游戏规则和真实社会演变规律,开发多智能体交互仿真平台 CivRealm,推动智能体在“开放型、不完全信息、复杂社会博弈环境”下同时实现高效学习与创新性推理。系统支持多类型AI智能体(如RL-agent与LLM-agent),能够模拟发展、战争、外交等多样历史与社会情境,挑战智能体在资源管理、社会协商、长期规划中的泛化能力。项目的最终目标是构建一个既能支持强化学习又能支持大模型推理,并涵盖多样子任务评测的文明决策环境,促进智能体泛化研究和社会决策应用进步。

demo

核心任务设计

任务一:高复杂度多智能体文明环境构建(20分)

CivRealm是一个类似于文明6的仿真游戏平台,支持多智能体,战斗,交易等行为,采用模块化仿真引擎,支持自定义地图、任务与事件脚本。基于此,本试验从探索一些关键的场景设计开始。注意,以下的场景设计原有仿真器都支持,所以你不需要从头开发,但你需要设计简单的脚本验证这些设计:

  • 基于“文明”类游戏规则,探索仿真城市发展、土地扩张、单位管理、科技进步等元素,探索动态玩家数量和不完全信息场景。
  • 探索社会历史事件、外交互动、环境变化等机制,探索智能体需应对资源的不确定性、动态联盟、突发事件(如战争和自然灾害)。
  • 探索多智能体通信与交易系统,支持自主协商、联盟、竞争等社会行为。 需要交付一个简单的脚本或是仿真的录屏,验证仿真器的这些行为即可。

任务二:多智能体学习与推理(40分)

CivRealm提供张量型(Tensor-based)API,支持RL智能体获取观察、做出动作、获得奖励,支持A2C/DQN等主流强化学习算法,并提供自然语言(Language-based)API,为LLM智能体提供环境播报、战略决策、外交协商等语境输入输出,支持prompt engineering与多轮会话。你需要在下列任务中二选一:

基线 RL 智能体训练与对比 实现并训练一个强化学习基线智能体(如 BaseRL),并可选实现分层/协同智能体(如 Mastaba)。

  • 使用张量(Tensor)API获取环境观察,输出动作并获得奖励。
  • 在文明仿真任务(如城市扩张、资源管理或战斗任务)下,训练并评估算法性能。
  • 对比不同决策范式(如传统 RL vs. 分层协同)的表现,分析各自优劣。

基于大语言模型的 Agent Pipeline 搭建一个基于大语言模型(如 GPT-4)驱动的智能体管线,通过自然语言 API 与环境互动。

  • 实现一个基于大语言模型的agent pipeline。Agent需要观察、推理和给出命令。你可以参考论文中的实现,使用AutoGPT框架复现论文中实现的智能体。对于论文中提到的任务,你可以任选其一。
  • Agent 能够接收环境播报,进行推理,输出战略命令,并参与外交协商/社会事件。
  • 展示 Agent 在关键任务上的表现和推理过程,并与 RL 智能体进行简要对比分析(如果可以)。

你可以参考论文中的baseline实现。复现部分实验结果并分析即可。

任务三:开放问题(40分)

用任何方法,设计强化学习或基于大语言模型的baseline,在某些方面超过原有的baseline结果(推荐以每场游戏结束时的平均分数为基准)。你可以考虑model-based rl或者llm的sft或者dpo等优化方法(但是单纯替换基座模型带来的效果提升不算)。你可以尝试的方向有:

  • 模型规划的战略性和长期性
  • 对于其他玩家(或智能体)的偏好/规划预测
  • 基于self-play的左右互搏
  • …(任何你感兴趣的)

如果你感兴趣并且性能提升明显,可以考虑投稿相关论文。

数据集与技术栈

核心数据集CivRealm

推荐技术栈

  • 仿真引擎:Python3.9+,NumPy/Pandas为基础,支持自定义状态空间与事件脚本
  • 强化学习:PyTorch/TensorFlow,StableBaselines
  • 大模型推理:OpenAI API、LangChain、transformers(LLM agent调用与prompt设计)
  • 前端与系统:Streamlit/FastAPI/WebGL(可视化界面与API集成)

评估标准与预期成果

评分分配(100分)

  • 任务一:20分——成功运行场景,验证场景功能设计
  • 任务二:40分——智能体实现、实验复现、对比分析的清晰度与深度
  • 任务三:40分——优化方法的新颖性、效果提升与分析说明

预期交付物:完整代码(复现脚本+readme file)、详细实验报告(含背景、方法、结果与分析),录屏/截图示例,创新想法及不足反思

参考文献

Qi, S., Chen, S., Li, Y., Kong, X., Wang, J., Yang, B., … & Zhu, S. C. CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents. In The Twelfth International Conference on Learning Representations.

Previous
Next