CivRealm: 基于文明演化的多智能体学习与推理决策仿真 | Yixin Zhu

项目背景与目标

在人类社会的发展进程中，决策常常需要“基于历史经验的学习”与“复杂环境下的推理”协同进行。当前主流人工智能决策体在绝大多数交互环境中，更重视单纯的学习，而忽视了推理与协商等真实决策关键环节。

本项目旨在基于文明系列策略游戏规则和真实社会演变规律，开发多智能体交互仿真平台 CivRealm，推动智能体在“开放型、不完全信息、复杂社会博弈环境”下同时实现高效学习与创新性推理。系统支持多类型AI智能体（如RL-agent与LLM-agent），能够模拟发展、战争、外交等多样历史与社会情境，挑战智能体在资源管理、社会协商、长期规划中的泛化能力。项目的最终目标是构建一个既能支持强化学习又能支持大模型推理，并涵盖多样子任务评测的文明决策环境，促进智能体泛化研究和社会决策应用进步。

核心任务设计

任务一：高复杂度多智能体文明环境构建（20分）

CivRealm是一个类似于文明6的仿真游戏平台，支持多智能体，战斗，交易等行为，采用模块化仿真引擎，支持自定义地图、任务与事件脚本。基于此,本试验从探索一些关键的场景设计开始。注意，以下的场景设计原有仿真器都支持，所以你不需要从头开发，但你需要设计简单的脚本验证这些设计：

基于“文明”类游戏规则，探索仿真城市发展、土地扩张、单位管理、科技进步等元素，探索动态玩家数量和不完全信息场景。
探索社会历史事件、外交互动、环境变化等机制，探索智能体需应对资源的不确定性、动态联盟、突发事件（如战争和自然灾害）。
探索多智能体通信与交易系统，支持自主协商、联盟、竞争等社会行为。需要交付一个简单的脚本或是仿真的录屏，验证仿真器的这些行为即可。

任务二：多智能体学习与推理（40分）

CivRealm提供张量型（Tensor-based）API，支持RL智能体获取观察、做出动作、获得奖励，支持A2C/DQN等主流强化学习算法，并提供自然语言（Language-based）API，为LLM智能体提供环境播报、战略决策、外交协商等语境输入输出，支持prompt engineering与多轮会话。你需要在下列任务中二选一：

基线 RL 智能体训练与对比 实现并训练一个强化学习基线智能体（如 BaseRL），并可选实现分层/协同智能体（如 Mastaba）。

使用张量（Tensor）API获取环境观察，输出动作并获得奖励。
在文明仿真任务（如城市扩张、资源管理或战斗任务）下，训练并评估算法性能。
对比不同决策范式（如传统 RL vs. 分层协同）的表现，分析各自优劣。

基于大语言模型的 Agent Pipeline 搭建一个基于大语言模型（如 GPT-4）驱动的智能体管线，通过自然语言 API 与环境互动。

实现一个基于大语言模型的agent pipeline。Agent需要观察、推理和给出命令。你可以参考论文中的实现，使用AutoGPT框架复现论文中实现的智能体。对于论文中提到的任务，你可以任选其一。
Agent 能够接收环境播报，进行推理，输出战略命令，并参与外交协商/社会事件。
展示 Agent 在关键任务上的表现和推理过程，并与 RL 智能体进行简要对比分析（如果可以）。

你可以参考论文中的baseline实现。复现部分实验结果并分析即可。

任务三：开放问题（40分）

用任何方法，设计强化学习或基于大语言模型的baseline，在某些方面超过原有的baseline结果（推荐以每场游戏结束时的平均分数为基准）。你可以考虑model-based rl或者llm的sft或者dpo等优化方法（但是单纯替换基座模型带来的效果提升不算）。你可以尝试的方向有：

模型规划的战略性和长期性
对于其他玩家（或智能体）的偏好/规划预测
基于self-play的左右互搏
…（任何你感兴趣的）

如果你感兴趣并且性能提升明显，可以考虑投稿相关论文。

数据集与技术栈

核心数据集：CivRealm

推荐技术栈：

仿真引擎：Python3.9+，NumPy/Pandas为基础，支持自定义状态空间与事件脚本
强化学习：PyTorch/TensorFlow，StableBaselines
大模型推理：OpenAI API、LangChain、transformers（LLM agent调用与prompt设计）
前端与系统：Streamlit/FastAPI/WebGL（可视化界面与API集成）

评估标准与预期成果

评分分配（100分）：

任务一：20分——成功运行场景，验证场景功能设计
任务二：40分——智能体实现、实验复现、对比分析的清晰度与深度
任务三：40分——优化方法的新颖性、效果提升与分析说明

预期交付物：完整代码（复现脚本+readme file）、详细实验报告（含背景、方法、结果与分析），录屏/截图示例，创新想法及不足反思

参考文献

Qi, S., Chen, S., Li, Y., Kong, X., Wang, J., Yang, B., … & Zhu, S. C. CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents. In The Twelfth International Conference on Learning Representations.