SymbolGen: 基于概念图驱动的认知符号生成研究 | Yixin Zhu

项目背景与目标

人类认知的一大核心能力是通过符号来抽象和压缩世界信息。认知科学研究指出，符号的组合性和结构化是人类语言与推理的基础 [Lake et al., 2017]；而在计算机视觉领域，如何将语义转化为结构化图形表示仍是难题 [Johnson et al., 2018]。

本项目旨在探索 如何利用结构化语义表示（概念图 / 场景图）指导 AI 符号生成，并以此为窗口研究：

目标：建立从文本到概念图的映射机制，体现认知科学中的“组合性”原理。
任务要点：
- 设计从自然语言描述到概念图的解析方法（节点=概念，边=关系）。
- 借鉴 Neuro-Symbolic Concept Learner 的思路，将自然语言、场景和符号转化为结构化表示 [Mao et al., 2019]。
- 分析所生成概念图是否满足认知心理学中的结构化表征特征（如层级、递归） [Lake et al., 2017]。
评分维度：语义解析准确性（15分），认知合理性（10分），结构清晰度（5分）。

目标：研究符号的视觉元素组合机制，探索“视觉语言”的表达力。
任务要点：
- 构建符号元素库（原始形状/图元）。
- 基于概念图组合这些元素，形成符号的中间表示。
- 借鉴认知科学对信息压缩与抽象的研究 [Battaglia et al., 2013]，分析不同组合方式对认知负荷和视觉可解释性的影响。
评分维度：组合合理性（10分），视觉表达力（10分），认知可解释性（5分）。

目标：在计算机视觉层面实现从结构化语义到符号图像的映射，并分析其表征特征。
任务要点：
- 使用扩散模型 / 图神经网络 / 矢量渲染方法生成符号图像。
- 借鉴基于场景图的图像生成方法 [Johnson et al., 2018] 与 SceneGenie [Yang et al., 2023]。
- 对比 GraphDreamer 的结构化生成机制 [Feng et al., 2023]，探讨其在符号生成中的可迁移性。
- 提取符号生成过程中的潜在表示，分析其与认知科学符号理论的关系 [Bisk et al., 2020]。
评分维度：生成质量（15分），语义对应度（10分），表征分析深度（5分）。

目标：验证 AI 生成符号是否符合人类认知规律，评估模型在符号理解上的类人性。
任务要点：
- 设计小规模人类实验，测试不同生成符号的可理解性与记忆效果 [Lake et al., 2017]。
- 对比 AI 模型的相似度度量与人类的相似度判断。
- 借鉴跨文化认知差异的研究，探讨符号理解在不同群体中的表现。
评分维度：实验设计合理性（5分），评估方法科学性（5分），结果分析深度（5分）。

数据集：
- 自建符号–语义对照数据集（小规模即可，重点是概念结构）。
- 辅助：IconBank、公共符号库（交通标志、UI icons）。
技术栈：
- NLP：ChatGPT/DeepSeek 用于语义解析与概念图生成。
- CV：Stable Diffusion / ControlNet / 图神经网络。

预期交付物：

Battaglia, P., Hamrick, J., & Tenenbaum, J. (2013). Simulation as an engine of physical scene understanding. PNAS.
Bisk, Y., Holtzman, A., Thomason, J., Andreas, J., Bengio, Y., Chai, J., … & Zettlemoyer, L. (2020). Experience grounds language. EMNLP.
Mao, J., Gan, C., Kohli, P., Tenenbaum, J. B., & Wu, J. (2019). The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision. ICLR.
Johnson, J., et al. (2018). Image generation from scene graphs. CVPR.
Farshad, et al. (2023). SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis. arXiv:2304.14573.
Gao., et al. (2023). GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs. arXiv:2312.00093.
Zhou, et al. (2025). LayoutDreamer: Physics-guided Layout for Text-to-3D Compositional Scene Generation. arXiv:2502.01949.
Lake, B. M., Ullman, T., Tenenbaum, J. B., & Gershman, S. J. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences.