项目背景与目标
人类认知的一大核心能力是通过符号来抽象和压缩世界信息。认知科学研究指出,符号的组合性和结构化是人类语言与推理的基础 [Lake et al., 2017];而在计算机视觉领域,如何将语义转化为结构化图形表示仍是难题 [Johnson et al., 2018]。
本项目旨在探索 如何利用结构化语义表示(概念图 / 场景图)指导 AI 符号生成,并以此为窗口研究:
- 符号的组合性与人类认知的关系;
- AI 在结构化生成和视觉概念抽象中的潜力与局限;
- 跨模态对齐(语言–图形)在认知和计算机视觉中的作用。
核心任务设计
任务一:概念图建模与认知约束(30分)
- 目标:建立从文本到概念图的映射机制,体现认知科学中的“组合性”原理。
- 任务要点:
- 设计从自然语言描述到概念图的解析方法(节点=概念,边=关系)。
- 借鉴 Neuro-Symbolic Concept Learner 的思路,将自然语言、场景和符号转化为结构化表示 [Mao et al., 2019]。
- 分析所生成概念图是否满足认知心理学中的结构化表征特征(如层级、递归) [Lake et al., 2017]。
- 评分维度:语义解析准确性(15分),认知合理性(10分),结构清晰度(5分)。
任务二:符号组合与视觉抽象(25分)
- 目标:研究符号的视觉元素组合机制,探索“视觉语言”的表达力。
- 任务要点:
- 构建符号元素库(原始形状/图元)。
- 基于概念图组合这些元素,形成符号的中间表示。
- 借鉴认知科学对信息压缩与抽象的研究 [Battaglia et al., 2013],分析不同组合方式对认知负荷和视觉可解释性的影响。
- 评分维度:组合合理性(10分),视觉表达力(10分),认知可解释性(5分)。
任务三:符号生成模型与表征学习(30分)
- 目标:在计算机视觉层面实现从结构化语义到符号图像的映射,并分析其表征特征。
- 任务要点:
- 使用扩散模型 / 图神经网络 / 矢量渲染方法生成符号图像。
- 借鉴基于场景图的图像生成方法 [Johnson et al., 2018] 与 SceneGenie [Yang et al., 2023]。
- 对比 GraphDreamer 的结构化生成机制 [Feng et al., 2023],探讨其在符号生成中的可迁移性。
- 提取符号生成过程中的潜在表示,分析其与认知科学符号理论的关系 [Bisk et al., 2020]。
- 评分维度:生成质量(15分),语义对应度(10分),表征分析深度(5分)。
任务四:认知实验与跨模态评估(15分)
- 目标:验证 AI 生成符号是否符合人类认知规律,评估模型在符号理解上的类人性。
- 任务要点:
- 设计小规模人类实验,测试不同生成符号的可理解性与记忆效果 [Lake et al., 2017]。
- 对比 AI 模型的相似度度量与人类的相似度判断。
- 借鉴跨文化认知差异的研究,探讨符号理解在不同群体中的表现。
- 评分维度:实验设计合理性(5分),评估方法科学性(5分),结果分析深度(5分)。
数据集与技术栈
- 数据集:
- 自建符号–语义对照数据集(小规模即可,重点是概念结构)。
- 辅助:IconBank、公共符号库(交通标志、UI icons)。
- 技术栈:
- NLP:ChatGPT/DeepSeek 用于语义解析与概念图生成。
- CV:Stable Diffusion / ControlNet / 图神经网络。
评估标准与预期成果
- 概念图建模与认知约束(30分)
- 符号组合与视觉抽象(25分)
- 符号生成模型与表征学习(30分)
- 认知实验与跨模态评估(15分) 总分:100分
预期交付物:
- 概念图生成与解析代码
- 符号生成样例(≥20 个)
- 模型对比实验与认知实验结果报告
- 技术文档与展示视频
参考文献
- Battaglia, P., Hamrick, J., & Tenenbaum, J. (2013). Simulation as an engine of physical scene understanding. PNAS.
- Bisk, Y., Holtzman, A., Thomason, J., Andreas, J., Bengio, Y., Chai, J., … & Zettlemoyer, L. (2020). Experience grounds language. EMNLP.
- Mao, J., Gan, C., Kohli, P., Tenenbaum, J. B., & Wu, J. (2019). The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision. ICLR.
- Johnson, J., et al. (2018). Image generation from scene graphs. CVPR.
- Farshad, et al. (2023). SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis. arXiv:2304.14573.
- Gao., et al. (2023). GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs. arXiv:2312.00093.
- Zhou, et al. (2025). LayoutDreamer: Physics-guided Layout for Text-to-3D Compositional Scene Generation. arXiv:2502.01949.
- Lake, B. M., Ullman, T., Tenenbaum, J. B., & Gershman, S. J. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences.