SymbolGen: 基于概念图驱动的认知符号生成研究

项目背景与目标

人类认知的一大核心能力是通过符号来抽象和压缩世界信息。认知科学研究指出,符号的组合性和结构化是人类语言与推理的基础 [Lake et al., 2017];而在计算机视觉领域,如何将语义转化为结构化图形表示仍是难题 [Johnson et al., 2018]。

本项目旨在探索 如何利用结构化语义表示(概念图 / 场景图)指导 AI 符号生成,并以此为窗口研究:

  1. 符号的组合性与人类认知的关系;
  2. AI 在结构化生成和视觉概念抽象中的潜力与局限;
  3. 跨模态对齐(语言–图形)在认知和计算机视觉中的作用。

核心任务设计

任务一:概念图建模与认知约束(30分)

  • 目标:建立从文本到概念图的映射机制,体现认知科学中的“组合性”原理。
  • 任务要点
    • 设计从自然语言描述到概念图的解析方法(节点=概念,边=关系)。
    • 借鉴 Neuro-Symbolic Concept Learner 的思路,将自然语言、场景和符号转化为结构化表示 [Mao et al., 2019]。
    • 分析所生成概念图是否满足认知心理学中的结构化表征特征(如层级、递归) [Lake et al., 2017]。
  • 评分维度:语义解析准确性(15分),认知合理性(10分),结构清晰度(5分)。

任务二:符号组合与视觉抽象(25分)

  • 目标:研究符号的视觉元素组合机制,探索“视觉语言”的表达力。
  • 任务要点
    • 构建符号元素库(原始形状/图元)。
    • 基于概念图组合这些元素,形成符号的中间表示。
    • 借鉴认知科学对信息压缩与抽象的研究 [Battaglia et al., 2013],分析不同组合方式对认知负荷和视觉可解释性的影响。
  • 评分维度:组合合理性(10分),视觉表达力(10分),认知可解释性(5分)。

任务三:符号生成模型与表征学习(30分)

  • 目标:在计算机视觉层面实现从结构化语义到符号图像的映射,并分析其表征特征。
  • 任务要点
    • 使用扩散模型 / 图神经网络 / 矢量渲染方法生成符号图像。
    • 借鉴基于场景图的图像生成方法 [Johnson et al., 2018] 与 SceneGenie [Yang et al., 2023]。
    • 对比 GraphDreamer 的结构化生成机制 [Feng et al., 2023],探讨其在符号生成中的可迁移性。
    • 提取符号生成过程中的潜在表示,分析其与认知科学符号理论的关系 [Bisk et al., 2020]。
  • 评分维度:生成质量(15分),语义对应度(10分),表征分析深度(5分)。

任务四:认知实验与跨模态评估(15分)

  • 目标:验证 AI 生成符号是否符合人类认知规律,评估模型在符号理解上的类人性。
  • 任务要点
    • 设计小规模人类实验,测试不同生成符号的可理解性与记忆效果 [Lake et al., 2017]。
    • 对比 AI 模型的相似度度量与人类的相似度判断。
    • 借鉴跨文化认知差异的研究,探讨符号理解在不同群体中的表现。
  • 评分维度:实验设计合理性(5分),评估方法科学性(5分),结果分析深度(5分)。

数据集与技术栈

  • 数据集
    • 自建符号–语义对照数据集(小规模即可,重点是概念结构)。
    • 辅助:IconBank、公共符号库(交通标志、UI icons)。
  • 技术栈
    • NLP:ChatGPT/DeepSeek 用于语义解析与概念图生成。
    • CV:Stable Diffusion / ControlNet / 图神经网络。

评估标准与预期成果

  • 概念图建模与认知约束(30分)
  • 符号组合与视觉抽象(25分)
  • 符号生成模型与表征学习(30分)
  • 认知实验与跨模态评估(15分) 总分:100分

预期交付物

  • 概念图生成与解析代码
  • 符号生成样例(≥20 个)
  • 模型对比实验与认知实验结果报告
  • 技术文档与展示视频

参考文献

  • Battaglia, P., Hamrick, J., & Tenenbaum, J. (2013). Simulation as an engine of physical scene understanding. PNAS.
  • Bisk, Y., Holtzman, A., Thomason, J., Andreas, J., Bengio, Y., Chai, J., … & Zettlemoyer, L. (2020). Experience grounds language. EMNLP.
  • Mao, J., Gan, C., Kohli, P., Tenenbaum, J. B., & Wu, J. (2019). The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision. ICLR.
  • Johnson, J., et al. (2018). Image generation from scene graphs. CVPR.
  • Farshad, et al. (2023). SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis. arXiv:2304.14573.
  • Gao., et al. (2023). GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs. arXiv:2312.00093.
  • Zhou, et al. (2025). LayoutDreamer: Physics-guided Layout for Text-to-3D Compositional Scene Generation. arXiv:2502.01949.
  • Lake, B. M., Ullman, T., Tenenbaum, J. B., & Gershman, S. J. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences.
Previous
Next