ToM-BrainNet：基于神经影像与大模型内部表征的心理理论对齐与机制探索 | Yixin Zhu

项目背景与目标

人类的心理理论（Theory of Mind, ToM）是理解他人信念、意图、情感等心理状态，并预测其行为的关键认知能力。近年来，基于Transformer架构的大语言模型（LLMs）通过在海量文本数据上进行自监督学习，展现出了惊人的“涌现能力”（Emergent Abilities），包括在复杂语境理解和类人推理方面的卓越表现（Wei et al., 2022）。这引发了对其是否自发形成了“心理理论能力”的广泛讨论和实证研究（Kosinski, 2023）。然而，这种能力是基于数据驱动的统计关联所产生的表面模仿，还是模型内部通过多层自注意力机制（Multi-head Self-Attention）和前馈网络（Feed-forward Networks）真正形成了对心理状态的抽象、结构化内部表征，仍是当前人工智能可解释性（Explainable AI, XAI）领域的核心未解之谜。

与此同时，人类大脑对ToM的加工机制已在神经科学领域积累了丰富的证据，特别是颞顶联合区（TPJ）和内侧前额叶皮层（mPFC）被一致认为是ToM核心脑区，它们在处理意图、信念等心理状态时表现出特异性的激活模式（Saxe & Kanwisher, 2003）。这种功能特异性为我们提供了一个宝贵的生物学“黄金标准”（Gold Standard），以探究AI模型内部机制的“类人”程度，这一研究方向被称为神经AI对齐（Neuro-AI Alignment）。

本项目旨在探索大模型内部表征与人类大脑在心理理论任务中的神经信号之间的对齐关系。学生将利用提供的人类功能性核磁共振（fMRI）数据（包含TPJ和mPFC脑区信号）和大模型对同一ToM任务的内部表征数据（24个注意力头、24层），设计并实现一套先进的计算分析框架。该框架将通过跨模态数据对齐技术，对比大模型与人类在ToM任务中信息加工的相似性与差异性。核心目标是深入理解大模型“心理理论能力”的计算基础，阐明其内部机制与人类神经认知机制的潜在对应关系，并为未来构建更具生物学合理性、可解释性和鲁棒性的人工智能模型提供关键线索。

系统核心目标是：

量化评估大模型在ToM任务中的表现及其与人类行为的异同，例如通过设计**探针任务（Probing Tasks）**来检验模型对特定心理状态概念的表征能力。
揭示大模型内部表征与人类TPJ/mPFC脑区fMRI信号的对齐模式，特别是通过表征相似性分析（Representational Similarity Analysis, RSA）（Kriegeskorte et al., 2008）和跨模态编码/解码模型等方法，探究它们是否编码了相似的心理状态信息。
探索大模型不同注意力头/层的表征对齐程度，尝试定位与人类ToM能力更相关的模型内部模块，并分析其功能特异性（Functional Specialization）。
可视化大模型内部表征与人类神经活动的映射关系，运用非线性降维和流形学习（Manifold Learning）技术，为理解大模型的认知机制提供直观证据。

核心任务设计

任务一：人类fMRI数据预处理与神经特征提取（35分）

基于提供的已预处理fMRI数据，利用先进的机器学习技术进行深度特征提取，为后续与大模型表征的跨模态对齐做准备。

fMRI数据降维与噪声去除：

除了PCA或ICA，可探索使用变分自动编码器（Variational Autoencoders, VAEs）对TPJ和mPFC区域的fMRI体素数据进行非线性降维，学习其低维潜在表征（Kingma & Welling, 2013）。
应用时空图卷积网络（Spatio-temporal Graph Convolutional Networks, ST-GCN）对大脑区域的活动进行建模，以捕捉功能连接的动态变化特征（Yan et al., 2018）。

激活模式提取与表征学习：

针对心理理论任务中的不同条件（例如，错误信念、真实信念、非心理任务控制条件），提取TPJ和mPFC区域的多体素模式分析（Multi-Voxel Pattern Analysis, MVPA）激活模式。
利用对比学习框架（Contrastive Learning），如SimCLR，学习能够最大化区分不同ToM条件的神经表征（Chen et al., 2020）。

时间序列特征提取：对于每个任务试次，提取TPJ和mPFC区域的fMRI信号时间序列特征，例如平均信号强度、信号变化率，并可考虑使用循环神经网络（RNNs）或其变体（如LSTM）对时间动态进行建模。
评估标准：特征提取的信噪比（SNR）、不同任务条件下的模式解码准确率（使用线性分类器如SVM）、与现有神经科学文献的一致性。

任务二：心理理论表征对齐与相似性分析（35分）

设计并实现先进的计算方法来对比大模型内部表征与人类fMRI信号在ToM任务中的对齐程度。

表征相似性分析（RSA）：

构建fMRI数据（TPJ和mPFC）的表征相似性矩阵（Representational Similarity Matrix, RSM），以及大模型不同层/头内部表征的RSM。
计算两类RSM之间的斯皮尔曼秩相关（Spearman’s rank correlation），并使用置换检验（Permutation Testing）评估其统计显著性，以控制假阳性（Nili et al., 2014）。

跨模态编码与解码模型：

编码模型：构建从大模型表征到fMRI信号的预测模型（例如，使用岭回归Ridge Regression或小型神经网络），评估LLM表征对神经活动的解释力（R²值）（Mitchell et al., 2008）。
解码模型：反向构建从fMRI信号到任务条件（或LLM表征）的分类/回归模型，评估神经信号中包含的ToM信息。

特征空间映射与对齐：

利用典型相关分析（Canonical Correlation Analysis, CCA）或更强大的深度CCA（Deep CCA）寻找大模型表征空间与人类神经活动空间之间的最佳线性/非线性映射（Andrew et al., 2013）。
探索使用Procrustes分析对齐两个表征空间，并量化它们的几何相似度。

注意力头/层贡献分析：系统性地评估所有层和头的对齐分数，识别并分析对齐效果最好的“ToM相关”模块，并探讨其功能。
评估标准：RSA相关系数的显著性、编码/解码模型的预测准确率、特征空间映射的解释度、对齐模式的统计鲁棒性。

任务三：结果可视化与解释（30分）

将复杂的计算分析结果进行直观可视化，并通过可解释性分析深化理解。

相似性矩阵可视化：绘制fMRI RSM和LLM RSM的热力图，并使用多维标度（Multidimensional Scaling, MDS）或层次聚类来可视化不同ToM条件在表征空间中的几何结构。
特征空间投影：将大模型和人类神经活动的表征投影到二维或三维空间（如使用t-SNE或UMAP），并可视化它们在ToM任务不同条件下的聚类和流形结构（van der Maaten & Hinton, 2008; McInnes et al., 2018）。
对齐层/头热图：可视化大模型所有层和注意力头与人类ToM脑区fMRI信号的对齐程度热力图，以识别“热点”区域。
技术报告：撰写详细的技术报告，包括方法、结果、讨论和未来工作，强调计算方法的创新性和结果的AI意义。
成果展示：制作演示视频或交互式仪表板（Interactive Dashboard）（如使用Streamlit或Plotly Dash），允许用户动态选择不同的模型层、脑区进行对齐分析。

数据集与技术栈

核心数据集：

人类fMRI数据：已预处理的ToM任务fMRI数据，包含TPJ和mPFC脑区的信号（提供原始NIfTI文件及ROI mask）。
大模型内部表征数据：LLM在相同ToM任务下的内部表征数据（包含24个注意力头、24层的激活值以及预计算的RSA矩阵）。

推荐技术栈：

深度学习：PyTorch / TensorFlow
神经影像分析：Nilearn, NiBabel
机器学习：Scikit-learn
科学计算：NumPy, SciPy
可视化：Matplotlib, Seaborn, Plotly
模型可解释性：Captum, Integrated Gradients
交互式应用：Streamlit / Dash

预期成果

完整且注释良好的源代码、一份专业的技术报告、核心可视化结果图表、演示视频或交互式应用原型。

参考文献

Andrew, G., Arora, R., Bilmes, J., & Livescu, K. (2013). Deep canonical correlation analysis. International conference on machine learning.
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A simple framework for contrastive learning of visual representations. International conference on machine learning.
Geva, M., Schuster, R., Berant, J., & Levy, O. (2020). Transformer Feed-Forward Layers Are Key-Value Memories. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing.
Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.
Kosinski, M. (2023). Theory of mind may have spontaneously emerged in large language models. arXiv preprint arXiv:2302.02083.
Kriegeskorte, N., Mur, M., & Bandettini, P. A. (2008). Representational similarity analysis—connecting the branches of cognitive neuroscience. Frontiers in systems neuroscience, 2, 4.
McInnes, L., Healy, J., & Melville, J. (2018). Umap: Uniform manifold approximation and projection for dimension reduction. arXiv preprint arXiv:1802.03426.
Mitchell, T. M., Shinkareva, S. V., Carlson, A., Chang, K. M., Malave, V. L., Mason, R. A., & Just, M. A. (2008). Predicting human brain activity associated with the meanings of nouns. Science, 320(5880), 1191-1195.
Nili, H., Wingfield, C., Walther, A., Su, L., Marslen-Wilson, W., & Kriegeskorte, N. (2014). A toolbox for representational similarity analysis. PLoS computational biology, 10(4), e1003553.
Saxe, R., & Kanwisher, N. (2003). People thinking about thinking people: the role of the temporo-parietal junction in “theory of mind”. Neuroimage, 19(4), 1835-1842.
Sundararajan, M., Taly, A., & Yan, Q. (2017). Axiomatic attribution for deep networks. International conference on machine learning.
van der Maaten, L., & Hinton, G. (2008). Visualizing data using t-SNE. Journal of machine learning research, 9(11).
Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., … & Fedus, W. (2022). Emergent abilities of large language models. Transactions on Machine Learning Research.
Yan, S., Xiong, Y., & Lin, D. (2018). Spatial temporal graph convolutional networks for skeleton-based action recognition. Thirty-second AAAI conference on artificial intelligence.