基于因果推断与机器学习的儿童期不良经历（ACE）长期结果机制研究 | Yixin Zhu

项目背景与目标

儿童期不良经历（Adverse Childhood Experiences, ACEs）被大量流行病学与临床研究关联到成年期多种心理与躯体健康不良结局。现有研究主要基于关联分析或简单的回归调整，难以在复杂混杂与多重暴露并存的情形下明确因果路径。本研究拟将现代因果推断框架与机器学习方法结合，整合人口学、临床、行为与生物标志物等多模态纵向数据，估计单一ACE与ACE组合对成年期主要心理与躯体疾病发生的因果效应，并构建可解释的异质性效应映射工具，为早期干预策略与精准筛查提供证据支持。

核心任务设计

任务一：多模态纵向数据集构建与整合（40分）

数据来源：基于现有公开数据库。
暴露定义（ACE）：系统编码 ACE 各维度（情感/身体/性虐待、忽视、家庭功能障碍、贫困/虐待旁证等），同时构建暴露组合矩阵（单一暴露、暴露计数、暴露谱系、潜在类簇）。明确暴露测量时点与可能的回忆偏倚校正策略。
结局清单（长期结果）：
- 心理疾病：抑郁、焦虑、创伤后应激障碍、物质使用问题、自杀自伤等；
- 躯体疾病：心血管疾病、肥胖/代谢综合征、慢性疼痛、自身免疫疾病等；
- 功能性结局：生活质量、社会经济地位、劳动能力等。
潜在混杂与测量变量：基线社会经济地位、父母精神病史、周边环境变量、随访中的时间变协变量（吸烟、饮酒、BMI、炎症指标等）。
数据预处理：统一变量编码、时序对齐、缺失机制判定（MCAR/MAR/MNAR），实施多重插补与敏感性分析。

任务二：因果机器学习（causal machine learning）方法的应用（60分）

采用 TMLE（Targeted Maximum Likelihood Estimation）、因果森林（Causal Forest）、双重机器学习（Double Machine Learning）等方法构建反事实因果推断，分层估计不同亚群（如性别、社会经济地位）中的异质性效应。
稳健性检验。

评估指标

因果效应估计的统计学与因果学指标：如平均处理效应（ATE）、条件平均处理效应（CATE）及其 95% 置信区间；敏感性分析指标。
稳健性与可重复性检验：
- 负/正对照检验结果；
- 外部验证一致性（效应方向与量级）。

预期成果

系统量化单一 ACE 与多种 ACE 组合对成年期主要心理疾病与躯体疾病的估计因果效应（带不确定性区间），并报告能通过外部验证的关键结论。
揭示不同人群中 ACE 效应的异质性，形成个体化风险映射。

参考文献

Feuerriegel, S., Frauen, D., Melnychuk, V., Schweisthal, J., Hess, K., Curth, A., … & van der Schaar, M. (2024). Causal machine learning for predicting treatment outcomes. Nature Medicine, 30(4), 958–968.
Richens, J. G., Lee, C. M., & Johri, S. (2020). Improving the accuracy of medical diagnosis with causal machine learning. Nature Communications, 11(1), 3923.
Prosperi, M., Guo, Y., Sperrin, M., Koopman, J. S., Min, J. S., He, X., … & Bian, J. (2020). Causal inference and counterfactual prediction in machine learning for actionable healthcare. Nature Machine Intelligence, 2(7), 369–375.
Leist, A. K., Klee, M., Kim, J. H., Rehkopf, D. H., Bordas, S. P., Muniz-Terrera, G., & Wade, S. (2022). Mapping of machine learning approaches for description, prediction, and causal inference in the social and health sciences. Science Advances, 8(42), eabk1942.