Contents

基于多模态数据的创伤后应激障碍发生风险预测模型

项目背景与目标

创伤后应激障碍（PTSD）的发生风险预测是该领域研究的重要方向。及早识别高风险人群，有助于提前采取针对性预防措施，减少疾病负担。然而，在传统心理学与精神病学研究中，由于统计方法和样本量限制，难以构建能够综合多维度信息的有效预测模型。本项目拟引入机器学习与人工智能技术，整合临床研究中的多模态数据，系统评估不同类型信息在 PTSD 风险预测中的价值。在此基础上，开发并验证一个能够融合人口学、临床、生物学与心理学多维数据的预测模型，为早期防治提供科学依据。

核心任务设计

任务一：多模态数据集构建与整合（30分）

基于人民医院国家创伤中心队列研究，收集并整合多模态数据，包括：
- 人口学信息：年龄、性别、教育水平、婚姻状态、收入等；
- 临床诊疗数据：创伤类型、损伤部位、合并疾病、治疗措施等；
- 实验室与生理指标：血液学、生化检测、炎症标志物等；
- 心理学量表与问卷：创伤史、急性应激症状、物质使用习惯等。
进行数据清洗、缺失值处理与特征工程，确保各模态数据能够有效对齐与融合。

任务二：预测模型的构建与优化（70分）

尝试多种机器学习与深度学习算法，包括逻辑回归、随机森林、XGBoost、神经网络以及多模态融合模型。
在训练集上开发模型，通过交叉验证进行调参和性能优化。
在独立验证集及外部数据上进行性能评估，比较不同模型的预测效果，并最终确定表现最优的模型。
开发风险评分与分层工具，探索其在临床筛查与干预中的应用价值。

评估指标与预期成果

评估指标

预测性能
- AUC（ROC 曲线下面积）：评价模型区分高风险与低风险个体的能力；
- 灵敏度、特异度与 F1 值：反映在不同阈值下的分类性能；
- AUPRC：应对类别不平衡场景，衡量模型在少数类预测中的有效性。
模型校准性
- Brier Score：预测概率与实际结果的均方误差；
- 校准曲线：比较预测风险与真实发生率的一致性。
泛化与稳健性
- 外部验证：在不同中心或独立样本中的模型表现；
- 时间外验证：测试模型在随访数据中的长期稳定性。
公平性与可解释性
- 各亚群（性别、年龄、创伤类型等）之间的性能差异；
- 模型解释工具（如 SHAP 值、注意力权重）揭示关键风险因素，并与临床知识相印证。

预期成果

构建并验证一个多模态 PTSD 风险预测模型，预测性能达到良好水平（预期 AUC ≥ 0.80）；
提炼出与 PTSD 风险高度相关的多维特征，为机制研究提供参考。

参考文献

Schultebraucks, K., Shalev, A. Y., Michopoulos, V., Grudzen, C. R., Shin, S. M., Stevens, J. S., … & Galatzer-Levy, I. R. (2020). A validated predictive algorithm of post-traumatic stress course following emergency department admission after a traumatic stressor. Nature Medicine, 26(7), 1084–1088.

Last updated on Aug 20, 2025