基于多模态数据的创伤后应激障碍发生风险预测模型

项目背景与目标

创伤后应激障碍(PTSD)的发生风险预测是该领域研究的重要方向。及早识别高风险人群,有助于提前采取针对性预防措施,减少疾病负担。然而,在传统心理学与精神病学研究中,由于统计方法和样本量限制,难以构建能够综合多维度信息的有效预测模型。本项目拟引入机器学习与人工智能技术,整合临床研究中的多模态数据,系统评估不同类型信息在 PTSD 风险预测中的价值。在此基础上,开发并验证一个能够融合人口学、临床、生物学与心理学多维数据的预测模型,为早期防治提供科学依据。

核心任务设计

任务一:多模态数据集构建与整合(30分)

  • 基于人民医院国家创伤中心队列研究,收集并整合多模态数据,包括:
    • 人口学信息:年龄、性别、教育水平、婚姻状态、收入等;
    • 临床诊疗数据:创伤类型、损伤部位、合并疾病、治疗措施等;
    • 实验室与生理指标:血液学、生化检测、炎症标志物等;
    • 心理学量表与问卷:创伤史、急性应激症状、物质使用习惯等。
  • 进行数据清洗、缺失值处理与特征工程,确保各模态数据能够有效对齐与融合。

任务二:预测模型的构建与优化(70分)

  • 尝试多种机器学习与深度学习算法,包括逻辑回归、随机森林、XGBoost、神经网络以及多模态融合模型。
  • 在训练集上开发模型,通过交叉验证进行调参和性能优化。
  • 在独立验证集及外部数据上进行性能评估,比较不同模型的预测效果,并最终确定表现最优的模型。
  • 开发风险评分与分层工具,探索其在临床筛查与干预中的应用价值。

评估指标与预期成果

评估指标

  1. 预测性能
    • AUC(ROC 曲线下面积):评价模型区分高风险与低风险个体的能力;
    • 灵敏度、特异度与 F1 值:反映在不同阈值下的分类性能;
    • AUPRC:应对类别不平衡场景,衡量模型在少数类预测中的有效性。
  2. 模型校准性
    • Brier Score:预测概率与实际结果的均方误差;
    • 校准曲线:比较预测风险与真实发生率的一致性。
  3. 泛化与稳健性
    • 外部验证:在不同中心或独立样本中的模型表现;
    • 时间外验证:测试模型在随访数据中的长期稳定性。
  4. 公平性与可解释性
    • 各亚群(性别、年龄、创伤类型等)之间的性能差异;
    • 模型解释工具(如 SHAP 值、注意力权重)揭示关键风险因素,并与临床知识相印证。

预期成果

  • 构建并验证一个多模态 PTSD 风险预测模型,预测性能达到良好水平(预期 AUC ≥ 0.80);
  • 提炼出与 PTSD 风险高度相关的多维特征,为机制研究提供参考。

参考文献

  • Schultebraucks, K., Shalev, A. Y., Michopoulos, V., Grudzen, C. R., Shin, S. M., Stevens, J. S., … & Galatzer-Levy, I. R. (2020). A validated predictive algorithm of post-traumatic stress course following emergency department admission after a traumatic stressor. Nature Medicine, 26(7), 1084–1088.
Previous
Next