项目背景与目标
创伤后应激障碍(PTSD)的发生风险预测是该领域研究的重要方向。及早识别高风险人群,有助于提前采取针对性预防措施,减少疾病负担。然而,在传统心理学与精神病学研究中,由于统计方法和样本量限制,难以构建能够综合多维度信息的有效预测模型。本项目拟引入机器学习与人工智能技术,整合临床研究中的多模态数据,系统评估不同类型信息在 PTSD 风险预测中的价值。在此基础上,开发并验证一个能够融合人口学、临床、生物学与心理学多维数据的预测模型,为早期防治提供科学依据。
核心任务设计
任务一:多模态数据集构建与整合(30分)
- 基于人民医院国家创伤中心队列研究,收集并整合多模态数据,包括:
- 人口学信息:年龄、性别、教育水平、婚姻状态、收入等;
- 临床诊疗数据:创伤类型、损伤部位、合并疾病、治疗措施等;
- 实验室与生理指标:血液学、生化检测、炎症标志物等;
- 心理学量表与问卷:创伤史、急性应激症状、物质使用习惯等。
- 进行数据清洗、缺失值处理与特征工程,确保各模态数据能够有效对齐与融合。
任务二:预测模型的构建与优化(70分)
- 尝试多种机器学习与深度学习算法,包括逻辑回归、随机森林、XGBoost、神经网络以及多模态融合模型。
- 在训练集上开发模型,通过交叉验证进行调参和性能优化。
- 在独立验证集及外部数据上进行性能评估,比较不同模型的预测效果,并最终确定表现最优的模型。
- 开发风险评分与分层工具,探索其在临床筛查与干预中的应用价值。
评估指标与预期成果
评估指标
- 预测性能
- AUC(ROC 曲线下面积):评价模型区分高风险与低风险个体的能力;
- 灵敏度、特异度与 F1 值:反映在不同阈值下的分类性能;
- AUPRC:应对类别不平衡场景,衡量模型在少数类预测中的有效性。
- 模型校准性
- Brier Score:预测概率与实际结果的均方误差;
- 校准曲线:比较预测风险与真实发生率的一致性。
- 泛化与稳健性
- 外部验证:在不同中心或独立样本中的模型表现;
- 时间外验证:测试模型在随访数据中的长期稳定性。
- 公平性与可解释性
- 各亚群(性别、年龄、创伤类型等)之间的性能差异;
- 模型解释工具(如 SHAP 值、注意力权重)揭示关键风险因素,并与临床知识相印证。
预期成果
- 构建并验证一个多模态 PTSD 风险预测模型,预测性能达到良好水平(预期 AUC ≥ 0.80);
- 提炼出与 PTSD 风险高度相关的多维特征,为机制研究提供参考。
参考文献
- Schultebraucks, K., Shalev, A. Y., Michopoulos, V., Grudzen, C. R., Shin, S. M., Stevens, J. S., … & Galatzer-Levy, I. R. (2020). A validated predictive algorithm of post-traumatic stress course following emergency department admission after a traumatic stressor. Nature Medicine, 26(7), 1084–1088.