RealPoem: 基于人类声道物理建模的古音诗歌朗诵系统 | Yixin Zhu

项目背景与目标

随着人工智能在文化遗产保护和艺术创作领域的深入应用，AI 辅助的古典文学演绎成为新兴研究方向。古音诗歌朗诵作为融合语音学、音韵学、声学模拟和艺术表现的复杂任务，对 AI 系统提出了独特挑战。本项目要求学生构建端到端的古音诗歌朗诵系统，基于 DIVA (Directions Into Velocities of Articulators) 语音运动控制模型（Guenther & Vladusich, 2012; Guenther, 2016）实现从诗歌文本输入到专业古音朗诵的完整流程，深入探索声道建模、古音重构和艺术化语音合成技术的融合应用。

系统核心目标是接收用户输入的古诗词文本（如《诗经》、唐诗、宋词等），自动分析其音韵特征和历史语音演变，通过人类声道物理模型生成符合历史语音学考证的古音朗诵，输出具有艺术表现力的 3–5 分钟音频作品。学生需掌握 DIVA 模型实现（Guenther & Vladusich, 2012）、古汉语音韵自动重构（List & Chacon, 2015）、声道物理建模（Fant, 1970; Story, 2013; Birkholz, 2013）、声音素描技术 (vocal sketching)（Cartwright & Pardo, 2015）等核心技术。

核心任务设计

任务一：基于 DIVA 模型的语音运动控制系统（30分）

实现 DIVA 神经计算模型，构建完整的语音运动控制系统（Guenther & Vladusich, 2012; Guenther, 2016）。核心模块包括：

神经控制架构：包括语音声音图谱 (Speech Sound Map)、听觉目标区域 (Auditory Target Regions)、体感目标区域 (Somatosensory Target Regions)、前馈与反馈控制系统。
发音器建模：七个主要发音器参数、速度与位置的双重控制、协同发音 (coarticulation) 规划、基于任务动力学的轨迹优化（Fant, 1970; Story, 2013）。
古音适配层：扩展 DIVA 模型以支持古汉语特有音素（如入声韵尾、浊音声母），并将历史语音演变规则参数化（王力, 1985; 郑张尚芳, 2003）。

评估标准：发音器轨迹平滑度、声学目标达成率、协同发音自然度。

任务二：古汉语语音自动重构系统（25分）

基于 Automatic Reconstruction of Ancient Chinese Pronunciations 的方法论（List & Chacon, 2015），构建古音自动重构系统。核心技术包括：

历史语音学知识库：《广韵》《集韵》的结构化韵书数据、反切系统的计算模型、历史音变规则库（浊音清化、入声消失等）、方言比较证据（董同龢, 1968; 平山, 1998）。
机器学习重构引擎：深度学习反切解析、贝叶斯推断、多源证据融合、时间序列语音演变预测。
音系层次分析：涵盖上古、中古、近古音系的分层建模与跨时期轨迹追踪（王力, 1985; 郑张尚芳, 2003）。

任务三：声音素描与艺术化渲染（30分）

借鉴 “非写实声音渲染” 的理念（Cartwright & Pardo, 2015），实现艺术化的古音朗诵：

声音素描框架：通过非语音学渲染与声道共振设计突出音色特征。
吟诵风格建模：采集传统吟诵调式，提取节奏模式与装饰音特征。
艺术表现引擎：通过情感映射与共振峰调制营造多样化的艺术表现。

任务四：系统集成与交互体验（15分）

开发交互系统，包括：

古诗词输入与韵律标注（Boersma & Weenink, 2023）。
3D 声道动画与参数可视化（Birkholz, 2013）。
实时音频渲染（Web Audio API）与风格混合调节。

数据集与技术栈

核心数据集：

《广韵》数字化数据库
古音重构对照数据库
吟诵音频库
DIVA 模型语料

推荐技术栈：

DIVA (MATLAB/Python)
PyTorch/TensorFlow
Praat (Boersma & Weenink, 2023)
VocalTractLab (Birkholz, 2013)
Three.js/WebGL、Web Audio API、FastAPI

预期成果

完整源代码、五首代表性古诗的朗诵音频（涵盖上古至元代）、技术报告、演示视频。

参考文献

Birkholz, P. (2013). VocalTractLab: Towards high-quality articulatory speech synthesis. Retrieved from http://www.vocaltractlab.de
Boersma, P., & Weenink, D. (2023). Praat: doing phonetics by computer [Computer program].
Caren, M., Chandra, K., Tenenbaum, J., Ragan-Kelley, J., & Ma, K. (2024). Sketching With Your Voice:" Non-Phonorealistic" Rendering of Sounds via Vocal Imitation. In SIGGRAPH Asia 2024 Conference Papers (pp. 1-11). https://dl.acm.org/doi/pdf/10.1145/3680528.3687679
董同龢. (1968). 汉语音韵学. 文史哲出版社.
Fant, G. (1970). Acoustic theory of speech production. Mouton de Gruyter.
Guenther, F. H. (2016). Neural Control of Speech. MIT Press. Retrieved from https://sites.bu.edu/guentherlab/research-projects/the-diva-model-of-speech-motor-control/
Guenther, F. H., & Vladusich, T. (2012). A neural theory of speech acquisition and production. Journal of Neurolinguistics, 25(5), 408–422.
Huang, Z., Jin, H., Wu, M., & Zhu, K. Q. (2024, January). Automatic Reconstruction of Ancient Chinese Pronunciations. Association for Computational Linguistics. https://par.nsf.gov/servlets/purl/10576275 https://github.com/KaguraRuri/Ancient-Chinese-Phonology
Story, B. H. (2013). Phrase-level speech simulation with an airway modulation model of speech production. Computer Speech & Language, 27(4), 989–1010.
王力. (1985). 汉语史稿. 中华书局.
郑张尚芳. (2003). 上古音系. 上海教育出版社.
人类水平古音朗诵参见：B站视频