项目背景与目标
随着人工智能在文化遗产保护和艺术创作领域的深入应用,AI 辅助的古典文学演绎成为新兴研究方向。古音诗歌朗诵作为融合语音学、音韵学、声学模拟和艺术表现的复杂任务,对 AI 系统提出了独特挑战。本项目要求学生构建端到端的古音诗歌朗诵系统,基于 DIVA (Directions Into Velocities of Articulators) 语音运动控制模型(Guenther & Vladusich, 2012; Guenther, 2016)实现从诗歌文本输入到专业古音朗诵的完整流程,深入探索声道建模、古音重构和艺术化语音合成技术的融合应用。
系统核心目标是接收用户输入的古诗词文本(如《诗经》、唐诗、宋词等),自动分析其音韵特征和历史语音演变,通过人类声道物理模型生成符合历史语音学考证的古音朗诵,输出具有艺术表现力的 3–5 分钟音频作品。学生需掌握 DIVA 模型实现(Guenther & Vladusich, 2012)、古汉语音韵自动重构(List & Chacon, 2015)、声道物理建模(Fant, 1970; Story, 2013; Birkholz, 2013)、声音素描技术 (vocal sketching)(Cartwright & Pardo, 2015)等核心技术。
核心任务设计
任务一:基于 DIVA 模型的语音运动控制系统(30分)
实现 DIVA 神经计算模型,构建完整的语音运动控制系统(Guenther & Vladusich, 2012; Guenther, 2016)。核心模块包括:
- 神经控制架构:包括语音声音图谱 (Speech Sound Map)、听觉目标区域 (Auditory Target Regions)、体感目标区域 (Somatosensory Target Regions)、前馈与反馈控制系统。
- 发音器建模:七个主要发音器参数、速度与位置的双重控制、协同发音 (coarticulation) 规划、基于任务动力学的轨迹优化(Fant, 1970; Story, 2013)。
- 古音适配层:扩展 DIVA 模型以支持古汉语特有音素(如入声韵尾、浊音声母),并将历史语音演变规则参数化(王力, 1985; 郑张尚芳, 2003)。
评估标准:发音器轨迹平滑度、声学目标达成率、协同发音自然度。
任务二:古汉语语音自动重构系统(25分)
基于 Automatic Reconstruction of Ancient Chinese Pronunciations 的方法论(List & Chacon, 2015),构建古音自动重构系统。核心技术包括:
- 历史语音学知识库:《广韵》《集韵》的结构化韵书数据、反切系统的计算模型、历史音变规则库(浊音清化、入声消失等)、方言比较证据(董同龢, 1968; 平山, 1998)。
- 机器学习重构引擎:深度学习反切解析、贝叶斯推断、多源证据融合、时间序列语音演变预测。
- 音系层次分析:涵盖上古、中古、近古音系的分层建模与跨时期轨迹追踪(王力, 1985; 郑张尚芳, 2003)。
任务三:声音素描与艺术化渲染(30分)
借鉴 “非写实声音渲染” 的理念(Cartwright & Pardo, 2015),实现艺术化的古音朗诵:
- 声音素描框架:通过非语音学渲染与声道共振设计突出音色特征。
- 吟诵风格建模:采集传统吟诵调式,提取节奏模式与装饰音特征。
- 艺术表现引擎:通过情感映射与共振峰调制营造多样化的艺术表现。
任务四:系统集成与交互体验(15分)
开发交互系统,包括:
- 古诗词输入与韵律标注(Boersma & Weenink, 2023)。
- 3D 声道动画与参数可视化(Birkholz, 2013)。
- 实时音频渲染(Web Audio API)与风格混合调节。
数据集与技术栈
核心数据集:
- 《广韵》数字化数据库
- 古音重构对照数据库
- 吟诵音频库
- DIVA 模型语料
推荐技术栈:
- DIVA (MATLAB/Python)
- PyTorch/TensorFlow
- Praat (Boersma & Weenink, 2023)
- VocalTractLab (Birkholz, 2013)
- Three.js/WebGL、Web Audio API、FastAPI
预期成果
完整源代码、五首代表性古诗的朗诵音频(涵盖上古至元代)、技术报告、演示视频。
参考文献
- Birkholz, P. (2013). VocalTractLab: Towards high-quality articulatory speech synthesis. Retrieved from http://www.vocaltractlab.de
- Boersma, P., & Weenink, D. (2023). Praat: doing phonetics by computer [Computer program].
- Caren, M., Chandra, K., Tenenbaum, J., Ragan-Kelley, J., & Ma, K. (2024). Sketching With Your Voice:" Non-Phonorealistic" Rendering of Sounds via Vocal Imitation. In SIGGRAPH Asia 2024 Conference Papers (pp. 1-11). https://dl.acm.org/doi/pdf/10.1145/3680528.3687679
- 董同龢. (1968). 汉语音韵学. 文史哲出版社.
- Fant, G. (1970). Acoustic theory of speech production. Mouton de Gruyter.
- Guenther, F. H. (2016). Neural Control of Speech. MIT Press. Retrieved from https://sites.bu.edu/guentherlab/research-projects/the-diva-model-of-speech-motor-control/
- Guenther, F. H., & Vladusich, T. (2012). A neural theory of speech acquisition and production. Journal of Neurolinguistics, 25(5), 408–422.
- Huang, Z., Jin, H., Wu, M., & Zhu, K. Q. (2024, January). Automatic Reconstruction of Ancient Chinese Pronunciations. Association for Computational Linguistics. https://par.nsf.gov/servlets/purl/10576275 https://github.com/KaguraRuri/Ancient-Chinese-Phonology
- Story, B. H. (2013). Phrase-level speech simulation with an airway modulation model of speech production. Computer Speech & Language, 27(4), 989–1010.
- 王力. (1985). 汉语史稿. 中华书局.
- 郑张尚芳. (2003). 上古音系. 上海教育出版社.
- 人类水平古音朗诵参见:B站视频