RealPoem: 基于人类声道物理建模的古音诗歌朗诵系统

项目背景与目标

随着人工智能在文化遗产保护和艺术创作领域的深入应用,AI 辅助的古典文学演绎成为新兴研究方向。古音诗歌朗诵作为融合语音学、音韵学、声学模拟和艺术表现的复杂任务,对 AI 系统提出了独特挑战。本项目要求学生构建端到端的古音诗歌朗诵系统,基于 DIVA (Directions Into Velocities of Articulators) 语音运动控制模型(Guenther & Vladusich, 2012; Guenther, 2016)实现从诗歌文本输入到专业古音朗诵的完整流程,深入探索声道建模、古音重构和艺术化语音合成技术的融合应用。

系统核心目标是接收用户输入的古诗词文本(如《诗经》、唐诗、宋词等),自动分析其音韵特征和历史语音演变,通过人类声道物理模型生成符合历史语音学考证的古音朗诵,输出具有艺术表现力的 3–5 分钟音频作品。学生需掌握 DIVA 模型实现(Guenther & Vladusich, 2012)、古汉语音韵自动重构(List & Chacon, 2015)、声道物理建模(Fant, 1970; Story, 2013; Birkholz, 2013)、声音素描技术 (vocal sketching)(Cartwright & Pardo, 2015)等核心技术。

核心任务设计

任务一:基于 DIVA 模型的语音运动控制系统(30分)

实现 DIVA 神经计算模型,构建完整的语音运动控制系统(Guenther & Vladusich, 2012; Guenther, 2016)。核心模块包括:

  1. 神经控制架构:包括语音声音图谱 (Speech Sound Map)、听觉目标区域 (Auditory Target Regions)、体感目标区域 (Somatosensory Target Regions)、前馈与反馈控制系统。
  2. 发音器建模:七个主要发音器参数、速度与位置的双重控制、协同发音 (coarticulation) 规划、基于任务动力学的轨迹优化(Fant, 1970; Story, 2013)。
  3. 古音适配层:扩展 DIVA 模型以支持古汉语特有音素(如入声韵尾、浊音声母),并将历史语音演变规则参数化(王力, 1985; 郑张尚芳, 2003)。

评估标准:发音器轨迹平滑度、声学目标达成率、协同发音自然度。

任务二:古汉语语音自动重构系统(25分)

基于 Automatic Reconstruction of Ancient Chinese Pronunciations 的方法论(List & Chacon, 2015),构建古音自动重构系统。核心技术包括:

  1. 历史语音学知识库:《广韵》《集韵》的结构化韵书数据、反切系统的计算模型、历史音变规则库(浊音清化、入声消失等)、方言比较证据(董同龢, 1968; 平山, 1998)。
  2. 机器学习重构引擎:深度学习反切解析、贝叶斯推断、多源证据融合、时间序列语音演变预测。
  3. 音系层次分析:涵盖上古、中古、近古音系的分层建模与跨时期轨迹追踪(王力, 1985; 郑张尚芳, 2003)。

任务三:声音素描与艺术化渲染(30分)

借鉴 “非写实声音渲染” 的理念(Cartwright & Pardo, 2015),实现艺术化的古音朗诵:

  1. 声音素描框架:通过非语音学渲染与声道共振设计突出音色特征。
  2. 吟诵风格建模:采集传统吟诵调式,提取节奏模式与装饰音特征。
  3. 艺术表现引擎:通过情感映射与共振峰调制营造多样化的艺术表现。

任务四:系统集成与交互体验(15分)

开发交互系统,包括:

  1. 古诗词输入与韵律标注(Boersma & Weenink, 2023)。
  2. 3D 声道动画与参数可视化(Birkholz, 2013)。
  3. 实时音频渲染(Web Audio API)与风格混合调节。

数据集与技术栈

核心数据集

  • 《广韵》数字化数据库
  • 古音重构对照数据库
  • 吟诵音频库
  • DIVA 模型语料

推荐技术栈

  • DIVA (MATLAB/Python)
  • PyTorch/TensorFlow
  • Praat (Boersma & Weenink, 2023)
  • VocalTractLab (Birkholz, 2013)
  • Three.js/WebGL、Web Audio API、FastAPI

预期成果

完整源代码、五首代表性古诗的朗诵音频(涵盖上古至元代)、技术报告、演示视频。

参考文献

  • Birkholz, P. (2013). VocalTractLab: Towards high-quality articulatory speech synthesis. Retrieved from http://www.vocaltractlab.de
  • Boersma, P., & Weenink, D. (2023). Praat: doing phonetics by computer [Computer program].
  • Caren, M., Chandra, K., Tenenbaum, J., Ragan-Kelley, J., & Ma, K. (2024). Sketching With Your Voice:" Non-Phonorealistic" Rendering of Sounds via Vocal Imitation. In SIGGRAPH Asia 2024 Conference Papers (pp. 1-11). https://dl.acm.org/doi/pdf/10.1145/3680528.3687679
  • 董同龢. (1968). 汉语音韵学. 文史哲出版社.
  • Fant, G. (1970). Acoustic theory of speech production. Mouton de Gruyter.
  • Guenther, F. H. (2016). Neural Control of Speech. MIT Press. Retrieved from https://sites.bu.edu/guentherlab/research-projects/the-diva-model-of-speech-motor-control/
  • Guenther, F. H., & Vladusich, T. (2012). A neural theory of speech acquisition and production. Journal of Neurolinguistics, 25(5), 408–422.
  • Huang, Z., Jin, H., Wu, M., & Zhu, K. Q. (2024, January). Automatic Reconstruction of Ancient Chinese Pronunciations. Association for Computational Linguistics. https://par.nsf.gov/servlets/purl/10576275 https://github.com/KaguraRuri/Ancient-Chinese-Phonology
  • Story, B. H. (2013). Phrase-level speech simulation with an airway modulation model of speech production. Computer Speech & Language, 27(4), 989–1010.
  • 王力. (1985). 汉语史稿. 中华书局.
  • 郑张尚芳. (2003). 上古音系. 上海教育出版社.
  • 人类水平古音朗诵参见:B站视频
Previous
Next