OpenMic: 基于多智能体框架的智能脱口秀生成系统 | Yixin Zhu

项目背景与目标

随着人工智能在创意内容生成领域的突破，AI辅助的娱乐内容创作成为研究热点。Stand-up comedy作为高度依赖语言技巧、时机把握和情感表达的艺术形式，对AI系统提出独特挑战。本项目要求学生构建基于AutoGen多智能体框架的端到端脱口秀生成系统（Wu et al., 2024），实现从主题输入到专业语音表演的完整流程，深入探索多模态AI协作在创意内容生成中的应用。

系统核心目标是接收用户输入的生活主题（如"校园糗事"、“学霸日常”），自动生成符合中文stand-up comedy特点的3-5分钟表演内容，并转换为具有专业表演效果的语音输出。学生需掌握多智能体系统设计、中文幽默内容生成、语音合成优化等核心技术。

核心任务设计

任务一：AutoGen多智能体系统架构（30分）

使用AutoGen框架构建5个核心智能体的协作系统，通过GroupChat模式实现智能体间的有序对话流程（Wu et al., 2024）。关键智能体包括：ComedyDirector负责整体策略制定和风格控制；JokeWriter专注核心内容创作，基于CFunSet数据集生成setup-punchline结构段子（Yu et al., 2025）；AudienceAnalyzer进行受众适配分析；PerformanceCoach设计语音表达策略和表演标记；QualityController负责内容评估和质量控制。

技术实现采用AutoGen的ConversableAgent和GroupChatManager，设计清晰的角色定义和交互协议（Wu et al., 2024）。工作流程遵循策略制定→受众分析→内容创作→表演指导→质量控制的循环优化模式，确保生成内容的专业性和一致性。

任务二：基于CFunSet的中文幽默内容生成（25分）

深度利用CFunSet中文幽默数据集，构建专门的中文stand-up comedy生成算法（Yu et al., 2025）。核心技术包括主题扩展算法，将简单输入转化为丰富表演素材；Setup-Punchline生成器，学习CFunSet中铺垫-包袱的中文幽默结构模式，实现包袱的延时抖落和多层回调；语言风格引擎，保持口语化表达和网络流行语特色。

推荐使用DeepSeek-V3大模型（DeepSeek-AI, 2024），通过LoRA微调（Hu et al., 2021）或精心设计的prompt engineering实现风格迁移。建立量化评估机制，包括幽默度、文化适配度、结构完整性等关键指标，确保生成内容符合中文stand-up comedy标准。

任务三：专业级语音合成与表演优化（30分）

这是项目的核心创新点，实现具有专业表演效果的语音输出。技术架构包含三个关键模块：情感语音合成模块使用ChatTTS或VALL-E X（Wang et al., 2023; Zhang et al., 2023）实现多情感控制，根据笑点类型动态调整语调；动态节奏控制系统精确控制铺垫语速、包袱前停顿（0.8秒）、重音强调和笑点后停顿（2秒）；语气词处理算法智能插入"呃"、“那个"等自然语气词，平衡自然度和表演感。

语音质量评估采用MOS标准（ITU-T, 1996）结合自定义表演效果评估，包括停顿合理性、重音准确性、情感表达度等维度。系统要求实现16kHz采样率的高质量音频输出，语音合成实时率大于1.0x，确保用户体验流畅。

任务四：系统集成与用户体验（15分）

开发完整的用户界面，支持主题描述输入、表演风格选择（观察类、自嘲类、吐槽类）、时长设定和目标受众选择。系统需实时展示智能体协作过程，提供文字脚本和语音播放功能，支持重新生成和导出功能。技术栈推荐使用Streamlit（Streamlit Inc., 2019）快速搭建前端，FastAPI（Ramirez, 2018）作为后端API，确保内容生成响应时间小于30秒，系统连续运行稳定无崩溃。

数据集与技术栈

核心数据集：CFunSet中文幽默数据集提供相声、小品、网络段子等多种幽默形式，用于学习中文幽默模式和语言特征（Yu et al., 2025）。辅助数据集包括脱口秀节目文本和AISHELL中文语音数据。

推荐技术栈：AutoGen多智能体框架（Wu et al., 2024），DeepSeek-V3中文大模型（DeepSeek-AI, 2024），ChatTTS/VALL-E X语音合成（Wang et al., 2023; Zhang et al., 2023），Streamlit/FastAPI系统框架（Streamlit Inc., 2019; Ramirez, 2018）。开发环境要求Python 3.9+，主要依赖包括autogen、transformers、librosa、soundfile等。

评估标准与预期成果

评分分配（100分）：AutoGen多智能体系统实现（30分）重点考察智能体设计合理性和协作效果；中文幽默内容生成（25分）评估CFunSet利用效果和setup-punchline结构质量；语音合成表演优化（30分）关注语音自然度和表演技巧；系统完整性和用户体验（15分）考察界面友好度和系统性能。

预期交付物：完整系统代码（GitHub仓库）、5个不同主题的3-5分钟音频样本、技术文档包含架构设计和评估结果、10分钟系统演示视频。现场演示要求展示从"我的网购经历"输入到专业脱口秀语音输出的完整流程，体现多智能体协作优势和中文幽默特色。

参考文献

DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv preprint arXiv:2412.19437.

Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., & Chen, W. (2021). LoRA: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685.

ITU-T. (1996). Methods for subjective determination of transmission quality. ITU-T Recommendation P.800.

Ramirez, S. (2018). FastAPI framework, high performance, easy to learn, fast to code, ready for production. Retrieved from https://fastapi.tiangolo.com/

Streamlit Inc. (2019). Streamlit — A faster way to build and share data apps. Retrieved from https://streamlit.io/

Wang, C., Chen, S., Wu, Y., Zhang, Z., Zhou, L., Liu, S., Chen, Z., Liu, Y., Wang, H., Li, J., He, L., Zhao, S., & Wei, F. (2023). Neural codec language models are zero-shot text to speech synthesizers. arXiv preprint arXiv:2301.02111.

Wu, Q., Bansal, G., Zhang, J., Wu, Y., Li, B., Zhu, E., … & Wang, C. (2024). Autogen: Enabling next-gen LLM applications via multi-agent conversations. In Proceedings of the First Conference on Language Modeling.

Yu, Z., Hu, X., & Wan, X. (2025). CFunModel: A “Funny” Language Model Capable of Chinese Humor Generation and Processing. arXiv preprint arXiv:2503.20417.

Zhang, Z., Zhou, L., Wang, C., Chen, S., Wu, Y., Liu, S., Chen, Z., Li, J., Liu, Y., Wang, H., Li, J., He, L., Zhao, S., & Wei, F. (2023). Speak foreign languages with your own voice: Cross-lingual neural codec language modeling. arXiv preprint arXiv:2303.03926.