项目背景与目标
随着人工智能在创意内容生成领域的突破,AI辅助的娱乐内容创作成为研究热点。Stand-up comedy作为高度依赖语言技巧、时机把握和情感表达的艺术形式,对AI系统提出独特挑战。本项目要求学生构建基于AutoGen多智能体框架的端到端脱口秀生成系统(Wu et al., 2024),实现从主题输入到专业语音表演的完整流程,深入探索多模态AI协作在创意内容生成中的应用。
系统核心目标是接收用户输入的生活主题(如"校园糗事"、“学霸日常”),自动生成符合中文stand-up comedy特点的3-5分钟表演内容,并转换为具有专业表演效果的语音输出。学生需掌握多智能体系统设计、中文幽默内容生成、语音合成优化等核心技术。
核心任务设计
任务一:AutoGen多智能体系统架构(30分)
使用AutoGen框架构建5个核心智能体的协作系统,通过GroupChat模式实现智能体间的有序对话流程(Wu et al., 2024)。关键智能体包括:ComedyDirector负责整体策略制定和风格控制;JokeWriter专注核心内容创作,基于CFunSet数据集生成setup-punchline结构段子(Yu et al., 2025);AudienceAnalyzer进行受众适配分析;PerformanceCoach设计语音表达策略和表演标记;QualityController负责内容评估和质量控制。
技术实现采用AutoGen的ConversableAgent和GroupChatManager,设计清晰的角色定义和交互协议(Wu et al., 2024)。工作流程遵循策略制定→受众分析→内容创作→表演指导→质量控制的循环优化模式,确保生成内容的专业性和一致性。
任务二:基于CFunSet的中文幽默内容生成(25分)
深度利用CFunSet中文幽默数据集,构建专门的中文stand-up comedy生成算法(Yu et al., 2025)。核心技术包括主题扩展算法,将简单输入转化为丰富表演素材;Setup-Punchline生成器,学习CFunSet中铺垫-包袱的中文幽默结构模式,实现包袱的延时抖落和多层回调;语言风格引擎,保持口语化表达和网络流行语特色。
推荐使用DeepSeek-V3大模型(DeepSeek-AI, 2024),通过LoRA微调(Hu et al., 2021)或精心设计的prompt engineering实现风格迁移。建立量化评估机制,包括幽默度、文化适配度、结构完整性等关键指标,确保生成内容符合中文stand-up comedy标准。
任务三:专业级语音合成与表演优化(30分)
这是项目的核心创新点,实现具有专业表演效果的语音输出。技术架构包含三个关键模块:情感语音合成模块使用ChatTTS或VALL-E X(Wang et al., 2023; Zhang et al., 2023)实现多情感控制,根据笑点类型动态调整语调;动态节奏控制系统精确控制铺垫语速、包袱前停顿(0.8秒)、重音强调和笑点后停顿(2秒);语气词处理算法智能插入"呃"、“那个"等自然语气词,平衡自然度和表演感。
语音质量评估采用MOS标准(ITU-T, 1996)结合自定义表演效果评估,包括停顿合理性、重音准确性、情感表达度等维度。系统要求实现16kHz采样率的高质量音频输出,语音合成实时率大于1.0x,确保用户体验流畅。
任务四:系统集成与用户体验(15分)
开发完整的用户界面,支持主题描述输入、表演风格选择(观察类、自嘲类、吐槽类)、时长设定和目标受众选择。系统需实时展示智能体协作过程,提供文字脚本和语音播放功能,支持重新生成和导出功能。技术栈推荐使用Streamlit(Streamlit Inc., 2019)快速搭建前端,FastAPI(Ramirez, 2018)作为后端API,确保内容生成响应时间小于30秒,系统连续运行稳定无崩溃。
数据集与技术栈
核心数据集:CFunSet中文幽默数据集提供相声、小品、网络段子等多种幽默形式,用于学习中文幽默模式和语言特征(Yu et al., 2025)。辅助数据集包括脱口秀节目文本和AISHELL中文语音数据。
推荐技术栈:AutoGen多智能体框架(Wu et al., 2024),DeepSeek-V3中文大模型(DeepSeek-AI, 2024),ChatTTS/VALL-E X语音合成(Wang et al., 2023; Zhang et al., 2023),Streamlit/FastAPI系统框架(Streamlit Inc., 2019; Ramirez, 2018)。开发环境要求Python 3.9+,主要依赖包括autogen、transformers、librosa、soundfile等。
评估标准与预期成果
评分分配(100分):AutoGen多智能体系统实现(30分)重点考察智能体设计合理性和协作效果;中文幽默内容生成(25分)评估CFunSet利用效果和setup-punchline结构质量;语音合成表演优化(30分)关注语音自然度和表演技巧;系统完整性和用户体验(15分)考察界面友好度和系统性能。
预期交付物:完整系统代码(GitHub仓库)、5个不同主题的3-5分钟音频样本、技术文档包含架构设计和评估结果、10分钟系统演示视频。现场演示要求展示从"我的网购经历"输入到专业脱口秀语音输出的完整流程,体现多智能体协作优势和中文幽默特色。
参考文献
DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv preprint arXiv:2412.19437.
Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., & Chen, W. (2021). LoRA: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685.
ITU-T. (1996). Methods for subjective determination of transmission quality. ITU-T Recommendation P.800.
Ramirez, S. (2018). FastAPI framework, high performance, easy to learn, fast to code, ready for production. Retrieved from https://fastapi.tiangolo.com/
Streamlit Inc. (2019). Streamlit — A faster way to build and share data apps. Retrieved from https://streamlit.io/
Wang, C., Chen, S., Wu, Y., Zhang, Z., Zhou, L., Liu, S., Chen, Z., Liu, Y., Wang, H., Li, J., He, L., Zhao, S., & Wei, F. (2023). Neural codec language models are zero-shot text to speech synthesizers. arXiv preprint arXiv:2301.02111.
Wu, Q., Bansal, G., Zhang, J., Wu, Y., Li, B., Zhu, E., … & Wang, C. (2024). Autogen: Enabling next-gen LLM applications via multi-agent conversations. In Proceedings of the First Conference on Language Modeling.
Yu, Z., Hu, X., & Wan, X. (2025). CFunModel: A “Funny” Language Model Capable of Chinese Humor Generation and Processing. arXiv preprint arXiv:2503.20417.
Zhang, Z., Zhou, L., Wang, C., Chen, S., Wu, Y., Liu, S., Chen, Z., Li, J., Liu, Y., Wang, H., Li, J., He, L., Zhao, S., & Wei, F. (2023). Speak foreign languages with your own voice: Cross-lingual neural codec language modeling. arXiv preprint arXiv:2303.03926.