项目背景与目标
“审美是否可计算"长期以来是美学与人工智能交叉领域的核心议题。传统美学认为,艺术审美具有主体性和情境性,难以用客观公式穷尽。刘慈欣在《诗云》(2003)中通过文学想象展现了这一哲学困境:即使技术能够穷举所有可能的诗歌组合,却无法识别真正的"好诗”。然而,计算美学(computational aesthetics)的研究尝试将审美经验转化为特征空间与可学习的模型。例如,Birkhoff (1933)提出审美度量公式M=O/C,以有序性(order)与复杂度(complexity)的比值衡量美感,这是最早的审美量化尝试之一。
随着人工智能的发展,研究者开始通过计算机视觉与自然语言处理方法学习审美偏好。在视觉审美领域,Murray等(2012)构建了AVA大规模审美数据集,为审美评估提供了重要基准。在文学创作领域,Elgammal等(2017)的Creative Adversarial Networks能够生成具有"新颖性与风格偏离度"的艺术作品。
在人机交互层面,Christiano等(2017)提出的基于人类偏好的强化学习(RLHF)展示了机器可通过持续反馈逐步逼近人类审美判断。Stiennon等(2020)进一步将该方法应用于文本生成任务,证明复杂审美与风格偏好亦能部分编码。Ouyang等(2022)的InstructGPT工作更是将RLHF推向实用化,展示了大规模语言模型通过人类反馈实现价值对齐的可能性。
基于上述理论背景,本项目要求学生构建一个"人在环路"(Human-in-the-Loop)的AI诗词创作系统PoemCloud,探索如何将主观审美偏好编码为可学习的计算模型,实现个性化、演化式的诗词生成与审美进化。系统核心目标是建立一个持续学习的诗词创作平台,通过捕捉不同用户的审美反馈,训练出多样化的"审美代理"(Aesthetic Agents),最终形成一个能够模拟人类复杂审美判断的AI系统。学生需要探索审美的可计算性边界,设计创新的人机协作机制,实现从"技术穷举"到"审美选择"的智能跨越。
核心任务设计
任务一:多维审美空间建模与量化(30分)
构建一个可解释、可学习的诗词审美计算框架,将抽象的审美体验转化为可操作的特征空间。核心技术包括:
- 审美维度解构:
- 形式美学维度:基于Birkhoff公式的扩展,包括韵律复杂度、结构有序性、信息熵
- 意境维度:画面感、想象空间、情景交融度、意象密度
- 音韵维度:平仄和谐、韵律节奏、声音美感、音素分布
- 语言维度:用词精妙、句法创新、修辞技巧、语义连贯
- 情感维度:情感真挚度、共鸣强度、情绪层次、情感轨迹
- 哲思维度:思想深度、禅意、人生感悟、文化内涵
- 创新维度:意象新颖、表达独特、突破传统、跨域融合
- 主观偏好建模: 基于Bradley-Terry模型的成对比较框架;个体审美函数的非线性拟合(深度神经网络);审美风格聚类(豪放派、婉约派、现代派、实验派等;时间动态偏好追踪(审美疲劳与新鲜感建模);文化背景因子编码(年龄、教育、地域等变量) 评估指标包括审美预测准确率、用户满意度提升率、审美多样性指数、文化适配度等,确保系统能够准确捕捉和预测人类复杂的审美判断。
任务二:生成式诗词创作引擎(25分)
基于大规模语言模型构建可控的诗词生成系统,结合先进的诗歌生成技术(Lau et al., 2018; Zhang & Lapata, 2014),实现"在诗云中导航"而非"穷举诗云"的创作范式。核心技术包括:
- 基础生成架构:基于GPT/BERT的诗词专用模型微调;Deep-speare联合神经模型集成(语言、格律、押韵三重约束)(Lau et al., 2018);格律约束的解码算法(严格平仄、押韵控制);主题引导的条件生成(给定意象、情感、场景);风格迁移网络(模仿李白、杜甫、苏轼等)
- 格律与韵律控制:基于Agirrezabal等(2016)的格律扫描系统;自动化平仄检测与修正;押韵模式识别与生成;节奏韵律的精确控制;声调模式的智能优化
- 创造力增强机制:意象组合的创新算法(跨域概念融合);基于CLIP的视觉-诗词跨模态生成;隐喻生成网络(概念映射与认知混合);情感轨迹设计(起承转合的情感编排);反常规生成(故意偏离传统以创造新颖性)
- 质量控制系统:语义连贯性检查(避免"美丽的废话");文化知识一致性验证(避免常识错误);原创性检测(与古诗库的相似度计算);可读性与深度平衡优化;审美预过滤(基于已学习的审美模型).
- 诗云导航器:在高维诗歌空间中的智能搜索; 基于审美梯度的定向探索; 诗歌变体的局部扰动生成; 灵感触发的关联跳跃机制; 创造力与约束的动态平衡.
系统需要生成符合格律、意境丰富、具有个人风格的诗词作品,实现"一键生成"到"精雕细琢"的全流程支持。
任务三:人在环路的审美进化系统(30分)
这是项目的核心创新点,设计一个能够持续从人类反馈中学习和进化的审美系统,并集成自动化评估框架。技术架构包含:
- 自动化诗词评估:集成Erato框架进行多维度自动评估(Lee & Hsiang, 2023);形式质量评分(格律、押韵、结构);内容质量评分(意境、情感、创新);综合审美评分(结合形式与内容);与人类评分的相关性分析
- 基于人类行为的交互式审美标注:滑动评分界面(0-10分连续评分);A/B对比选择(基于Bradley-Terry模型);局部批注系统(标记喜欢/不喜欢的具体词句);情感热力图(标注触动内心的部分);改进建议收集(如何让这首诗更好?);审美理由说明(为什么喜欢/不喜欢);基于人类反馈的强化学习(RLHF)框架实现。
- 个性化审美代理:用户审美画像构建(基于历史偏好);审美迁移学习(从相似用户学习);审美成长追踪(品味如何演变);审美推荐系统(你可能喜欢的风格);审美解释生成(为什么AI认为你会喜欢)
评估采用审美预测准确率、生成作品获赞率、Erato评分提升率等指标,确保系统能够真正"理解"和"学习"人类审美。
任务四:审美实验室与创作工坊(15分)
开发一个功能丰富、体验流畅的交互平台,让用户能够深度参与诗词创作和审美探索。核心功能包括:
- 灵感触发器(图片、音乐、词汇激发创作):协同创作模式(人机交替写作);诗词改写器(风格转换、意境深化);韵律调试台(实时格律检查,基于Agirrezabal et al., 2016);诗词可视化(将诗词渲染为图像,使用CLIP生成)
- 诗云探索器:3D诗歌空间可视化(t-SNE/UMAP降维展示);审美地图导航(在诗歌空间中漫游);时间机器(穿越不同朝代的审美);平行宇宙(如果李白活在现代);诗歌演化树(展示诗歌风格的历史演变)
数据集
- 全唐诗/全宋词数字化语料(5万+首)
- 现代诗歌语料库(北岛、余光中、席慕蓉等)
- 诗词评论与赏析文本(10万+条)
- AVA审美评分数据集(Murray et al., 2012)
- 用户审美标注数据(持续积累)
- 跨模态数据集(诗词-绘画配对)
预期成果
完整源代码、五首代表性古诗的朗诵音频(涵盖上古至元代)、技术报告、演示视频。
参考文献
- Birkhoff, G. D. (1933). Aesthetic Measure. Harvard University Press.
- Bradley, R. A., & Terry, M. E. (1952). Rank analysis of incomplete block designs: The method of paired comparisons. Biometrika, 39(3/4), 324-345.
- Christiano, P., et al. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30.
- Elgammal, A., et al. (2017). CAN: Creative adversarial networks, generating “art” by learning about styles and deviating from style norms. Proceedings of the 8th International Conference on Computational Creativity (ICCC).
- Gervás, P. (2001). An expert system for the composition of formal Spanish poetry. Knowledge-Based Systems, 14(3-4), 181-188.
- Goodfellow, I., et al. (2014). Generative adversarial networks. Advances in Neural Information Processing Systems, 27.
- Lau, J. H., Cohn, T., Baldwin, T., Brooke, J., & Hammond, A. (2018). Deep-speare: A joint neural model of poetic language, meter and rhyme. Proceedings of ACL 2018, 1948-1958.
- 刘慈欣. (2003). 诗云. 《科幻世界》第8期.
- Murray, N., Marchesotti, L., & Perronnin, F. (2012). AVA: A large-scale database for aesthetic visual analysis. In Proceedings of CVPR (pp. 2408-2415).
- Oliveira, H. G. (2017). A survey on intelligent poetry generation: Languages, features, techniques, reutilisation and evaluation. Proceedings of the 10th International Conference on Natural Language Generation, 11-20.
- Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
- Radford, A., et al. (2019). Language models are unsupervised multitask learners. OpenAI Technical Report.
- Radford, A., et al. (2021). Learning transferable visual models from natural language supervision. International Conference on Machine Learning, 8748-8763.
- Schulman, J., et al. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.
- Stiennon, N., et al. (2020). Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 33, 3008-3021.
- Wang, Z., et al. (2016). Chinese poetry generation with planning based neural network. Proceedings of COLING 2016, 1051-1060.
- Yan, R. (2016, July). i, Poet: Automatic Poetry Composition through Recurrent Neural Networks with Iterative Polishing Schema. In IJCAI (Vol. 2238, p. 2244).
- Zhang, X., & Lapata, M. (2014). Chinese poetry generation with recurrent neural networks. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 670-680.