PoemCloud: 古诗词计算审美代理 | Yixin Zhu

项目背景与目标

“审美是否可计算"长期以来是美学与人工智能交叉领域的核心议题。传统美学认为，艺术审美具有主体性和情境性，难以用客观公式穷尽。刘慈欣在《诗云》(2003)中通过文学想象展现了这一哲学困境：即使技术能够穷举所有可能的诗歌组合，却无法识别真正的"好诗”。然而，计算美学(computational aesthetics)的研究尝试将审美经验转化为特征空间与可学习的模型。例如，Birkhoff (1933)提出审美度量公式M=O/C，以有序性(order)与复杂度(complexity)的比值衡量美感，这是最早的审美量化尝试之一。

随着人工智能的发展，研究者开始通过计算机视觉与自然语言处理方法学习审美偏好。在视觉审美领域，Murray等(2012)构建了AVA大规模审美数据集，为审美评估提供了重要基准。在文学创作领域，Elgammal等(2017)的Creative Adversarial Networks能够生成具有"新颖性与风格偏离度"的艺术作品。

在人机交互层面，Christiano等(2017)提出的基于人类偏好的强化学习(RLHF)展示了机器可通过持续反馈逐步逼近人类审美判断。Stiennon等(2020)进一步将该方法应用于文本生成任务，证明复杂审美与风格偏好亦能部分编码。Ouyang等(2022)的InstructGPT工作更是将RLHF推向实用化，展示了大规模语言模型通过人类反馈实现价值对齐的可能性。

基于上述理论背景，本项目要求学生构建一个"人在环路"(Human-in-the-Loop)的AI诗词创作系统PoemCloud，探索如何将主观审美偏好编码为可学习的计算模型，实现个性化、演化式的诗词生成与审美进化。系统核心目标是建立一个持续学习的诗词创作平台，通过捕捉不同用户的审美反馈，训练出多样化的"审美代理"(Aesthetic Agents)，最终形成一个能够模拟人类复杂审美判断的AI系统。学生需要探索审美的可计算性边界，设计创新的人机协作机制，实现从"技术穷举"到"审美选择"的智能跨越。

核心任务设计

任务一：多维审美空间建模与量化（30分）

构建一个可解释、可学习的诗词审美计算框架，将抽象的审美体验转化为可操作的特征空间。核心技术包括：

审美维度解构：

形式美学维度：基于Birkhoff公式的扩展，包括韵律复杂度、结构有序性、信息熵
意境维度：画面感、想象空间、情景交融度、意象密度
音韵维度：平仄和谐、韵律节奏、声音美感、音素分布
语言维度：用词精妙、句法创新、修辞技巧、语义连贯
情感维度：情感真挚度、共鸣强度、情绪层次、情感轨迹
哲思维度：思想深度、禅意、人生感悟、文化内涵
创新维度：意象新颖、表达独特、突破传统、跨域融合

主观偏好建模：基于Bradley-Terry模型的成对比较框架；个体审美函数的非线性拟合（深度神经网络）；审美风格聚类（豪放派、婉约派、现代派、实验派等；时间动态偏好追踪（审美疲劳与新鲜感建模）；文化背景因子编码（年龄、教育、地域等变量）评估指标包括审美预测准确率、用户满意度提升率、审美多样性指数、文化适配度等，确保系统能够准确捕捉和预测人类复杂的审美判断。

任务二：生成式诗词创作引擎（25分）

基于大规模语言模型构建可控的诗词生成系统，结合先进的诗歌生成技术（Lau et al., 2018; Zhang & Lapata, 2014），实现"在诗云中导航"而非"穷举诗云"的创作范式。核心技术包括：

基础生成架构：基于GPT/BERT的诗词专用模型微调；Deep-speare联合神经模型集成（语言、格律、押韵三重约束）（Lau et al., 2018）；格律约束的解码算法（严格平仄、押韵控制）；主题引导的条件生成（给定意象、情感、场景）；风格迁移网络（模仿李白、杜甫、苏轼等）
格律与韵律控制：基于Agirrezabal等(2016)的格律扫描系统；自动化平仄检测与修正；押韵模式识别与生成；节奏韵律的精确控制；声调模式的智能优化
创造力增强机制：意象组合的创新算法（跨域概念融合）；基于CLIP的视觉-诗词跨模态生成；隐喻生成网络（概念映射与认知混合）；情感轨迹设计（起承转合的情感编排）；反常规生成（故意偏离传统以创造新颖性）
质量控制系统：语义连贯性检查（避免"美丽的废话"）；文化知识一致性验证（避免常识错误）；原创性检测（与古诗库的相似度计算）；可读性与深度平衡优化；审美预过滤（基于已学习的审美模型）.
诗云导航器：在高维诗歌空间中的智能搜索; 基于审美梯度的定向探索; 诗歌变体的局部扰动生成; 灵感触发的关联跳跃机制; 创造力与约束的动态平衡.

系统需要生成符合格律、意境丰富、具有个人风格的诗词作品，实现"一键生成"到"精雕细琢"的全流程支持。

任务三：人在环路的审美进化系统（30分）

这是项目的核心创新点，设计一个能够持续从人类反馈中学习和进化的审美系统，并集成自动化评估框架。技术架构包含：

自动化诗词评估：集成Erato框架进行多维度自动评估（Lee & Hsiang, 2023）；形式质量评分（格律、押韵、结构）；内容质量评分（意境、情感、创新）；综合审美评分（结合形式与内容）；与人类评分的相关性分析
基于人类行为的交互式审美标注：滑动评分界面（0-10分连续评分）；A/B对比选择（基于Bradley-Terry模型）；局部批注系统（标记喜欢/不喜欢的具体词句）；情感热力图（标注触动内心的部分）；改进建议收集（如何让这首诗更好？）；审美理由说明（为什么喜欢/不喜欢）；基于人类反馈的强化学习(RLHF)框架实现。
个性化审美代理：用户审美画像构建（基于历史偏好）；审美迁移学习（从相似用户学习）；审美成长追踪（品味如何演变）；审美推荐系统（你可能喜欢的风格）；审美解释生成（为什么AI认为你会喜欢）

评估采用审美预测准确率、生成作品获赞率、Erato评分提升率等指标，确保系统能够真正"理解"和"学习"人类审美。

任务四：审美实验室与创作工坊（15分）

开发一个功能丰富、体验流畅的交互平台，让用户能够深度参与诗词创作和审美探索。核心功能包括：

灵感触发器（图片、音乐、词汇激发创作）：协同创作模式（人机交替写作）；诗词改写器（风格转换、意境深化）；韵律调试台（实时格律检查，基于Agirrezabal et al., 2016）；诗词可视化（将诗词渲染为图像，使用CLIP生成）
诗云探索器：3D诗歌空间可视化（t-SNE/UMAP降维展示）；审美地图导航（在诗歌空间中漫游）；时间机器（穿越不同朝代的审美）；平行宇宙（如果李白活在现代）；诗歌演化树（展示诗歌风格的历史演变）

数据集

全唐诗/全宋词数字化语料（5万+首）
现代诗歌语料库（北岛、余光中、席慕蓉等）
诗词评论与赏析文本（10万+条）
AVA审美评分数据集（Murray et al., 2012）
用户审美标注数据（持续积累）
跨模态数据集（诗词-绘画配对）

预期成果

完整源代码、五首代表性古诗的朗诵音频（涵盖上古至元代）、技术报告、演示视频。

参考文献

Birkhoff, G. D. (1933). Aesthetic Measure. Harvard University Press.
Bradley, R. A., & Terry, M. E. (1952). Rank analysis of incomplete block designs: The method of paired comparisons. Biometrika, 39(3/4), 324-345.
Christiano, P., et al. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30.
Elgammal, A., et al. (2017). CAN: Creative adversarial networks, generating “art” by learning about styles and deviating from style norms. Proceedings of the 8th International Conference on Computational Creativity (ICCC).
Gervás, P. (2001). An expert system for the composition of formal Spanish poetry. Knowledge-Based Systems, 14(3-4), 181-188.
Goodfellow, I., et al. (2014). Generative adversarial networks. Advances in Neural Information Processing Systems, 27.
Lau, J. H., Cohn, T., Baldwin, T., Brooke, J., & Hammond, A. (2018). Deep-speare: A joint neural model of poetic language, meter and rhyme. Proceedings of ACL 2018, 1948-1958.
刘慈欣. (2003). 诗云. 《科幻世界》第8期.
Murray, N., Marchesotti, L., & Perronnin, F. (2012). AVA: A large-scale database for aesthetic visual analysis. In Proceedings of CVPR (pp. 2408-2415).
Oliveira, H. G. (2017). A survey on intelligent poetry generation: Languages, features, techniques, reutilisation and evaluation. Proceedings of the 10th International Conference on Natural Language Generation, 11-20.
Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
Radford, A., et al. (2019). Language models are unsupervised multitask learners. OpenAI Technical Report.
Radford, A., et al. (2021). Learning transferable visual models from natural language supervision. International Conference on Machine Learning, 8748-8763.
Schulman, J., et al. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.
Stiennon, N., et al. (2020). Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 33, 3008-3021.
Wang, Z., et al. (2016). Chinese poetry generation with planning based neural network. Proceedings of COLING 2016, 1051-1060.
Yan, R. (2016, July). i, Poet: Automatic Poetry Composition through Recurrent Neural Networks with Iterative Polishing Schema. In IJCAI (Vol. 2238, p. 2244).
Zhang, X., & Lapata, M. (2014). Chinese poetry generation with recurrent neural networks. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 670-680.