MemFlowAI：基于多智能体的长文本记忆增强系统 | Yixin Zhu

项目背景与目标

随着大语言模型在复杂对话任务中的广泛应用，如何有效管理和利用长期文本交互中积累的海量上下文信息已成为关键挑战。传统大语言模型面临上下文窗口限制和"中间丢失"问题，无法在超长序列中保持有效的信息检索和推理能力。本项目旨在引导学生构建基于多智能体协作的长文本记忆系统，通过分层记忆管理机制解决长对话场景中的记忆瓶颈问题，实现高效的信息存储、检索和推理能力。

系统的核心目标是有效处理超过100K token的长对话历史，通过多智能体协作实现智能化记忆管理，并在LongMemEval和LOCOMO基准测试上达到或超越现有方法的性能表现。学生需要深入理解检索增强生成（RAG）、分层记忆架构、多智能体协作等前沿技术，构建能够持续学习和动态更新的智能对话系统。

核心任务设计

任务一：多智能体记忆架构设计（30分）

参考A-MEM和HiAgent的设计理念，构建基于分层工作记忆的多智能体协作系统。建议设计3-5个核心智能体，涵盖记忆管理、查询处理、信息检索、响应生成等功能模块，具体的智能体角色划分和协作机制由学生自主设计。系统需要有效解决长序列处理中的计算效率和内存优化问题，建立智能体间高效的协作机制。学生可以选择AutoGen框架或其他多智能体框架实现系统，重点关注智能体间的异步通信、任务分配策略和协作优化。我们鼓励学生探索创新的协作模式和通信机制，设计专门适配长文本记忆任务的架构方案。

任务二：分层记忆管理与检索（25分）

实现高效的分层记忆系统，核心要求包括长对话的结构化分解和存储、关键信息的自动提取和索引、时间感知的查询扩展和检索机制。学生可以自主选择具体的技术路线，例如采用会话级分解、轮次级分解或其他粒度的切分策略；在检索方面可以选择密集检索、稀疏检索或混合检索策略。系统需要支持多种类型的复杂查询，包括跨会话信息整合、时序推理、知识更新等功能。需建立完整的评估机制，在LongMemEval基准上的核心能力指标应达到70%以上的准确率。我们鼓励学生设计创新的索引结构、检索算法或记忆压缩方法。

任务三：智能记忆协作与更新（30分）

设计智能化记忆管理系统，实现记忆的动态组织、更新和演化功能。学生可以参考MIRIX或G-Memory的设计思路，但不限于其具体实现方式。系统需要支持多种记忆类型的管理，如用户档案、对话历史、概念知识、交互模式等，具体的记忆分类和组织方式可以根据应用需求灵活设计。系统要求能够处理100K+ token长度的对话历史，实现较高的记忆召回率，并在LOCOMO数据集上相比基线方法有显著性能提升。我们鼓励学生探索新颖的记忆更新策略、冲突处理机制或知识演化算法。

任务四：系统集成与性能优化（15分）

开发完整的端到端系统，集成多智能体协作、记忆管理、检索问答等核心功能模块。系统需支持长对话历史的批量导入和实时处理，提供直观的记忆可视化界面展示不同层次的记忆结构和连接关系，实现智能对话生成和个性化问答功能。建议采用Streamlit构建用户界面，FastAPI作为后端服务框架，FAISS作为向量数据库存储文本embedding，确保系统的高性能和可扩展性。系统性能优化重点关注响应时间和并发处理能力，要求单次查询响应时间控制在10秒以内，支持至少20个并发用户的同时访问。需实现完整的监控和日志系统，提供详细的性能指标统计和错误追踪功能。建立自动化测试流程，确保系统在不同负载条件下的稳定性和可靠性。

数据集与技术栈

核心数据集方面，采用LOCOMO数据集进行长期记忆能力测试，该数据集包含50个长期对话，每个对话约300轮、9K token，跨越35个会话，能够全面评估系统的长期记忆管理能力。同时采用LongMemEval基准进行标准化评估，该基准包含500个精心设计的测试问题，涵盖信息提取、多会话推理、时序推理、知识更新、回避判断等五大核心能力维度。学生还可以收集匿名化的真实对话数据或生成模拟长对话序列作为补充测试数据。

推荐技术栈包括多智能体框架可选择AutoGen、LangChain Agent或自定义实现，大语言模型可选用GPT-4o-mini、Llama-3.1系列、Qwen2.5-7B或其他开源模型。检索系统可选择Stella-v5、BGE、sentence-transformers等embedding模型，结合FAISS、Chroma、Weaviate等向量数据库。开发环境基于Python 3.9+，核心依赖包括transformers、faiss-cpu、streamlit、fastapi等组件。

评估标准与预期成果

评分标准按照四个维度进行综合评估：多智能体架构设计占30分，重点考察智能体的角色设计合理性、协作机制有效性和通信协议完整性；分层记忆管理占25分，评估记忆索引的层次结构、检索算法的效率和准确性、以及时间感知查询的实现质量；智能记忆协作占30分，考察记忆类型的实现完整性、图谱架构的设计合理性和记忆更新机制的智能化程度；系统集成与优化占15分，评估端到端系统的完整性、用户界面友好性、性能优化效果和技术创新点。

预期交付成果包括完整的系统代码库，要求在GitHub上提供详细的README文档、API接口说明和部署指南；分层记忆可视化演示，能够直观展示不同记忆类型和层级结构的组织形式；详细的性能评估报告，基于LOCOMO和LongMemEval基准提供量化的测试结果和对比分析，报告需包含完整数据集上的综合评估结果，不仅限于演示选用的场景；完整的技术文档，包含系统架构设计、算法实现细节、多智能体协作流程图和创新点分析；15分钟的现场系统演示和技术答辩，展示核心功能和创新特色。

现场演示要求与场景设计

核心演示场景方面，学生可从LOCOMO或LongMemEval数据集中选择2-3个典型的长对话场景进行演示，展示系统在不同类型长文本记忆任务中的处理能力。推荐选择包含多会话推理、时序推理、知识更新等复杂能力要求的场景，能够充分展现系统的技术优势和创新特色。需要注意的是，虽然现场演示可以选择特定场景，但最终的性能评估报告必须基于完整数据集进行综合测试和分析。

演示流程设计分为四个递进阶段：首先展示系统对选定长对话场景的自动记忆构建过程，实时可视化展示不同记忆类型的自动分类存储和图谱架构的动态构建；然后选择数据集中的典型复杂查询进行演示，如跨会话信息整合、时间相关推理、矛盾信息处理等，展示系统的多跳推理和时序推理能力；接着展示个性化响应生成过程，基于历史记忆为用户提供精准的信息查询和智能建议；最后演示记忆的动态更新机制，当输入新的对话轮次时，系统如何智能更新相关记忆并维护一致性。

技术展示重点包括多智能体协作的实时可视化，在界面上清晰展示MemoryIndexer、QueryProcessor、MemoryRetriever、ResponseSynthesizer等智能体的实时工作状态和相互协作过程；分层记忆检索的透明化展示，让评委能够看到系统如何从海量历史记录中精确定位到相关信息片段；记忆类型切换和混合查询的演示，展示核心记忆、情景记忆、语义记忆、程序记忆在不同查询场景下的协同工作；性能指标的实时监控，包括查询响应时间、记忆召回率、多智能体协作效率等关键指标的可视化展示。

演示创新亮点要求学生展示至少两个技术创新点，可以是新颖的记忆组织方式、高效的检索算法优化、智能的记忆更新策略，或者独特的多智能体协作机制。每个创新点需要有清晰的技术原理说明、实现效果展示和性能对比分析。演示过程中要求能够回答评委关于系统架构、算法设计、性能优化等方面的技术问题，展现对核心技术的深入理解和工程实现能力。演示总时长控制在15分钟内，其中系统功能展示10分钟，技术问答5分钟。

参考文献

Xu, W., et al. (2025). A-MEM: Agentic Memory for LLM Agents. arXiv preprint arXiv:2502.12110.

Lei, M., et al. (2025). STMA: A Spatio-Temporal Memory Agent for Long-Horizon Embodied Task Planning. arXiv preprint arXiv:2502.10177.

Hu, M., et al. (2024). HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model. arXiv preprint arXiv:2408.09559.

Wang, Y., et al. (2025). MIRIX: Multi-Agent Memory System for LLM-Based Agents. arXiv preprint arXiv:2507.07957.

Wang, J., et al. (2024). Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration. arXiv preprint arXiv:2406.01014.

Wu, D., Wang, H., Yu, W., Zhang, Y., Chang, K. W., & Yu, D. (2024). LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory. ICLR 2025.

Maharana, A., Lee, D. H., Tulyakov, S., Bansal, M., Barbieri, F., & Fang, Y. (2024). Evaluating Very Long-Term Conversational Memory of LLM Agents. ACL 2024.