项目背景与目标
随着人工智能技术在人机交互领域的快速发展,个性化GUI智能体成为连接用户需求与复杂数字界面的关键桥梁。传统的GUI自动化工具往往采用"一刀切"的方式,无法适应不同用户的个性化习惯和动态变化的任务需求。本项目要求学生构建一个能够实时感知用户偏好、自适应学习用户行为模式,并能在动态环境进行决策的个性化GUI智能体系统,深入探索多模态感知、用户建模和智能决策在实际应用中的融合。
系统核心目标是设计用户个性化GUI交互的数据集和评估体系,并以此为基础构建含有GUI界面理解、用户建模、动态决策等能力的智能系统。学生需掌握用户模拟、多模态信息感知、偏好学习等核心技术。
核心任务设计
任务一:个性化GUI交互测试基准构建(30分)
设计能够反映用户个性化需求的GUI交互测试基准,解决现有数据集缺乏个性化标注和动态交互场景的问题。建议设计3-5种典型用户画像(如学生、白领、老年人等),每种用户类型包含不同的应用使用偏好、操作习惯和任务优先级模式,具体的用户类型划分和特征定义由学生自行设计。需要覆盖10-15个主流手机应用的真实交互场景,如电商购物、信息检索、消息处理等,可以参考Astra项目的demo。建立标准化的评估体系,维度包括任务完成率、用户满意度、个性化匹配度等量化指标。
学生可以选择Android Studio模拟器或其他移动设备模拟环境实现数据收集,可以基于规则或使用语言模型来模拟不同的用户,鼓励学生探索创新的数据标注方法和用户建模策略。
任务二:多模态GUI理解与状态感知(15分)
实现高效的多模态GUI感知与理解,核心要求包括实时指令的接收、屏幕内容的语义解析和理解、界面元素的自动识别和功能推断、应用状态和页面跳转的动态追踪。学生可以自主选择具体的技术路线,如采用ASR模型进行语音识别、或直接采用Qwen-audio、Gemini等语音大模型进行语音理解,采用UIAutomator框架(https://developer.android.com/training/testing/other-components/ui-automator)进行界面元素提取、或直接截图使用多模态大模型进行理解。
系统需要支持多种类型的GUI理解任务,包括按钮识别、文本提取、布局分析、交互热区检测等。鼓励学生设计创新的多模态信息提取和融合使用方法,关键在于不同模态信息之间的交互如何影响当前状态的理解。
任务三:用户偏好学习与个性化建模(30分)
设计智能的用户偏好学习系统,实现基于行为序列的个性化建模和预测。学生可以参考SmartAgent的Chain-of-thought方法或MoBA的记忆增强规划思路,但不限于其具体实现方式。系统需要支持多种类型的偏好学习,如操作习惯偏好、应用使用模式、任务优先级策略、时间敏感性偏好等,且学习到的偏好能泛化到不同的应用场景中,具体的偏好分类和建模方式可以根据应用需求自主设计。
系统要求处理用户的长期行为历史,实现较高的偏好预测准确率,并在构建的测试基准上相比现有的基线方法有显著提升。鼓励学生探索新颖的偏好建模策略、对比学习或在线学习算法。
任务四:动态决策与多任务智能调度(25分)
在完成GUI理解和用户偏好建模的基础上,学生需要实现一个能够在复杂、多变环境中进行实时动态决策的智能体系统。系统需能够感知当前任务状态、用户行为及环境变化,结合个性化偏好进行多任务优先级排序,并在突发事件出现时快速调整策略。系统的动态决策应包括任务冲突解决策略、优先级动态更新方法以及任务切换后的执行监控,确保智能体在面对复杂环境和实时变化时依然能够保持稳定、可靠和个性化的服务。
评估重点在于智能体的任务切换合理性、决策响应速度和个性化适应能力,要求在测试基准上展示明显优于静态、非个性化策略的性能提升,鼓励学生探索从示范数据学习、模仿学习、强化学习等算法。
数据集与技术栈
核心数据集方面,构建个性化GUI交互测试基准,包含3-5种用户类型和10-15个应用场景的真实交互序列。学生还可以收集匿名化的真实用户交互数据或生成模拟个性化行为序列作为补充测试数据。
推荐技术栈GUI界面模拟可选择Android Studio模拟器、Appium,多模态理解可选用GPT-4V、Gemini等闭源模型或Qwen2-Audio等开源模型。开发环境基于Python 3.9+,核心依赖包括uiautomator2、opencv-python、transformers、torch等。
评估标准与预期成果
评分标准按照四个维度进行评估:测试基准构建占30分,重点考察数据集的用户模拟质量、交互场景覆盖完整性和量化指标合理性;多模态GUI理解占15分,评估界面解析的准确性、状态追踪的实时性和技术方案的创新性;用户偏好学习占30分,考察个性化建模的有效性、偏好预测的准确性和泛化性;动态决策占25分,考察决策响应速度、鲁棒性和个性化适应能力。
预期交付成果包括完整的系统代码库,要求在GitHub上提供详细的README文档、API接口说明和部署指南;测试基准及使用指导,能够支持其他研究者进行个性化GUI智能体的研究和评估;详细的技术评估报告,基于自构建基准提供量化的测试结果和与现有方法的对比分析,报告需包含完整数据集上的综合评估结果;完整的技术文档,包含系统架构设计、算法实现细节、用户建模方法和创新点分析;15分钟的现场系统演示和技术答辩,展示核心功能和个性化效果。
参考文献
Android Studio. https://developer.android.com/studio
UI Automator. https://developer.android.com/training/testing/ui-automator
Project Astra. https://deepmind.google/models/project-astra/
Zhu, Zichen, et al. “MobA: Multifaceted Memory-Enhanced Adaptive Planning for Efficient Mobile Task Automation.” arXiv preprint arXiv:2410.13757 (2024).
Zhang, Jiaqi, et al. “Smartagent: Chain-of-user-thought for embodied personalized agent in cyber world.” arXiv preprint arXiv:2412.07472 (2024).
Nong, Songqin, et al. “Mobileflow: A multimodal llm for mobile gui agent.” arXiv preprint arXiv:2407.04346 (2024).
Li, Yanda, et al. “Appagent v2: Advanced agent for flexible mobile interactions.” arXiv preprint arXiv:2408.11824 (2024).
Wang, Junyang, et al. “Mobile-agent-v2: Mobile device operation assistant with effective navigation via multi-agent collaboration.” Advances in Neural Information Processing Systems 37 (2024): 2686-2710.