长期记忆(LTM)是AI自进化的核心,它允许模型通过与环境的持续交互,累积并存储经验数据。这些数据可以在未来的任务中被模型使用,从而增强模型在新环境中的应对能力。
盛大AI团队与普林斯顿大学联合提出了一套系统化的数据采集框架Omne多代理框架,用于构建LTM。该框架能够从模型与外界的交互中收集多样化、个性化的数据,包括数字痕迹、行为数据、生物特征等。这些数据在经过处理和整理后,能够有效存储在LTM中。
Omne旨在通过多个智能体之间的协作、信息共享和长期记忆(LTM)的应用,促进 AI 系统的自我进化和个性化优化。
Omne的每个智能体都拥有相同且独立的系统结构,能够自主学习并存储完整的世界模型,从而独立构建对环境的理解。通过这种基于LTM 的协作开发,AI 系统能够实时适应个体行为的变化,优化任务规划与执行,进一步推动个性化与高效的AI 自我进化过程。
OMNE 框架在全球AI代理基准测试系统 GAIA(Global Artificial Intelligence Agent Benchmark)中在GAIA智能体系排行榜上荣登榜首,超越了众多顶尖研究机构,包括微软研究院的相关框架。
这是自去年盛大集团创始人、前中国互联网大佬陈天桥宣布All In AI战略以来,盛大AI团队取得的一项重大成果。
OMNE 框架的核心概念
- 多智能体系统(MAS):OMNE 是一个典型的多智能体系统(Multi-Agent System, MAS),它由多个独立的智能体组成。这些智能体可以各自执行不同的任务,并通过共享信息和知识来相互协作,增强整体系统的能力。
- 智能体的独立性与协作:在 OMNE 框架中,每个智能体都是一个相对独立的个体,拥有自己的长期记忆(LTM)和任务处理能力。尽管它们独立运行,但能够通过一个中央协调机制共享数据和信息,从而提高系统在不同任务中的综合表现。
OMNE 的核心功能和特点:
- 多智能体协作机制:
- 在 OMNE 框架中,多个智能体共同工作,每个智能体都有独立的长期记忆(LTM),并能够根据自己的交互经验学习和优化。这些智能体之间可以共享数据、经验和知识,进一步增强系统的整体性能。
- 这种多智能体系统允许智能体之间协同工作,分工处理不同的任务,充分发挥各自的优势,从而能够更好地应对复杂和多样化的任务环境。
- 个性化与动态调整:
- OMNE 框架中的每个智能体通过自己的LTM数据与外部环境互动,并逐渐形成个性化的学习路径。这意味着每个智能体可以在不同的任务场景中逐步进化,具备个性化处理能力。
- 这种个性化不仅在于不同智能体之间的能力差异,还体现在单个智能体能够根据任务要求进行自我调整,使其能够持续适应动态变化的环境和个体需求。
- 数据共享与信息协作:
- OMNE 允许智能体之间共享信息、数据和学习成果。这种共享机制能够大幅提升系统的整体表现。例如,当一个智能体在某一任务中积累了有价值的知识,其他智能体可以通过信息共享直接受益,减少重复学习的成本,提升学习效率。
- 这种信息共享还能够解决单个智能体在面临数据稀疏或未知任务时的挑战,通过协作和信息交换使系统具备更强的鲁棒性和泛化能力。
- LTM在OMNE中的应用:
- OMNE 的智能体依赖长期记忆(LTM)来存储和管理它们在与环境长期交互过程中所获得的数据。LTM 在 OMNE 中充当了关键的机制,使智能体能够通过积累和利用历史数据不断优化自身的推理、决策和行为能力。
- LTM 数据不仅为单个智能体提供了持续学习的基础,还能够通过智能体之间的分享,帮助整个系统共同进步。
- 适用于多场景和复杂任务:
- OMNE 框架特别适用于那些需要多个智能体协作、长期学习和动态调整的复杂任务场景。例如,在医疗、金融、智能办公等应用领域,OMNE 可以通过个性化智能体的协作与长期记忆数据的使用,提供更精确、更高效的决策支持。
- OMNE 在 GAIA 基准测试中取得了优异成绩,证明了这种多智能体协作和自进化机制在实际应用中的强大潜力。
OMNE 框架的技术架构
OMNE 框架基于 OpenAI 的 GPT-4o 和 o1-preview 开发。OMNE 使用了这两个模型作为基础,同时还配备了四个工具:Web 浏览器、必应搜索引擎、基于 LlamaParse 的文件读取器,以及一个利用 o1-preview 构建的逻辑专家。
OMNE 中的每个智能体独立运行,同时基于 GPT-4o 和 o1-preview 的能力进行个性化学习。OMNE 的多智能体架构允许各智能体在不同任务下相互协作,从而实现整体系统的自我进化。
对GPT O1-preview的优化
Omne框架对GPT O1-preview版本进行了优化,特别是工具调用机制的改进,显著提升了系统的推理能力。
Omne 框架对工具调用机制进行了专门的优化,这项改进主要表现在以下几个方面:
- 智能工具选择:
- GPT O1-preview 模型内置了多个工具接口,Omne 框架通过智能工具选择机制,使模型能够自动判断任务需求,选择合适的外部工具来完成特定任务。
- 这避免了模型单独依赖自身能力进行复杂计算时可能出现的效率低下或误差增大的问题。通过调用合适的工具,模型能够迅速完成复杂任务,如数据处理、推理分析、或信息检索。
- 动态工具调用:
- 传统的工具调用系统往往依赖静态规则,Omne 框架通过引入动态工具调用机制,允许模型根据实时任务需求和环境变化灵活地调用工具。
- 例如,针对某些任务,模型可能需要调用不同的工具模块来处理文本、图像或数据分析,Omne 的动态调用机制确保了工具调用的高效性和灵活性。
- 多步推理与工具集成:
- Omne 框架优化了 GPT O1-preview 在处理多步推理任务时的工具集成能力。模型在处理复杂任务时,往往需要分阶段调用多个工具。
- Omne 框架通过优化工具集成流程,确保模型可以在一个任务的不同阶段根据需要自动切换工具,从而避免中断或效率下降。
- 工具调用记忆:
- 通过长期记忆模块(LTM),Omne 框架能够记住模型过去在特定任务中调用过的工具,并在未来的相似任务中快速复用这些工具调用路径。
- 这种记忆功能减少了重复计算的需要,并通过优化工具调用路径提升了模型的推理速度和准确性。
推理能力的显著提升
Omne 框架的工具调用机制优化极大提升了 GPT O1-preview 的推理能力,主要体现在以下几个方面:
- 处理复杂任务的能力:
- 通过优化工具调用机制,GPT O1-preview 能够更加高效地处理复杂任务。这些任务包括跨领域的推理、多模态数据分析(如文本、图像和语音的综合处理)以及多步推理问题。
- 工具调用机制的优化确保了模型在面对复杂任务时,不仅依赖内部的模型推理,还能够通过外部工具快速找到最佳解决方案。
- 推理速度的提升:
- 优化后的工具调用机制大大减少了模型的推理时间。以前,模型在处理复杂问题时可能需要大量的内部计算资源,而现在,通过调用外部工具,推理任务得以分解并更快完成。
- 这一机制显著加快了模型的响应速度,特别是在实时处理任务(如在线客服或实时分析)中表现尤为出色。
- 多任务处理能力:
- 工具调用机制的优化还增强了模型的多任务处理能力。Omne 框架允许模型在多个任务之间无缝切换,并调用适合每个任务的工具。
- 这一机制使得模型能够同时处理不同类型的任务,并根据任务需要灵活调用特定工具,从而提高了整体系统的效率和准确性。
四个工具
- Web 浏览器:OMNE 的智能体能够使用浏览器访问互联网,从而在实时环境中获取和验证最新的信息。这使得 OMNE 能够动态调整其模型行为,并在需要时更新长时记忆。
- 必应搜索引擎:通过与搜索引擎集成,OMNE 可以实时从网络中提取最新的信息,尤其是在需要快速更新或验证特定知识时。这种搜索引擎的使用进一步提升了模型的适应性。
- 基于 LlamaParse 的文件读取器:LlamaParse 是一种高级的文本解析器。OMNE 通过文件读取器工具,可以读取、分析和处理结构化或非结构化文档数据,并将其内容集成到模型的 LTM 中。
- 逻辑专家(基于 o1-preview):OMNE 还利用 o1-preview 模型构建了一个逻辑专家系统,用于处理复杂的推理任务和逻辑判断。这个逻辑专家模块使 OMNE 在多智能体协作中具备更高的逻辑推理能力,有助于实现个性化和动态任务规划。
OMNE 框架的架构
OMNE 框架的架构由由多个关键组件组成,这些组件协同工作以实现智能体之间的高效协作和任务处理:
- 长期记忆模块(Long-Term Memory, LTM):每个智能体都有自己的长期记忆模块,能够积累其在特定任务或环境中的交互数据。LTM允许智能体从历史数据中学习,并在未来任务中利用这些经验优化决策。
- 任务分配与协作机制:OMNE 通过一个智能的任务分配系统,将不同的任务自动分配给最适合的智能体。这个机制确保每个任务都能得到最佳处理,并避免资源的浪费或任务冲突。
- 中央协调器:中央协调器(central coordinator)在智能体之间扮演调解角色,管理信息共享和任务协作。它确保每个智能体的任务和知识被有效整合,使系统整体的表现优于每个单独的智能体。
- 多模态输入处理:OMNE 可以处理来自不同来源的多模态输入(如文本、图像、语音等)。每个智能体可以针对特定的输入模态进行处理,然后与其他智能体合作解决复杂任务。
- 自适应优化:OMNE 内部包含自适应优化机制,智能体能够根据任务需求和环境的变化,自动调整其策略。每个智能体都可以实时优化其处理方式,从而提高效率。
OMNE 框架中的智能体类型
OMNE 框架内的智能体根据任务不同,分为不同类型,每个智能体在系统中的角色各有侧重。以下是几个典型的智能体类型:
- 决策智能体(Decision Agent):负责高层决策和策略制定,通常处理复杂的推理任务,并为其他智能体提供指导。
- 信息智能体(Information Agent):主要处理数据检索、信息收集和存储任务。该智能体与长期记忆模块紧密结合,确保系统能够快速访问并利用之前的经验数据。
- 执行智能体(Execution Agent):负责具体的任务执行,如对用户请求的直接响应、处理订单、调度任务等。执行智能体通过协调其他智能体的输出来完成最终的任务目标。
- 协同智能体(Collaboration Agent):专注于多个智能体之间的协调和通信,确保各个智能体能够有效协作并实现最佳任务分配。
OMNE 在 GAIA 基准测试中的表现
OMNE 框架在全球AI代理基准测试系统 GAIA(Global Artificial Intelligence Agent Benchmark)中取得了卓越成绩,超越了众多顶尖的AI系统:
- GAIA 基准测试:GAIA 是由 Meta AI、Hugging Face 和 AutoGPT 联合推出的全球智能体基准测试,旨在评估AI代理系统的多方面能力,包括推理、工具调用、多模态处理和决策能力。
- OMNE 的表现:在这些基准测试中,OMNE 展现了极高的智能体协作效率和推理能力,特别是在复杂任务分解、数据处理和工具使用方面的表现远超竞争对手。OMNE 的工具调用机制优化是其能够超越其他AI系统的关键因素之一。
应用案例
OMNE 框架应用主要集中在医疗领域,尤其是通过长时记忆(LTM)和多智能体系统的集成来实现 AI 的自我进化和高效任务处理。以下是 OMNE 框架在医疗应用中的一些关键案例:
1. 医学诊断和自我进化
- OMNE 框架在模拟医疗场景中被用于 增强诊断 AI 的自我能力。论文中提出的 MedAgent-Zero 方法,结合了 LTM 进行医疗记录积累、医学经验反思和基于 RAG 的 LTM 利用。
- 具体来说:
- 医疗记录积累:医生代理通过与虚拟病人的互动,积累成功的诊断案例,形成基于文本的 LTM 数据,就像真实世界的医生通过病历积累知识一样。这些数据为未来类似问题的诊断提供了决策支持。
- 医学经验反思:当医生代理在诊断中出错时,它会通过反思机制生成经验性 LTM 数据。反思过程包括原始问题、模型的回答及正确答案。这种自我反思能力可帮助模型更好地理解和改进未来的决策。
- RAG 基于 LTM 的利用:医生代理在解决新问题时,首先从 LTM 中检索到类似案例,并根据这些案例进行推理。这种方式在不需要参数更新的情况下,通过在线学习和推理实现高效的 LTM 数据应用,增强了模型的诊断能力。
2. 多语言适应性与推理能力
- OMNE 框架被用于测试模型在不同语言环境中的适应能力,特别是法语和中文数据集上的推理性能。通过更新模型的权重,OMNE 成功适应了新的语言分布模式,并显著降低了对应测试集上的困惑度(perplexity),显示出其强大的语言适应能力。
- 此外,OMNE 的长时记忆机制在这些多语言实验中被证明可以有效地防止灾难性遗忘(catastrophic forgetting),即模型在适应新数据分布后仍能保留对原始数据的泛化能力。
3. 复杂任务规划与内存利用
- OMNE 框架在复杂任务规划中采用了 上下文学习(In-Context Learning, ICL) 技术。通过利用 LTM,框架可以在不同任务上下文中检索和应用相关的历史经验,提高任务规划的效率和效果。
- 例如,在实际业务应用中,OMNE 可以预先规划多种任务,并在实际推理中调用已存储的任务规划结果,从而实现快速的任务处理和响应。这种内存利用方法大大提升了 AI 系统的实际操作效率。
4. 诊断对话系统中的心理健康应用
- OMNE 框架还被应用于心理健康诊断对话系统中,通过 LLM 生成的合成数据和 OMNE 的多智能体协作,实现了对多种心理疾病的准确诊断。
- 特别是对于精神疾病的诊断,OMNE 通过构建 动态诊断树 来模拟实际的诊断过程,该树包括固定的症状询问树和动态的经验询问树。结合长时记忆的利用,系统能够更深入地与患者互动,提高诊断的准确性和完整性。
据悉,目前盛大已经建立起了一支上百人的优秀AI工程师团队,还在全球持续招募。陈天桥旗下的科研机构天桥脑科学研究院,也与Science杂志推出了全球AI驱动科学大奖,以及举办各种高水平国际会议、夏校,持续培养青年AI跨学科人才。