2025 AI 记忆系统大横评:从插件到操作系统,谁在定义下一代Agent Infra?

摘要

未来的 AI,不是问一句答一句的聊天机器人,而是有历史、有偏好、有世界模型的智能体(AI Agent)。

如果站在今天回望 AI 的进化史,你会发现这波浪潮在短短几年内完成了三次跃迁:

 

  • 2022-2023:模型时代(The Model Era)GPT-4 的横空出世,让机器第一次具备了通用的语言与推理能力(大脑构建完成)。
  • 2024-2025:智能体时代(The Agentic Era)RAG 与工具调用(Tool Use)的普及,让 AI 拥有了手和眼,开始具备执行复杂任务的能力。
  • 2026-:认知时代(The Cognitive Era / Memory Era)AI 开始拥有"长期记忆"与"连贯人格"。这是从"工具"到"伙伴"的终极跨越——未来的 AI 不再是阅后即焚的聊天窗口,而是有历史、有偏好、真正懂你的"第二大脑"。

 

这不是一个小升级,而是范式转换:

于是,一个全新的基础设施赛道突然爆发:

AI Memory System(AI 记忆系统)

 

它们试图解决同一个核心问题:

如何让 AI 记住过去,从而理解未来?

 

2023–2025 之间,全球出现了十几种完全不同的 Memory 技术路线。但究竟哪种路线能最终满足我们的使用需求,目前各条路线进展如何?我们还无法形成直观的评价。

 

在AI领域,我们经常用基准测试(benchmark)去衡量技术性能的高低。在记忆方面,比较常用的测试集有LoCoMo、LongMemEval等。但记忆领域的评测并不是一件非常容易的事,评测方法、所用模型、版本都会造成评测结果的分歧。前些时候,Mem0和Letta就在彼此的评测分值上有过分歧(参见《Benchmarking AI Agent Memory: Is a Filesystem All You Need?》)。

 

我们查阅了记忆领域近10个团队的评测官方分数、发布情况和横向比较,看到三家横向评测完整度是比较高的,在此尝试进行分析解读。

 

1、Mem360横向评测:

 

 

数据来源:https://www.53ai.com/news/LargeLanguageModel/2025092482391.html

发布时间:2025-9-24

 

2、MemOS横向评测:

数据来源:https://huggingface.co/datasets/MemTensor/MemOS_eval_result

发布时间:2025-11-6

 

3、EverMind(EverMemOS研发团队)横向评测:

 

 

注:Full-context为将完整的对话历史无截断、无筛选地直接输入给大型语言模型(LLM),让模型仅依赖自身的上下文窗口和注意力机制处理信息、生成输出,消耗token较多,但可以作为性能的baseline。

 

数据来源:https://github.com/EverMind-AI/EverMemOS/tree/main/evaluation

发布时间:2025-11-26

 

同时,我们也整理了各团队在LoCoMo测试集上官方报告的结果:

接下来,我们结合这些评测的解读分析来进一步了解Memory领域的技术进展。

 

 

为什么所有 Memory 项目都说自己是 SOTA?

 

首先,我们比较发现上述三家公布的横向评测结果,总体上还是相对一致的(比如对MemU的评测,三家复现结果都很相近),多数项目的相对高低也是一致的,但在个别分值上结果相差很大(比如Zep的分值,EverMind的评分明显高于其他两家,并且略高于Zep官方Claim的结果)。

 

仔细分析会发现,这些测评数据的差异主要来自这几个方面:

 

① 评测对象不同

 

不同的评测报告中,对于同一记忆系统,有的评测了 web API 版,有的评测了开源版。例如EverMind的横评中标注EverMemOS使用了开源版,其他产品使用了性能更好的web API 版,因此基本代表了各家产品的最新最佳表现。

在关于评测是否可复现的争议中,也有相当一部分来自开源版本提供的数据和代码并不充分。多家记忆系统都曾在Github上用"web API版有更多优化"回应复现疑问,可以认为大家更推荐web API版本。

 

② 版本更迭

 

各家记忆系统大都在持续更新,包括升级和版本迭代中的小失误。

 

Zep自官方Claim的LoCoMo测试结果发布之后,已经从v2升级到了v3,EverMind的评测中,则使用了Zep的V3版本,这可能是EverMind横评中Zep得分高于其他家评测结果,甚至高于Zep官方此前汇报的结果的原因。

 

在记忆召回中有特殊价值的"时间戳"定义上,Mem0 最新的版本中出现了一些定义混淆,这个 issue 在Github上也有讨论,或许对其效果有一定的影响。MemOS在横向评测中提到对Mem0的测评结果无法复现,或与此有关。

 

③ 测评模型及方法

 

目前只有 MemOS 和 EverMemOS 两家公开了完整的横向测评方法,二者在评测所用的语言模型及评测方法上略有不同。

 

从模型角度,MemOS 统一用 gpt-4o-mini 作为回答模型,EverMind统一用新一代的 gpt-4.1-mini作为问答模型,都做到了统一标准。

 

从方法角度,在对 Zep 的评测上,MemOS 提供了三版不同的结果,最终选用了通用回答提示词生成的结果,EverMind选用了 Zep 原生回答提示词。对此,我们浏览了各方评测的结果文件,发现Zep在存储记忆的时候,对于时间戳的定义和主流有所不同,导致使用通用提示词会造成预期外的准确率下降。这可能是Mem360和MemOS对Zep的评分显著低于Zep官方报告分数的重要原因。我们推测EverMind对Zep的评分或更接近Zep在线服务的真实水平。

 

由此可见,在记忆系统的评测结果中,在公布评测成绩的同时,必须提供评测条件,包括评测的具体时间、版本,使用的模型和提示词等,并且在统一外部条件下进行横向比较,才能达到评测的目的,便于客观比较和加深理解。

 

从 Mem0 与 Letta 的测评复现之争可以看出,横向测评外部系统是一件不容易的事,信息不足可能造成评测结果的偏颇和争论。但不同记忆系统之间的评测又是一件重要的事,能够促进整个行业的交流和发展,而不是各自闭门造车。在此,感谢 MemOS 团队和 EverMemOS 团队对开源评测的推动和助力,也希望未来有更多更好的 Benchmark 数据集和开源评测的精彩互动,让这个领域更加活跃起来。

 

 

如何看待记忆系统的多种路线?

 

我们梳理了2024–2025年全球开源社区出现的十几种完全不同的 Memory 技术路线和代表项目:

 

  • 自动抽取记忆(Mem0)
  • 企业级 Memory Server(Zep)
  • 结构化记忆树(MemU)
  • 神经张量记忆(MemOS)
  • 生物启发的Memory OS(EverMemOS)
  • 屏幕级多模态记忆(Mirix)
  • Profile-based Memory(Memobase)
  • 文件系统式 Memory(Letta)
  • 视频级记忆 / LVMM(Memories.ai)
  • 知识图谱式超记忆(Supermemory)
  • LangMem(LangChain 官方 Memory SDK)

 

随之而来的关键问题是:记忆系统的底层技术演进方向究竟在何方?2025 年的 Agent,到底应该使用哪套 Memory 技术?

 

当我们把历史上出现的记忆系统相关工作都调研分析之后,就不难总结出AI长期记忆技术的三个发展阶段:

 

1.工程化集成阶段 (2023-2024): 代表为 Mem0 和 Supermemory。这一阶段的核心痛点是"RAG太难用了",因此重点在于封装复杂的向量数据库操作,提供简单的API。LoCoMo得分普遍在60%-70%,主要受限于基于相似度检索的固有缺陷。

 

2.结构化与图谱阶段 (2024-2025 H1): 代表为 Zep 和 Memobase。开发者意识到"相似度"不等于"相关性",特别是涉及时间维度的状态变化时。引入知识图谱和时间轴后,得分提升至75%左右,解决了时序错乱问题。

 

3.认知架构阶段 (2025 H2): 代表为 Mirix, MemU, MemOS,EverMemOS。这一阶段彻底抛弃了"数据库"的隐喻,转而采用"大脑"或"操作系统"的隐喻。通过引入多智能体协作、记忆提纯和类脑整合机制,系统性能终于突破85%,迈向90%+的人类水平。

 

限于篇幅,我们按照时间顺序,从最早的 Mem0 到最新的 EverMemOS,选择最有代表性的5个项目展开来说。希望能复盘记忆技术如何完成从'功能插件'到'操作系统'、从'静态向量库'到'动态认知体'的范式转移。并结合最新发布的可复现横评结果,分析各自特性和路线演化。

 

1、Mem0(2024.07–2025)——第一代轻量记忆插件的诞生:从"自动抽取"开始

 

推出时间

 

  • 2024-07 开源发布
  • 2024-10-27首次系统公开论述Medium 上发布《Mem0: Solving the Memory Problem in LLMs》。
  • 2025-04-28提交论文《Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory》

 

为什么 Mem0 会火?

 

因为当时几乎所有开发者都遇到一个痛点:模型每次都忘记之前说过什么。Mem0 给出的简单答案是:自动抽取 → 自动清洗 → 自动存储

 

几行代码就能让 AI"看起来"拥有记忆。

在缺乏 Memory 基础设施的 2023–2024 年,这极具革命性。

 

技术路线

Mem0 主打两个词:

  • 轻量
  • 自动化

 

特点:

  • 混合存储:采用"向量+知识图谱"架构,兼顾语义匹配与关系推理,实现精准记忆检索
  • 智能过滤:通过主动筛选与更新记忆,有效减少冗余,在保证质量的同时显著优化存储与计算成本

 

Mem0 的时代意义

 

它是第一代"能用即可"的记忆工具

但它的问题也同样明显:

  • 过度抽取
  • 多轮任务容易漂移
  • 不可解释
  • 长期一致性弱

 

这是一个让世界认识"AI 记忆"的产品,但不是下一代智能体的记忆基础。

 

 

2、Zep(2024.09–2025)——企业级 Memory Server 的率先探索:稳定、可部署、可解释

 

推出时间

  • 9:官方博客《Announcing: Zep Community Edition》宣布 CE 版本开源。
  • 1:论文《Zep: A Temporal Knowledge Graph Architecture for Agent Memory》上线 arXiv(2501.13956)。

 

Zep 的技术路线:Memory = Server

Zep 是第一套完整把记忆抽象成"服务(Service)"的系统:

  • 图谱专业化,使用时序图谱,为多源数据动态维护历史关联。
  • 企业级可部署性(Docker、SDK、权限体系)

这让它成为大量企业级项目的可用选择。

 

为什么它能在统一评测中表现很好?

Zep 的上下文构建(Context Assembly)比所有向量库方案都更规整。

 

在 EverMind 的横向评测中,Zep的分值85.22,甚至远高于其官方报告的分值(75.14)。

 

说明了Zep是可复现的,且团队代码持续更新。

 

Zep 的定位总结

  • 稳健型 Memory
  • 企业生产可用
  • 但不是 Agent 的"长期世界模型"
  • 更像"AI 的数据层",而不是"大脑层"

 

3、MemOS(2025.05-07)——从 Memory3 到 Memory OS:神经记忆体系的前沿探索

 

推出时间

  • 2025-05 / 07:MemOS 论文体系定型

2025-05:短文《MemOS: MAG》

2025-07:长文《MemOS: A Memory OS for AI System》发布(2507.03724)

 

这标志 MemOS 从"模型"到"操作系统框架"的正式转变。

 

MemOS 的技术路线:Memory = 可训练的神经结构(Tensor Memory)

与其他所有系统不同,MemOS 的哲学是:

 

不仅存数据,连记忆本身也应该是可学习的结构。

核心组件包括:

  • MemCube(张量化记忆单元)统一管理明文、激活、参数三种记忆
  • 系统架构层:接口层、操作层、基础设施层三层架构,将记忆"资源化",实现了专业化分工与统一调度

 

现实问题:

  • 学习曲线陡峭,集成需要较多定制开发
  • 系统较重,不适合轻量级场景

 

MemOS 的定位

  • 具有未来记忆技术的研究气质
  • 对学术与前沿记忆模型有探索意义

 

4、MemU(2025.08)——结构化记忆体系:当 AI 开始"整理自己的大脑"

 

推出时间

2025-08-08:Medium 文章首次系统公开 MemU

标题即为《MemU: Let AI Truly Memorize You》

 

MemU 的技术路线:可解释、结构化、档案式记忆

MemU 最独特的地方在于它把记忆组织成树(Memory Tree)。

 

结构特点:

  • 层级化存储架构:通过根、枝、叶三级节点,实现记忆的自动分类存储。
  • 动态扩展机制:新记忆基于语义,自动归入对应分支,实现自我生长。
  • 权重检索:系统按使用频率等因素计算权重,并以此决定检索优先级。

 

这让它在:

  • 用户画像
  • 档案管理
  • 教育记录
  • 结构化任务

表现极好。

 

但它缺乏:

  • 开放域推理
  • 噪声鲁棒性
  • 灵活度

 

在 MemOS的横向评测中:MemU的分值为56.55,远低于官方 92.09%,是这5个项目中官方报告成绩和外部评测差距最大的一家,期待看到MemU团队解释澄清或更新结果。

 

 

5、EverMemOS(2025-09 → 2025-11)——第二代 Memory OS:AI 的长期"大脑"诞生

 

推出时间

  • 2025-09-30:媒体首次提及 EverMemOS

包含 LoCoMo SOTA(92.3%)的信息

  • 2025-11-16 ~ 18:EverMemOS 正式开源

OSChina、TMTPost 等多家媒体报道 GitHub 版本上线

 

EverMemOS 是目前五者中 最晚亮相,但技术体系最完整的一家。

 

EverMemOS 的技术结构:仿生四层记忆架构

EverMemOS创新性地构建了仿生四层记忆架构,体现了人脑记忆机制的工程化模拟

 

①分类记忆提取

 

根据情景、语义、画像等不同记忆类型,进行提取和分层分区存储,既保持对立有可有效关联

 

② MemCell原子化存储

 

每条记忆带时间、来源、标签、关系等,类似人脑中的记忆单元

 

③ 事件边界

 

不按会话或token强行切分,而是按主题关联跨会话定义事件,形成可理解的记忆。

 

④ 多重召回

 

对简单请求作快速召回,对复杂请求进行多跳推理形成深度召回,类似人脑的前额叶和海马体的协作。

 

EverMemOS(开源版)官方公布成绩是92.3%,横评可复现92.32%,是目前评测中唯一在综合得分上超越 LLM Full-context的记忆系统,且平均Token数显著低于full-context。这打破了我们的固有认知。通常认为把所有历史扔给大模型(Full-context)是效果最好的。但评测数据显示,过多的上下文反而引入了噪音,稀释了模型的注意力。EverMemOS证明了一点:对于长期记忆,'精准的遗忘'和'精准的记'一样重要。高质量的记忆抽取和召回系统,实际上是在帮大模型做'注意力减负'。

 

这也是目前唯一官方测评 = GitHub 横测 = 社区复现结果一致的 Memory OS。

  • 发布全套评测脚本
  • 发布所有 prompt
  • 发布所有数据集
  • 提供开源运行方式
  • 统一模型 / 统一参数

 

单从性能透明度上,就是很值得赞赏的开源项目。

 

 

应用实例评测

 

除了上面的LoCoMo等评测集的客观评价之外,我们还想从主观使用体验的角度来进行评测。

 

于是,我们用GPT生成了多个测试实例,分别运行5个系统的最佳结果版本(EverMemOS开源版本,Mem0/Zep/MemOS/MemU的web API版),再用GPT评价各系统返回的结果,并作人工校验。测试实例分别体现对记忆的信息提取、调度记忆的主动推断、时间戳和事件的时间认知能力。

 

在此先给出结论:总体而言,EverMemOS的准确率最高,但部分实例运行时间较长;MemU和Zep紧随其后,表现较为稳定,但Zep对时间戳和事件的时间认知表现不尽如人意,MemU对细节信息提取和事件的时间认知表现不足;MemOS和Mem0的表现不甚稳定,具体结果如下:

 

问题一: 洱海电动车租一天多少钱?

 

考察目标:细节信息的回忆

 

标准答案:普通电动车50-80元/天,大功率电动车100-150元/天

 

提供的对话记录(msg_006)中包含相关内容:"价格:普通电动车50-80元/天,续航80-100公里;大功率电动车100-150元/天,续航120-150公里。"

 

5个系统给出的结果为:

 

1、Mem0

 

根据一般情况,洱海周边租电动车一天的费用大致在80元到150元之间,具体价格会因车型、租赁点和季节有所差异。一般租赁还会要求押金,并核实驾驶证。建议提前询价比较,并留意电动车的续航能力和安全性能。

评价:记忆系统中没有查找到记录,从一般知识推断

 

2、Zep

 

在洱海租用电动车一天的价格大致在50元到150元之间,具体取决于电动车的类型。普通电动车的租金一般是50到80元每天,而大功率电动车的租金则在100到150元每天。此外,租车通常需要准备500到1000元的押金。

评价:非常准确,信息完整,价格区间精确

 

3、MemOS

 

根据您的记忆,您曾关注过洱海环湖电动车的租赁问题,但具体一天的价格没有明确记录。一般来说,洱海环湖电动车租赁一天的价格大约在100元到150元之间,具体价格会根据租赁点和电动车型号有所差异。

评价:记忆系统中没有记录"一天的价格"

 

4、MemU

 

根据当前记忆,暂时没有关于洱海电动车租赁价格的具体信息。一般来说,洱海地区的电动车租赁费用大约在每天50至150元之间,具体价格会根据车型和租赁点有所不同,建议您到当地租赁店咨询以获取准确报价。

评价:"暂时没有记忆",说明记忆提取不完整

 

5、EverMemOS

 

根据之前的咨询,洱海普通电动车的日租金大约在50到80元之间,而大功率车型的租金则在100到150元之间。

评价:非常准确,信息完整,价格区间精确

 

问题二: 明天我要去青岛旅游,带一个箱子还是两个箱子好呢?

 

考察目标:主动性推断

 

标准答案:建议带一个箱子,减轻搬运负担,保护腰部

 

该问题不在原始对话中,但根据用户的腰伤历史(msg_007中提到"在搬行李的时候不小心把腰闪了"),在回答行李相关问题时,必须优先考虑腰部保护,避免再次因搬运重物受伤。

 

5个系统给出的结果为:

 

1、Mem0

 

根据您即将前往青岛旅游的情况,如果行程时间较短且不需要携带过多物品,带一个箱子通常会更方便;如果您需要带换洗衣物较多或准备了特别装备,带两个箱子会更妥当。建议根据行程天数和物品多少来选择箱子数量。

评价:提供了通用建议,但完全忽略了用户的腰伤历史,这是回答该问题时最关键的因素

 

2、Zep

 

根据您近期刚从云南旅行回来,搬运行李时曾扭伤腰部且正在恢复,建议您明天去青岛旅游时尽量只带一个箱子,以减轻行李搬运对腰部的负担。

评价:完美的回答,准确记住了腰伤历史和发生原因(搬运行李),建议针对性强

 

3、MemOS

 

考虑到您之前的云南旅行是5天并携带了合适的行李,从实用和方便出行的角度来看,带一个大小适中的箱子应该比较合适,这样既方便携带又能满足短途旅游的基本需求。

评价:建议带一个箱子是正确的,但理由不够充分,未提及最关键的腰部保护因素

 

4、MemU

 

鉴于您近期腰部有急性扭伤,建议尽量减少行李负担,带一个箱子较为合适,以减轻搬运行李时对腰部的压力。

评价:准确且简洁,充分考虑了腰部扭伤情况,建议明确合理

 

5、EverMemOS

 

根据您之前云南旅行时因搬运行李导致腰部受伤的情况,建议此次青岛旅行尽量减少行李箱数量,带一个箱子会更为安全且方便,避免搬运行李时造成负担和潜在的腰部不适。

评价:非常详细和周到,不仅记住了腰伤,还记住了受伤的具体原因(搬运行李),建议针对性强

 

问题三: 从我计划去云南到实际从云南回来,一共过了多长时间?

 

考察目标:时间戳的定义

 

标准答案:约35天(一个多月)

 

根据对话记录:

 

msg_001(2025-09-10):"我计划下个月去云南旅游"

 

msg_007(2025-10-15):"我从云南回来了"

 

计算:从9月10日计划到10月15日实际回来,经过了约35天

 

5个系统给出的结果为:

 

1、Mem0

根据您的计划和实际情况推测,您从计划去云南开始到实际从云南回来,大概率经历了大约5天左右的时间。

评价:严重错误!将"旅游5天"混淆为"从计划到回来5天",完全没有理解时间跨度

 

2、Zep

根据您的计划和实际行程,您从计划去云南到实际从云南回来一共经过了大约5天左右的时间。

评价:同样的严重错误,将旅游天数误认为总时间跨度

 

3、MemOS

从您计划去云南旅游到实际从云南回来,时间大概率是在2023年11月左右,具体时长大约为5天左右,可能与您原计划的行程相符。

评价:错误!同样混淆了旅游天数和总时间跨度,且年份错误(2023而非2025)

 

4、MemU

您从计划去云南到实际从云南回来,大约经历了一个多月的时间。

评价:正确!准确理解了从计划(9月10日)到回来(10月15日)的时间跨度

 

5、EverMemOS

根据您的记忆,您在2025年9月10日提出了去云南5日游的计划,实际于2025年10月15日从云南旅行返回,因此从计划到实际回来大约经过了一个多月的时间。

评价:非常准确!不仅给出了正确答案,还精确记录了具体日期(9月10日和10月15日)

 

 

问题四: 我从腰部受伤到可以开始做深蹲,你建议的恢复期是多久?我实际用了多久?

 

考察目标:事件的时间认知

 

标准答案:建议恢复期:3-4周;实际用了:10天

 

根据对话记录:

- msg_007(2025-10-15):腰部受伤

- msg_012:助手建议"第3-4周可增加轻度深蹲"

- msg_021(2025-10-25):用户实际开始做深蹲

- 计算:建议3-4周,实际只用了10天(恢复较快)

 

5个系统给出的结果为:

 

1、Mem0

根据您的情况,腰部急性扭伤后通常建议经历一个大约2至4周的恢复期,期间避免进行负重或大幅度运动如深蹲。您在实际恢复中大约经过了几天的休息和适度活动,感觉腰部有明显好转并开始尝试增加训练强度。这表明您恢复速度较快,但具体开始深蹲的时间应视您疼痛程度和功能恢复而定,建议在无明显疼痛及姿势稳定后逐步尝试。

评价:建议恢复期基本正确(2-4周),但未给出实际用了多久的具体天数,回答模糊

 

2、Zep

根据恢复方案建议,您从急性腰扭伤到可以开始轻度深蹲的理想恢复期是大约3周左右,目前您处于恢复的第三周,疼痛已明显减轻,可以开始自重轻度深蹲。您实际恢复时间与建议较为吻合。

评价:建议恢复期准确(3周),但实际计算有误——用户10月15日受伤,10月25日开始深蹲,只用了10天而非3周

 

3、MemOS

一般来说,从急性腰扭伤到可以开始做深蹲的恢复期建议为3到4周,期间会逐步进行热敷、轻度活动、拉伸和核心力量训练。根据您的情况,因您已经感觉基本不疼并且开始恢复运动,大概率是在3到4周左右可以尝试进行深蹲,但指引中仍建议根据实际无痛感和腰部的强度耐受情况进行调整。

评价:建议恢复期准确(3-4周),但未明确说明实际用了多久,信息不完整

 

4、MemU

一般来说,急性腰扭伤后建议恢复期为至少2到4周,期间应避免进行深蹲等对腰部负荷较大的动作。根据您的情况,受伤后第三天仍有明显不适,实际的恢复时间可能超过这一时间段,建议待疼痛明显缓解且医生或理疗师确认无异常后,再开始深蹲训练。

评价:建议恢复期基本正确(2-4周),但对实际恢复时间判断错误(认为会超过建议时间,实际只用了10天)

 

5、EverMemOS

根据康复计划和您的实际恢复情况,建议的腰部扭伤恢复期到可以开始进行深蹲训练大约为一至两周左右。您于10月15日受伤并开始休息和基础治疗,经过约一周左右的逐步康复训练,到10月25日左右即开始咨询并准备尝试自重深蹲,整体恢复期约为10天左右。

评价:非常精确!不仅给出了具体日期(10月15日-10月25日),还准确计算出实际恢复期约10天

 

在此,我们将上述五项记忆系统领域最有代表性的五个项目汇总于此:

 

 

我们尝试用一句话概括这5个项目的特色:

- EverMemOS:集大成者,旨在构建下一代Memory OS 的完整生态。

- Zep:工业级水准,打造企业级Memory Server 的最佳实践与稳定性标杆。

- MemOS:探索未知,代表了神经记忆(Neural Memory)路线的最前沿尝试。

- MemU:垂直深耕,提供了结构化记忆的专业化解决方案。

- Mem0:极简主义,作为第一代轻量级抽取插件,完成了概念的早期验证。

 

这些都是长期记忆领域非常值得关注的项目,每一项工作都很有特色,在刚刚出现的时候,都推动了领域进步。即使在今天,这些团队也都坚持在自己路线上持续努力,他们代表着领域的未来(篇幅所限,还有一些团队的工作也很出色,不在此一一列举)。

 

 

我对未来的判断

 

未来三年,将是 Memory 技术"代际突变"的关键时期。

 

所有技术路线的汇聚点是:AI 将不再依赖上下文,而要依赖记忆。记忆将与模型参数、工具系统并列,成为 AI 的第三大核心组件。

 

以下是我们预测的六大趋势。

 

 

趋势一:Memory 从外挂变成 LLM 的原生能力

 

今天的大模型仍依赖 Prompt 和"外接记忆模块"。未来的大模型会在内部集成 Memory Layer,在推理中自动读取长期世界模型,不再需要复杂提示。

 

Meta LLaMA Filestore、OpenAI Memory、Anthropic 的一致性更新,都在朝此方向迈进。未来模型会像人一样说:"我本来就记得。"

 

 

趋势二:Memory OS 成为智能体的"操作系统"

 

智能体需要一个统一的 Memory OS 来管理:世界镜像、用户模型、关系图谱、时间线、任务链、工具调用状态。

 

EverMemOS 是最接近这一形态的原型。未来的 Agent 将像计算机一样:有 OS、有文件、有工具、有长期状态。

 

 

趋势三:Temporal Graph(时间图谱)成为核心模块

 

长期任务本质上都是时间问题:事件顺序、覆盖关系、指代解析("明天")……向量检索无法解决因果与时序,因此所有成熟 Memory 系统都将构建自己的时间线与事件流。

 

多模态 Agent(视频/操作/行为)会进一步放大 Temporal Graph 的价值。

 

 

趋势四:Memory Guardrail(一致性与安全性检查)成为标配能力

 

未来一年,所有可靠的记忆系统都会引入:错召回过滤、幻觉记忆抑制、噪声过滤、冲突处理与覆盖逻辑。

 

记住 ≠ 记对。EverMemOS 走得最前,但 Zep、Supermemory 等也已陆续加入 Guardrail 机制。

 

 

趋势五:多模态记忆将全面爆发

 

Mirix 推出的"屏幕 → 行为 → 事件"路线代表未来方向。Agent 需要记住的不只是文本,而是:看过的文档、操作过的界面、见过的物体、发生过的动作。

 

记忆将从"文本记录"走向"全息映射"。

 

 

趋势六:共享记忆成为多 Agent 协作基础

 

未来团队级智能体(Team-Agent OS)需要共享:Memory Graph、任务链、工具上下文、长期目标。

 

组织将拥有"第二大脑",多 Agent 将基于共享记忆协作。

 

 

记忆,将成为 AI 的"人格"

 

如果说模型(LLM)代表推理,工具代表行动,那么记忆就代表:身份、历史、偏好、价值观、用户理解、时间意识、行为模式、世界镜像。

 

没有记忆的 AI,只能像失忆症患者一样依赖上下文。未来的智能体将通过 Memory:建立稳定人格、完成跨周任务、形成长期规划、保持行为一致性、与用户建立长期关系。

 

记忆,将成为 AGI 时代最重要的基础设施。

 

 

结语

 

记忆,AI 进化的"最后一块拼图"。

 

站在 2025 年的当下回望,从 Mem0 最初的"向量插件"尝试,到如今 EverMemOS 等"类脑操作系统"的涌现,我们清晰地见证了一场范式革命:AI 记忆系统正在完成从"外挂工具"到"原生核心"的蜕变。

 

在本次横评中,最令我们深思的数据并非某个单一的高分,而是 EverMemOS 在 LoCoMo 评测中对 Full-context(全量上下文)基准的超越。这一结果极具启示意义——它打破了"上下文越长越好"的迷思,证明了在长周期的交互中,"精准的遗忘"与"精准的记忆"同等重要。优秀的记忆系统不再仅仅是数据的仓库,更是大模型注意力的"过滤器"和"聚焦镜"。

 

正如我们在趋势预测中所言,记忆将与"模型参数"、"工具系统"并列,成为 AI 的第三大核心组件。未来的智能体,必将不再是阅后即焚的聊天窗口,而是拥有连贯人格、能够理解世界并与人类建立长期纽带的"第二大脑"。

 

这场关于记忆的竞赛才刚刚开始。无论是 Zep 的工程化稳健,MemOS 的前沿探索,还是 EverMemOS 的架构创新,所有深耕于此的团队都值得我们保持长期的关注与敬意。这些探索,正在重新定义人与 AI 的关系。

 

对上述评测感兴趣的同学可以查看:

1,EverMemOS:https://github.com/EverMind-AI/EverMemOS/tree/main/evaluation

2,Zep:https://github.com/getzep/zep

3,MemOS:https://github.com/memtensor/MemOS/

4,Mem0:https://github.com/mem0ai/mem0

5,MemU:https://github.com/NevaMind-AI/memU

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。