文章
4
标签
5
分类
1
首页
标签
分类
归档
关于
ttsmallHot的博客
Mem0
返回首页
搜索
首页
标签
分类
归档
关于
Mem0
发表于
2026-06-05
|
更新于
2026-06-05
|
论文精讲
|
总字数:
6
|
阅读时长:
1分钟
|
浏览量:
其实纵观Agent Memory
文章作者:
ttsmallHot
文章链接:
https://ttsmallhot.github.io/posts/f0ac7371.html
版权声明:
本博客所有文章除特别声明外,均采用
CC BY-NC-SA 4.0
许可协议。转载请注明来源
ttsmallHot的博客
!
agent
memory
上一篇
MemGPT
本文内容主要参考论文 [1] 1 背景与问题 LLM虽然革命性地改变了AI,但受限于固定长度的上下文窗口。如果简单拓展上下文长度,会因为Transformer 的自注意力机制导致与计算时间、内存呈二次方增长。所以memory机制就十分重要 2 MemGPT 系统设计 它主要是借鉴操作系统虚拟内存的概念: 操作系统通过"分页"在物理内存和硬盘之间交换数据,让应用程序以为有无限内存 是不是也可以 LLM 在有限的上下文窗口(内存)和外部存储(硬盘)之间自动"换页",营造出无限上下文的幻觉?具体的设计如下图: 2.1 Prompt组成 LLM 的Prompt被划分为三个连续区域: 区域 功能 系统指令(System Instructions) 包含规则。只读 工作上下文(Working Context) 存储关键事实、用户偏好、角色设定等结构化信息。可读写 FIFO 队列 FIFO 队列的第一个位置保存一个递归摘要,用于快速回顾已被逐出的旧消息, 其他位置滚动存储最近的消息历史,包括对话、系统警告、函数...
下一篇
Efficient LVLM Inference blog
本文内容主要参考综述 [1],该综述将 LVLM 的推理流程划分为三个阶段:编码(Encode)、预填充(Prefill) 和 解码(Decode),并围绕这三个阶段梳理了现有的高效推理技术。 1 第一阶段:编码(Encode) 核心目标:在源头减少视觉 Token 的数量,减轻下游负担。 1.1 架构优化 方向 思路 高效视觉编码器 改进 Encoder 架构本身 高效模态适配器 改进适配器架构(如 QFormer 相比 MLP 也是一种改良) 1.2 输入缩减 1.2.1 关键帧选择 主要针对视频,筛选最重要的帧。 1.2.2 自适应分辨率 根据样本的语义难度动态调整分辨率——简单图用低分辨率,复杂图用高分辨率。 1.2.3 编码端 Token 压缩 完全依赖图像固有的空间属性,不依赖文本提示或 LLM 权重 [1:1]。分为两种思路: 无视注意力:利用视觉区块天然的空间冗余,用简单的相似度指标合并或修剪冗余特征。 利用自注意力:直接利用视觉编码器内部的自注意力机制——如果编码器自己对某些特征没分配太多注意力,说明它们不重要,直接扔掉,保留高...
相关推荐
2026-06-05
MemGPT
本文内容主要参考论文 [1] 1 背景与问题 LLM虽然革命性地改变了AI,但受限于固定长度的上下文窗口。如果简单拓展上下文长度,会因为Transformer 的自注意力机制导致与计算时间、内存呈二次方增长。所以memory机制就十分重要 2 MemGPT 系统设计 它主要是借鉴操作系统虚拟内存的概念: 操作系统通过"分页"在物理内存和硬盘之间交换数据,让应用程序以为有无限内存 是不是也可以 LLM 在有限的上下文窗口(内存)和外部存储(硬盘)之间自动"换页",营造出无限上下文的幻觉?具体的设计如下图: 2.1 Prompt组成 LLM 的Prompt被划分为三个连续区域: 区域 功能 系统指令(System Instructions) 包含规则。只读 工作上下文(Working Context) 存储关键事实、用户偏好、角色设定等结构化信息。可读写 FIFO 队列 FIFO 队列的第一个位置保存一个递归摘要,用于快速回顾已被逐出的旧消息, 其他位置滚动存储最近的消息历史,包括对话、系统警告、函数...
ttsmallHot
聊聊技术
文章
4
标签
5
分类
1
关注我的github
公告
欢迎来到我的博客!
简
搜索
数据加载中