MemGPT
本文内容主要参考论文 [1] 1 背景与问题 LLM虽然革命性地改变了AI,但受限于固定长度的上下文窗口。如果简单拓展上下文长度,会因为Transformer 的自注意力机制导致与计算时间、内存呈二次方增长。所以memory机制就十分重要 2 MemGPT 系统设计 它主要是借鉴操作系统虚拟内存的概念: 操作系统通过"分页"在物理内存和硬盘之间交换数据,让应用程序以为有无限内存 是不是也可以 LLM 在有限的上下文窗口(内存)和外部存储(硬盘)之间自动"换页",营造出无限上下文的幻觉?具体的设计如下图: 2.1 Prompt组成 LLM 的Prompt被划分为三个连续区域: 区域 功能 系统指令(System Instructions) 包含规则。只读 工作上下文(Working Context) 存储关键事实、用户偏好、角色设定等结构化信息。可读写 FIFO 队列 FIFO 队列的第一个位置保存一个递归摘要,用于快速回顾已被逐出的旧消息, 其他位置滚动存储最近的消息历史,包括对话、系统警告、函数...
Mem0
其实纵观Agent Memory
Efficient LVLM Inference blog
本文内容主要参考综述 [1],该综述将 LVLM 的推理流程划分为三个阶段:编码(Encode)、预填充(Prefill) 和 解码(Decode),并围绕这三个阶段梳理了现有的高效推理技术。 1 第一阶段:编码(Encode) 核心目标:在源头减少视觉 Token 的数量,减轻下游负担。 1.1 架构优化 方向 思路 高效视觉编码器 改进 Encoder 架构本身 高效模态适配器 改进适配器架构(如 QFormer 相比 MLP 也是一种改良) 1.2 输入缩减 1.2.1 关键帧选择 主要针对视频,筛选最重要的帧。 1.2.2 自适应分辨率 根据样本的语义难度动态调整分辨率——简单图用低分辨率,复杂图用高分辨率。 1.2.3 编码端 Token 压缩 完全依赖图像固有的空间属性,不依赖文本提示或 LLM 权重 [1:1]。分为两种思路: 无视注意力:利用视觉区块天然的空间冗余,用简单的相似度指标合并或修剪冗余特征。 利用自注意力:直接利用视觉编码器内部的自注意力机制——如果编码器自己对某些特征没分配太多注意力,说明它们不重要,直接扔掉,保留高...
Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick Start Create a new post 1$ hexo new "My New Post" More info: Writing Run server 1$ hexo server More info: Server Generate static files 1$ hexo generate More info: Generating Deploy to remote sites 1$ hexo deploy More info: Deployment




