Efficient LVLM Inference blog
本文内容主要参考综述 [1],该综述将 LVLM 的推理流程划分为三个阶段:编码(Encode)、预填充(Prefill) 和 解码(Decode),并围绕这三个阶段梳理了现有的高效推理技术。 1 第一阶段:编码(Encode) 核心目标:在源头减少视觉 Token 的数量,减轻下游负担。 1.1 架构优化 方向 思路 高效视觉编码器 改进 Encoder 架构本身 高效模态适配器 改进适配器架构(如 QFormer 相比 MLP 也是一种改良) 1.2 输入缩减 1.2.1 关键帧选择 主要针对视频,筛选最重要的帧。 1.2.2 自适应分辨率 根据样本的语义难度动态调整分辨率——简单图用低分辨率,复杂图用高分辨率。 1.2.3 编码端 Token 压缩 完全依赖图像固有的空间属性,不依赖文本提示或 LLM 权重 [1:1]。分为两种思路: 无视注意力:利用视觉区块天然的空间冗余,用简单的相似度指标合并或修剪冗余特征。 利用自注意力:直接利用视觉编码器内部的自注意力机制——如果编码器自己对某些特征没分配太多注意力,说明它们不重要,直接扔掉,保留高...
Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick Start Create a new post 1$ hexo new "My New Post" More info: Writing Run server 1$ hexo server More info: Server Generate static files 1$ hexo generate More info: Generating Deploy to remote sites 1$ hexo deploy More info: Deployment


