本文内容主要参考综述 [1],该综述将 LVLM 的推理流程划分为三个阶段:编码(Encode)预填充(Prefill)解码(Decode),并围绕这三个阶段梳理了现有的高效推理技术。


1 第一阶段:编码(Encode)

核心目标:在源头减少视觉 Token 的数量,减轻下游负担。

1.1 架构优化

方向 思路
高效视觉编码器 改进 Encoder 架构本身
高效模态适配器 改进适配器架构(如 QFormer 相比 MLP 也是一种改良)

1.2 输入缩减

1.2.1 关键帧选择

主要针对视频,筛选最重要的帧。

1.2.2 自适应分辨率

根据样本的语义难度动态调整分辨率——简单图用低分辨率,复杂图用高分辨率。

1.2.3 编码端 Token 压缩

完全依赖图像固有的空间属性,不依赖文本提示或 LLM 权重 [1:1]。分为两种思路:

  • 无视注意力:利用视觉区块天然的空间冗余,用简单的相似度指标合并或修剪冗余特征。
  • 利用自注意力:直接利用视觉编码器内部的自注意力机制——如果编码器自己对某些特征没分配太多注意力,说明它们不重要,直接扔掉,保留高价值 Token。

2 第二阶段:预填充(Prefill)

这一阶段发生在编码完成但尚未进入 LLM 深层之前,在 LLM 内部潜在空间里进行压缩。与编码端 Token 压缩类似,也分是否依赖注意力:

2.1 不依赖注意力

通过聚类算法或计算几何距离,把语义重复、长得像的 Token 合并掉。

2.2 依赖注意力

直接拿 LLM 内部的自注意力权重作参考,采用 Early-Exit 策略——在浅层就把注意力得分低的 Token 淘汰掉,节省后续几十层的计算量。


3 第三阶段:解码(Decode)

3.1 KV Cache 压缩

预填充阶段 VLM 压缩幅度相对较小,而解码阶段随着新文本逐步生成,VLM 关注的图像区域会进一步变化,因此 KV Cache 仍有进一步压缩的空间。

3.2 投机解码(Speculative Decoding)

自回归生成最大的瓶颈是"逐 token 串行输出"。投机解码的核心思路:先用一个小模型(草稿模型,Draft Model)快速"猜"出后面几个词,再交给大模型一次性批量验证

在 VLM 中的特殊挑战与应对:

挑战 解决方案
视觉上下文庞大,小模型也会变慢 训练 / 蒸馏对视觉处理特别快的轻量草稿模型
不改动模型本身 在小模型工作前大幅修剪视觉 Token,利用 LLM 的语言惯性猜词(如 SpecVLM)

验证机制的改进空间:当前验证要求 100% 匹配,过于死板。对于视觉描述任务,可以采用"语义感知的宽松验证"进一步提速。

3.3 高效推理

从减少生成词数量的角度提效:

  • 难度路由:简单图文问题直接给答案,复杂逻辑题展开深度推理链(走"慢车道")。
  • 置信度触发:只有当模型对初步答案缺乏信心时才触发扩展推理链(如 CAR)。
  • 步骤级优化(未来方向):不仅在整个问题级别做路由,还在推理链的步骤级别做优化——生成过程中动态修剪掉无用的思考步骤。

4 未来方向

4.1 混合压缩

LVLM 的高效推理在未来一定是多个方向的叠加,因为视觉大模型里不同组件对信息流失的敏感度是完全不同的,应该针对模型不同部分的敏感性来量身定制不同的操作。比如,有的地方用检索(Retrieval),有的地方用剪枝(Pruning),有的地方用量化(Quantization),如此压榨出极致的效率。

4.2 模态感知解码

主要是针对前面提到的投机解码说的idea, 即现在的很多加速策略还是在硬套NLP领域的通用启发式方法,这在多模态里是走不通的。
未来方向:必须解决两个核心缺失:

  • 视觉草稿对齐(Visual Draft Alignment):得想办法让轻量级的小模型也能扛得住密集的视觉上下文。
  • 宽松验证(Relaxed Verification):和上文的想法一样,即只要小助理猜的意思对,哪怕用词不一样,老板也直接给过。

4.3 向流媒体转变(The Streaming Pivot)

这条主要是针对视频的未来观点,即未来的真实应用场景(比如机器人、实时监控)全都是无限时长的流媒体视频,不可能让模型把几个小时的缓存全记住。作者希望未来从"全局整体处理"全面转向"渐进式状态管理",即未来需要为每个阶段量身定制优化方案:编码阶段搞流式的视觉内存管理(比如滑动窗口的frame管理),预填充阶段搞渐进式的 Token 压缩,解码阶段搞具备局部感知的 KV Cache 压缩(不让携带过多历史,而是只感知最近的)。

4.4 端到端系统协同设计

这段主要是说硬件了,就是必须走向软硬件协同设计(Hardware-Algorithm Co-design),让硬件发展更适配VLM推理


5 总结与感想

作者把MLLM高效推理分为以下三个阶段:

  • Encode:在源头砍掉冗余视觉 Token
  • Prefill:利用 LLM 内部注意力在浅层淘汰低价值 Token
  • Decode:KV Cache 压缩 + 投机解码打破串行 + 按需推理减少输出量
    未来方向方面,我觉得4.1是一个较容易做的方向,4.2更吃资源但是也可以做,4.3 4.4就更多是一个展望。

另外,文中提到了很多注意力相关的内容,尤其是在encode和decode阶段,都有说通过注意力来选择对应的token,但是 H2O[2]里提到了attention其实不能作为选择重要token的依据,但是MLLMs know where to look
[3]这篇论文又发现相对注意力其实聚焦于真正的图片内容上,而Seeing but not believing[4]这篇也发现LLM的浅层更关注于文字的语义,深层更关注于图片内容。总而言之,或许对于注意力是否能用在高效推理这个领域上,我们还可以多做研究。


  1. J. Zhang, Y. Ji, F. Ren, Y. Li, B. Zeng, Z. Chen, K. Chen, L. Shou, G. Chen, and H. Li, “Efficient Inference for Large Vision-Language Models: Bottlenecks, Techniques, and Prospects,” arXiv preprint arXiv:2604.05546, 2026. https://arxiv.org/abs/2604.05546 ↩︎ ↩︎

  2. Zhang Z, Sheng Y, Zhou T, et al. H2o: Heavy-hitter oracle for efficient generative inference of large language models[J]. Advances in Neural Information Processing Systems, 2023, 36: 34661-34710 ↩︎

  3. Khayatkhoei M, Chhikara P, Ilievski F. Mllms know where to look: Training-free perception of small visual details with multimodal llms[C]//International Conference on Learning Representations. 2025, 2025: 68194-68213. ↩︎

  4. Liu Z, Chen Z, Liu H, et al. Seeing but not believing: Probing the disconnect between visual attention and answer correctness in vlms[J]. arXiv preprint arXiv:2510.17771, 2025. ↩︎