FastVLM - 苹果公司全新发布的高效视觉语言模型引领技术革新

FastVLM是什么

FastVLM是苹果推出的高效的视觉语言模型(VLM),能提升高分辨率图像处理的效率和性能。模型引入FastViTHD新型混合视觉编码器,有效减少视觉token数量,显著降低编码时间。FastVLM在保持与现有VLM相似性能的同时,大幅提升处理速度,例如在LLaVA-1.5设置中,相比其他模型,将首次生成token的时间(TTFT)缩短3.2倍。FastVLM在多种VLM基准测试中表现出色,且模型尺寸更小,训练数据需求更少,展现在多模态理解任务中的高效性和实用性。

FastVLM

FastVLM的主要功能

  • 高效编码高分辨率图像:支持快速将高分辨率图像转化为视觉token,减少编码时间和token数量。
  • 提升VLM性能:在大幅缩短时间,首次token(TTFT),保持与现有先进模型相当的性能。
  • 简化模型设计:无需额外的token修剪步骤,简化视觉编码器的设计。

FastVLM的技术原理

  • 混合视觉编码器FastViTHD:FastViTHD是FastVLM的核心组件。与传统的纯卷积编码器或纯Transformer编码器(如ViT)相比,结合卷积层和Transformer块的优点。卷积层能有效地处理高分辨率图像,基于下采样操作减少token数量。Transformer块能进一步提取高质量的视觉特征,为LLM提供更准确的视觉信息。FastViTHD架构包含多个阶段,每个阶段都有特定的深度和嵌入维度。例如,其深度设置为[2,12,24,4,2],嵌入维度为[96,192,384,768,1536]。
  • 优化的架构设计:FastVLM在架构设计上进行优化,实现高分辨率图像处理的高效性。与简单地扩展FastViT架构不同,FastVLM引入一个额外的阶段,额外阶段在自注意力层之前进行下采样。自注意力层只需要处理已经被下采样过的张量,减少计算量。例如,在典型的混合模型中,自注意力层处理的张量在每个方向上被下采样16倍,在FastVLM中,最宽的MLP层处理的输入张量在每个方向上被下采样64倍,显著降低视觉编码延迟。
  • 与LLM的协同工作:FastVLM将视觉编码器与LLM基于投影层(也称为连接器模块)连接起来。视觉编码器输出的视觉token基于连接器模块被转换为适合LLM处理的格式。LLM用视觉token和文本输入进行融合理解,生成相应的输出。协同工作方式让视觉信息能有效地融入语言生成过程中,实现视觉语言模型的功能。

FastVLM的项目地址

  • GitHub仓库:https://github.com/apple/ml-fastvlm
  • arXiv技术论文:https://www.arxiv.org/pdf/2412.13303

FastVLM的应用场景

  • 视觉问答:快速理解图像并回答相关问题。
  • 图文匹配:判断图像与文本描述是否一致。
  • 文档理解:解析图像中的文字内容并理解其含义。
  • 图像描述生成:为图像自动生成描述性文本。
  • 多模态推荐:结合图像和文本信息进行精准推荐。

发表评论