Fuyu

Transformer一作Ashish Vaswani所在的AI公司Adept,发布了Fuyu-8B,是一个多模态模型的小版本,目前唯一一个以像素patch作为图像输入的多模态模型,利用这种方式实现了任意分辨率的无损input。

体验地址


介绍

在最新一代基础模型中,多模态模型通常共享一个共同的结构。它们通常包括一个独立的图像编码器,其输出通过交叉注意力机制或适配器集成到大型语言模型(LLM)中。这一模式已经得到广泛应用,如PALM-e、PALI-X、QWEN-VL、LLaVA 1.5和Flamingo等模型都采用了这种方式。这些模型通常以固定的图像分辨率进行操作。在推断过程中,超出此分辨率的图像必须被缩小,而具有不同宽高比的图像则需要进行填充或扭曲。

LLaVA-1.5:

在训练方面,许多其他多模态模型都经历了多步训练过程。图像编码器通常与LLM分开训练,通常使用对比训练目标,这可能很复杂。必须决定何时冻结各个组件的权重。有些模型甚至包括额外的高分辨率图像训练阶段,以确保能够处理高分辨率图像。

当决定如何按比例扩展这些模型的各个组件时,会面临一些挑战。例如,需要决定在编码器和解码器之间分配额外的参数,以及在训练过程中如何分配计算资源。然而,Adept提出的模型避开了这些复杂性。

模型架构

从架构上来看,Fuyu是一个简单的、仅包含解码器的Transformer,其规格与Persimmon-8B相同,没有专用的图像编码器。图像块被直接投影到Transformer的第一层,绕过了嵌入查找。这种方法将传统的Transformer解码器视为图像Transformer,尽管没有池化操作。

其能够支持任意图像分辨率。为了实现这一点,只需将图像标记序列视为文本标记序列即可。模型删除了特定于图像的位置嵌入,并按光栅扫描顺序输入所需数量的图像标记。为了告诉模型何时截断,我们只需使用一个特殊的图像换行符。该模型可以使用其现有的位置嵌入来推理不同的图像大小,并且我们可以在训练时使用任意大小的图像,从而无需单独的高分辨率和低分辨率训练阶段。

实验结果

VQAv2和OKVQA是自然图像问答数据集,COCO是字幕数据集,AI2D是涉及科学图表的多项选择数据集。

Eval Task Fuyu-8B Fuyu-Medium LLaVA 1.5 (13.5B) QWEN-VL (10B) PALI-X (55B) PALM-e-12B PALM-e-562B
VQAv2 74.2 77.4 80 79.5 86.1 76.2 80.0
OKVQA 60.6 63.1 n/a 58.6 66.1 55.5 66.1
COCO Captions 141 138 n/a n/a 149 135 138
AI2D 64.5 73.7 n/a 62.3 81.2 n/a n/a

问答基准缺陷

问答数据集存在很大缺陷——它们使用复杂的评分机制,要求您以特定格式进行回答,并且通常注释不正确。

考虑以下两个图像:

对于 OKVQA 数据集左侧的图像,当被问到“玩具熊正在演奏什么乐器?”时,模型回答“军鼓”——这显然是正确的!然而,它的得分为 0,因为所有参考答案都只是“鼓”。同样,对于右侧的 VQAv2 图像,当询问“图像中的食物类型是什么?”时,模型正确地回答“鱼,胡萝卜”,但它也得到 0 分,因为参考解决方案列表没有包含这些词。

文档理解

Fuyu 还可以理解文档——包括复杂的信息图表和旧的 PDF:

Question: “Which is the metro in California that has a good job Outlook?”

Fuyu’s answer: “Los Angeles”

Question: “What was the pack spinner capacity?”

Fuyu’s answer: “118 packs.”

图表理解

最后,该模型可以理解有关科学图表的复杂关系查询:

Question: “If in the food web shown in the diagram, Douglas fir tree needles are absent, which organism would starve?”

Fuyu’s answer: “Red tree vole”

  • Copyrights © 2019-2024 LJX
  • Visitors: | Views:

请我喝杯咖啡吧~

支付宝
微信