Fuyu

2024-02-26

Word count: 1.1k | Reading time≈ 4 min

Transformer一作Ashish Vaswani所在的AI公司Adept，发布了Fuyu-8B，是一个多模态模型的小版本，目前唯一一个以像素patch作为图像输入的多模态模型，利用这种方式实现了任意分辨率的无损input。

介绍

在最新一代基础模型中，多模态模型通常共享一个共同的结构。它们通常包括一个独立的图像编码器，其输出通过交叉注意力机制或适配器集成到大型语言模型（LLM）中。这一模式已经得到广泛应用，如PALM-e、PALI-X、QWEN-VL、LLaVA 1.5和Flamingo等模型都采用了这种方式。这些模型通常以固定的图像分辨率进行操作。在推断过程中，超出此分辨率的图像必须被缩小，而具有不同宽高比的图像则需要进行填充或扭曲。

LLaVA-1.5:

在训练方面，许多其他多模态模型都经历了多步训练过程。图像编码器通常与LLM分开训练，通常使用对比训练目标，这可能很复杂。必须决定何时冻结各个组件的权重。有些模型甚至包括额外的高分辨率图像训练阶段，以确保能够处理高分辨率图像。

当决定如何按比例扩展这些模型的各个组件时，会面临一些挑战。例如，需要决定在编码器和解码器之间分配额外的参数，以及在训练过程中如何分配计算资源。然而，Adept提出的模型避开了这些复杂性。

模型架构

从架构上来看，Fuyu是一个简单的、仅包含解码器的Transformer，其规格与Persimmon-8B相同，没有专用的图像编码器。图像块被直接投影到Transformer的第一层，绕过了嵌入查找。这种方法将传统的Transformer解码器视为图像Transformer，尽管没有池化操作。

其能够支持任意图像分辨率。为了实现这一点，只需将图像标记序列视为文本标记序列即可。模型删除了特定于图像的位置嵌入，并按光栅扫描顺序输入所需数量的图像标记。为了告诉模型何时截断，我们只需使用一个特殊的图像换行符。该模型可以使用其现有的位置嵌入来推理不同的图像大小，并且我们可以在训练时使用任意大小的图像，从而无需单独的高分辨率和低分辨率训练阶段。

实验结果

VQAv2和OKVQA是自然图像问答数据集，COCO是字幕数据集，AI2D是涉及科学图表的多项选择数据集。

Eval Task	Fuyu-8B	Fuyu-Medium	LLaVA 1.5 (13.5B)	QWEN-VL (10B)	PALI-X (55B)	PALM-e-12B	PALM-e-562B
VQAv2	74.2	77.4	80	79.5	86.1	76.2	80.0
OKVQA	60.6	63.1	n/a	58.6	66.1	55.5	66.1
COCO Captions	141	138	n/a	n/a	149	135	138
AI2D	64.5	73.7	n/a	62.3	81.2	n/a	n/a

问答基准缺陷

问答数据集存在很大缺陷——它们使用复杂的评分机制，要求您以特定格式进行回答，并且通常注释不正确。

考虑以下两个图像：

对于 OKVQA 数据集左侧的图像，当被问到“玩具熊正在演奏什么乐器？”时，模型回答“军鼓”——这显然是正确的！然而，它的得分为 0，因为所有参考答案都只是“鼓”。同样，对于右侧的 VQAv2 图像，当询问“图像中的食物类型是什么？”时，模型正确地回答“鱼，胡萝卜”，但它也得到 0 分，因为参考解决方案列表没有包含这些词。

文档理解

Fuyu 还可以理解文档——包括复杂的信息图表和旧的 PDF：

Question: “Which is the metro in California that has a good job Outlook?”

Fuyu’s answer: “Los Angeles”

Question: “What was the pack spinner capacity?”

Fuyu’s answer: “118 packs.”

图表理解

最后，该模型可以理解有关科学图表的复杂关系查询：

Question: “If in the food web shown in the diagram, Douglas fir tree needles are absent, which organism would starve?”

Fuyu’s answer: “Red tree vole”