【高清解码详解】MiniCPM-Llama3-V 2.5

用户309

用户6987

2024年10月9日修改

💡

b站配套视频：https://www.bilibili.com/video/BV1tS42197NL/?spm_id_from=333.337.search-card.all.click&vd_source=1534be4f756204643265d5f6aaa38c7b

模型地址：https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

github:https://github.com/OpenBMB/MiniCPM-V/tree/main

llava_uhd论文：https://arxiv.org/abs/2403.11703

一、vit的图像输入

自从bert的大火之后，transformer架构一直被图像领域所关注，因此出现了vision transformer(vit)​

https://en.wikipedia.org/wiki/File:Vision_Transformer.gif

common.docs_name - LarkCCM_Docs_Menu_Image

输入图片大小为224x224，将图片分为固定大小的patch，patch大小为16x16，则每张图像会生成224x224/16x16=196个patch，即输入序列长度为196，每个patch维度16x16x3=768，线性投射层的维度为768xN (N=768)，因此输入通过线性投射层之后的维度依然为196x768，即一共有196个token，每个token的维度是768。这里还需要加上一个特殊字符cls，因此最终的维度是197x768。到目前为止，已经通过patch embedding将一个视觉问题转化为了一个seq2seq问题。​

二、图片分辨率和预训练不一致咋办

以上vit的例子是用了224*224的分辨率作为输入，当模型一旦确定，输入分辨率便也确定不可改变。​

1.
图像缩放​

此时输入图像可以进行插值处理，从而将图像缩放为224*224(目标值），这是目前vit一般做法，但是图像缩放后可能存在一些问题，左图中的椭圆缩放后可能获得一个正圆，这很明显和原始的图像具有不同的信息。​

2.
padding​

学过卷积的小伙伴都知道，图像尺寸不合适的时候还可以padding。​

那把图片 padding到vit预训练的模型尺寸(比如448*448)行不行呢，这样图片是不是保留了原来的高宽比呢。（如下方右图就是一个补全图)​

padding的弊端：

1.
计算效率：padding部分是人为添加的，这也就表明了这一部分越多，计算效率越低​

2.
正确率：实验表明，随着padding部分加入增多，将会导致多模态模型的正确率降低​

3.
重叠切分​

如上图的切分方法，便可以将一个长方形输入的图片切分成红色和黑色两个有重叠部分正方形输入预训练模型。​

但是这样仍有问题：

【高清解码详解】MiniCPM-Llama3-V 2.5​

【高清解码详解】MiniCPM-Llama3-V 2.5