Peeling Back the Layers: Interpreting the Storytelling of ViT¶
使用了Instruct-Blip作为基础模型,包含一个40层的图像编码器(EVA-CLIP-ViT)和一个大模型作为文本解码器,逐层逐头分析了ViT的内部结构。借鉴该思路分析一下ViT-B/16。
使用了Instruct-Blip作为基础模型,包含一个40层的图像编码器(EVA-CLIP-ViT)和一个大模型作为文本解码器,逐层逐头分析了ViT的内部结构。借鉴该思路分析一下ViT-B/16。
评论