目录

  • Peeling Back the Layers: Interpreting the Storytelling of ViT
返回博客列表

Untitled

2026-02-04 AINotes/05.VisionTransformer Hongwei Zhao

Peeling Back the Layers: Interpreting the Storytelling of ViT¶

MM 2024 ViT逐层解码:揭示图像理解过程

使用了Instruct-Blip作为基础模型,包含一个40层的图像编码器(EVA-CLIP-ViT)和一个大模型作为文本解码器,逐层逐头分析了ViT的内部结构。借鉴该思路分析一下ViT-B/16。

评论

© 2025 Hongwei Zhao. Built with ❤️