ViT综述

发表于2025-11-16|更新于2026-03-01|AIVisionTransformer

|浏览量:

Peeling Back the Layers: Interpreting the Storytelling of ViT

MM 2024 ViT逐层解码：揭示图像理解过程

使用了Instruct-Blip作为基础模型，包含一个40层的图像编码器（EVA-CLIP-ViT）和一个大模型作为文本解码器，逐层逐头分析了ViT的内部结构。借鉴该思路分析一下ViT-B/16。

文章作者: Hongwei Zhao

文章链接: https://geeks-z.github.io/Blog/2025/11/16/AI/05.VisionTransformer/00.ViT%E7%BB%BC%E8%BF%B0/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog！

AI VisionTransformer

相关推荐

VIT全文翻译

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale0. 摘要虽然 Transformer 架构已成为自然语言处理任务的实际标准，但其在计算机视觉中的应用仍然有限。在视觉领域，注意力机制要么与卷积网络结合使用，要么用来替换卷积网络的某些部分，同时保持其整体结构不变。我们展示了这种对 CNNs 的依赖并非必要，直接应用于图像块序列的纯 Transformer 在图像分类任务上可以表现得非常好。当在大量数据上预训练并转移到多个中小规模的图像识别基准测试时（如 ImageNet、CIFAR-100、...

ViT模型列表

符号定义在论文的 Table1 中有给出三个模型（Base/ Large/ Huge）的参数 Model Patch Size Layers Hidden Size D MLP size Heads Params ViT-Base 16x16 12 768 3072 12 86M ViT-Large 16x16 24 1024 4096 16 307M ViT-Huge 14x14 32 1280 5120 16 632M Layers：指 Transformer Block 的层数。 Hidden Size D：指每个 token 的特征维...

0. 摘要参数效率微调（PEFT）已成为适应预训练ViT模型到下游应用的流行解决方案。虽然当前的 PEFT 方法实现了参数效率，但它们忽视了在微调和推理期间的计算和 GPU 内存效率，未能满足实际需求。在本文中，我们提出了 Sparse-Tuning，这是一种新颖的 PEFT 方法，它考虑了图像和视频中的信息冗余，以提高上述效率。通过稀疏保留语义相关令牌并合并无关令牌，Sparse-Tuning 最小化了每个层处理的令牌数量，从而导致计算和内存开销的二次减少。为了使我们的令牌稀疏化策略与微调目的适当对齐，我们进一步设计了密集适配器，建立从浅层到深层的密集连接。这些密集适配器集成了多级局部...

Vision Transformer 详解论文名称：An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale原论文对应源码：https://github.com/google-research/vision_transformerPyTorch 实现代码： pytorch_classification/vision_transformerTensorflow2 实现代码：tensorflow_classification/vision_transformer在 bilib...

ViT_four secrets

Vision transformer: To discover the “four secrets” of image patches0. 摘要视觉Transformer（ViT）在计算机视觉领域被广泛使用，在 ViT 中，有四个主要步骤，即“四个秘密”，如图像块划分、标记选择、位置编码添加和注意力计算，现有的关于计算机视觉中Transformer的研究主要集中在上述四个步骤上。因此，“如何划分图像块？”、“如何选择标记？”、“如何添加位置编码？”和“如何计算注意力？”对于提高 ViT 性能至关重要。但到目前为止，大多数综述文献都是从应用的角度进行总结的，没有相应的文献从技术角度全面总结...

Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation0. 摘要现有参数高效的微调（PEFT）方法在ViTs的适应性改进上取得了显著的成功，但在适应过程中提高推理效率的探索仍然不足。这限制了预训练 ViT 模型的更广泛应用，尤其是在模型计算密集的情况下。本文提出了一种新的方法 Dynamic Tuning（DyT），旨在提高 ViT 适应性的参数和推理效率。具体来说，除了使用轻量级适配器模块，我们还提出了一个令牌调度器来区分信息丰富的令牌和较不重要的令牌，允许后者动态跳过原始块，减少推理期间...