ViT模型列表

发表于2025-11-16|更新于2026-03-01|AIVisionTransformer

|浏览量:

符号定义

在论文的 Table1 中有给出三个模型（Base/ Large/ Huge）的参数

Model	Patch Size	Layers	Hidden Size D	MLP size	Heads	Params
ViT-Base	16x16	12	768	3072	12	86M
ViT-Large	16x16	24	1024	4096	16	307M
ViT-Huge	14x14	32	1280	5120	16	632M

Layers：指 Transformer Block 的层数。
Hidden Size D：指每个 token 的特征维度（embedding dim）。
MLP Size：计算为 Hidden Size D × mlp_ratio，默认 mlp_ratio=4，表示 MLP 部分的隐层维度。
Heads：多头自注意力中并行头的数量。
Params：是模型大致参数量，具体数字可能因实现细节或是否包含额外模块（如在 SAM 中）而不同。

在论文及实际使用中，我们常用ViT-size/patch_size的形式来表示该模型是在“什么规模”及“多大的 patch 尺寸”上预训练出来的。例如ViT-H/14就表示该模型是在 Huge 规模上，用 patch 尺寸为 14 的数据做预训练的。

常见模型

Model	Pre-Trained Dataset	Finetuned Dataset	Patch Size	Layers	Hidden Size D	MLP size	Heads	Params	timm
ViT-B/16-IN1K	ImageNet21K	ImageNet1K	16×16	12	768	3072	12	~86M	timm.create_model(‘vit_base_patch16_224’, pretrained=True)
ViT-B/16-IN21K	ImageNet21K	-	16×16	12	768	3072	12	~86M	timm.create_model(‘vit_base_patch16_224_in21k’, pretrained=True)
ViT-L/16-IN1K	ImageNet21K	ImageNet1K	16×16	24	1024	4096	16	~304M
ViT-B/16-DINO	ImageNet	-	16×16	12	768	3072	12	~86M
ViT-B/16-SAM	SA-1B (Segment Anything 1B)	-	16×16	12	768	3072	12	~632M (整套 SAM)
ViT-B/16-MAE	ImageNet21K	-	16×16	12	768	3072	12	~86M
ViT-B/16-CLIP	OpenAI CLIP（约4亿图文对）	-	16×16	12	768	3072	12	~86M (视觉编码器)

IN1K / IN21K 分别指在 ImageNet-1K（约 100 万张图）或 ImageNet-21K（约 1400 万张图、2 万类）上进行预训练。
DINO 为自监督蒸馏方法，在 ImageNet-1K 上训练。
SAM 则是 Segment Anything 的大规模 10 亿图像数据集（SA-1B）进行预训练，完整的 Segment Anything 模型会比标准 ViT-B/16 参数更多（大约 632M）。
MAE（Masked Autoencoder）是图像自监督掩码预训练方法，通常也是在 ImageNet-1K 上进行预训练。
CLIP 是 OpenAI 训练的图文对数据（约 4 亿对），其中视觉编码器部分本质上也是一个 ViT-B/16。

文章作者: Hongwei Zhao

文章链接: https://geeks-z.github.io/Blog/2025/11/16/AI/05.VisionTransformer/03.ViT%E6%A8%A1%E5%9E%8B%E5%88%97%E8%A1%A8/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog！

AI VisionTransformer

相关推荐

0. 摘要参数效率微调（PEFT）已成为适应预训练ViT模型到下游应用的流行解决方案。虽然当前的 PEFT 方法实现了参数效率，但它们忽视了在微调和推理期间的计算和 GPU 内存效率，未能满足实际需求。在本文中，我们提出了 Sparse-Tuning，这是一种新颖的 PEFT 方法，它考虑了图像和视频中的信息冗余，以提高上述效率。通过稀疏保留语义相关令牌并合并无关令牌，Sparse-Tuning 最小化了每个层处理的令牌数量，从而导致计算和内存开销的二次减少。为了使我们的令牌稀疏化策略与微调目的适当对齐，我们进一步设计了密集适配器，建立从浅层到深层的密集连接。这些密集适配器集成了多级局部...

Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation0. 摘要现有参数高效的微调（PEFT）方法在ViTs的适应性改进上取得了显著的成功，但在适应过程中提高推理效率的探索仍然不足。这限制了预训练 ViT 模型的更广泛应用，尤其是在模型计算密集的情况下。本文提出了一种新的方法 Dynamic Tuning（DyT），旨在提高 ViT 适应性的参数和推理效率。具体来说，除了使用轻量级适配器模块，我们还提出了一个令牌调度器来区分信息丰富的令牌和较不重要的令牌，允许后者动态跳过原始块，减少推理期间...

Vision Transformer 详解论文名称：An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale原论文对应源码：https://github.com/google-research/vision_transformerPyTorch 实现代码： pytorch_classification/vision_transformerTensorflow2 实现代码：tensorflow_classification/vision_transformer在 bilib...

Peeling Back the Layers: Interpreting the Storytelling of ViT MM 2024 ViT逐层解码：揭示图像理解过程使用了Instruct-Blip作为基础模型，包含一个40层的图像编码器（EVA-CLIP-ViT）和一个大模型作为文本解码器，逐层逐头分析了ViT的内部结构。借鉴该思路分析一下ViT-B/16。

VIT全文翻译

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale0. 摘要虽然 Transformer 架构已成为自然语言处理任务的实际标准，但其在计算机视觉中的应用仍然有限。在视觉领域，注意力机制要么与卷积网络结合使用，要么用来替换卷积网络的某些部分，同时保持其整体结构不变。我们展示了这种对 CNNs 的依赖并非必要，直接应用于图像块序列的纯 Transformer 在图像分类任务上可以表现得非常好。当在大量数据上预训练并转移到多个中小规模的图像识别基准测试时（如 ImageNet、CIFAR-100、...

ViT微调时position_embedding插值

ViT 微调时position embedding如何插值（interpolate）【源码解析】 Author: [好耶] Link: [https://zhuanlan.zhihu.com/p/592580783] 1. 问题描述本文适合对Vision Transformer有一定了解（知道内部结构和一些实现细节，最好是精读过ViT这篇论文）的读者阅读，这篇博客不会详细说明ViT的结构和前向推断过程。符号含义 b batch size N patch size H W 低分辨率图像的高和宽 H’ W’ 高分辨率图像的高和宽 So 低分辨率图像的sequ...