Hongwei Zhao's Blog

发表于2025-11-16|AIVisionTransformer

ViT 微调时position embedding如何插值（interpolate）【源码解析】 Author: [好耶] Link: [https://zhuanlan.zhihu.com/p/592580783] 1. 问题描述本文适合对Vision Transformer有一定了解（知道内部结构和一些实现细节，最好是精读过ViT这篇论文）的读者阅读，这篇博客不会详细说明ViT的结构和前向推断过程。符号含义 b batch size N patch size H W 低分辨率图像的高和宽 H’ W’ 高分辨率图像的高和宽 So 低分辨率图像的sequ...

DyT

发表于2025-11-16|AIVisionTransformer

Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation0. 摘要现有参数高效的微调（PEFT）方法在ViTs的适应性改进上取得了显著的成功，但在适应过程中提高推理效率的探索仍然不足。这限制了预训练 ViT 模型的更广泛应用，尤其是在模型计算密集的情况下。本文提出了一种新的方法 Dynamic Tuning（DyT），旨在提高 ViT 适应性的参数和推理效率。具体来说，除了使用轻量级适配器模块，我们还提出了一个令牌调度器来区分信息丰富的令牌和较不重要的令牌，允许后者动态跳过原始块，减少推理期间...

Sparse-Tuning

发表于2025-11-16|AIVisionTransformer

0. 摘要参数效率微调（PEFT）已成为适应预训练ViT模型到下游应用的流行解决方案。虽然当前的 PEFT 方法实现了参数效率，但它们忽视了在微调和推理期间的计算和 GPU 内存效率，未能满足实际需求。在本文中，我们提出了 Sparse-Tuning，这是一种新颖的 PEFT 方法，它考虑了图像和视频中的信息冗余，以提高上述效率。通过稀疏保留语义相关令牌并合并无关令牌，Sparse-Tuning 最小化了每个层处理的令牌数量，从而导致计算和内存开销的二次减少。为了使我们的令牌稀疏化策略与微调目的适当对齐，我们进一步设计了密集适配器，建立从浅层到深层的密集连接。这些密集适配器集成了多级局部...

ViT_four secrets

发表于2025-11-16|AIVisionTransformer

Vision transformer: To discover the “four secrets” of image patches0. 摘要视觉Transformer（ViT）在计算机视觉领域被广泛使用，在 ViT 中，有四个主要步骤，即“四个秘密”，如图像块划分、标记选择、位置编码添加和注意力计算，现有的关于计算机视觉中Transformer的研究主要集中在上述四个步骤上。因此，“如何划分图像块？”、“如何选择标记？”、“如何添加位置编码？”和“如何计算注意力？”对于提高 ViT 性能至关重要。但到目前为止，大多数综述文献都是从应用的角度进行总结的，没有相应的文献从技术角度全面总结...

DDPM

发表于2025-11-16|AI扩散模型

生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼说到生成模型，VAE、GAN可谓是“如雷贯耳”，本站也有过多次分享。此外，还有一些比较小众的选择，如flow模型、VQ-VAE等，也颇有人气，尤其是VQ-VAE及其变体VQ-GAN，近期已经逐渐发展到“图像的Tokenizer”的地位，用来直接调用NLP的各种预训练方法。除了这些之外，还有一个本来更小众的选择——扩散模型（Diffusion Models）——正在生成模型领域“异军突起”，当前最先进的两个文本生成图像——OpenAI的**DALL·E 2和Google的Imagen**，都是基于扩散模型来完成的。 ...

VAE

发表于2025-11-16|AI扩散模型

说起生成模型，大家最容易想到的就是GAN，GAN是通过对抗训练实现的一种隐式生成模型。虽然GAN很强大，但其实还有很多与GAN不同的生成模型，最常见的就是基于最大化似然的模型，变分自动编码器（Variational Autoencoder，VAE）就属于这种类型。自动编码器（Autoencoder，AE）再讲VAE之前，有必要先简单介绍一下自动编码器AE，自动编码器是一种无监督学习方法，它的原理很简单：先将高维的原始数据映射到一个低维特征空间，然后从低维特征学习重建原始的数据。一个AE模型包含两部分网络： Encoder：将原始的高维数据映射到低维特征空间，这个特征维度一般比原始数据...

DDIM

发表于2025-11-16|AI扩散模型

扩散模型之DDIM Author: [小小将] Link: [https://zhuanlan.zhihu.com/p/565698027] “What I cannot create, I do not understand.” – Richard Feynman 上一篇文章https://zhuanlan.zhihu.com/p/563661713介绍了经典扩散模型DDPM的原理和实现，对于扩散模型来说，一个最大的缺点是需要设置较长的扩散步数才能得到好的效果，这导致了生成样本的速度较慢，比如扩散步数为1000的话，那么生成一个样本就要模型推理1000次。这篇文章我们将介绍另外一...

StableDiffusion

发表于2025-11-16|AI扩散模型

Author: [Hao Bai] Link: [https://www.zhihu.com/question/536012286/answer/2671001607] 泻药。实验室最近人人都在做扩散，从连续到离散，从CV到NLP，基本上都被diffusion洗了一遍。但是观察发现，里面的数学基础并不是模型应用的必须。其实大部分的研究者都不需要理解扩散模型的数学本质，更需要的是对扩散模型的原理的经验化理解，从而应用到research里面去。笔者做VAE和diffussion也有一段时间了，就在这里通俗地解释一下diffusion的来龙去脉。 Variational AutoEncod...

扩散模型和最优传输

发表于2025-11-16|AI扩散模型

扩散模型 vs. 最优传输 References《Understanding DDPM Latent Codes Through Optimal Transport》《 THE FLOW MAP OF THE FOKKER-PLANCK EQUATION DOES NOT PROVIDE OPTIMAL TRANSPORT 》《A generalization of Caffarelli’s contraction theorem via (reverse) heat flow》《 Diffusion models and Optimal Transport 》 1. 最优传输最优...

基于架构方法的嵌入对比

发表于2025-11-16|AI计算机视觉

图像相似性搜索比较：EfficientNet vs. ViT vs. DINO-v2 vs. CLIP vs. BLIP-2 在本文中，我将使用Flickr数据集[6]比较EfficientNet[1]、ViT[2]、DINO-v2[3]、CLIP[4]和BLIP-2[5]的视觉嵌入在图像相似性搜索中的表现。我将主要使用Huggingface和Faiss库进行实现。首先，我将简要介绍每个深度学习模型。接下来，我将展示代码实现和比较结果。 EfficientNet、ViT、DINO-v2、CLIP和BLIP-2的简要介绍在本节中，我将介绍用于实验的几个深度学习模型。请注意，我将使用“嵌...

Pre-Trained Models-Past Present and Future

发表于2025-11-16|AIPTM

利用深度学习自动学习特征已经逐步取代了人工构建特征和统计方法。但其中一个关键问题是需要大量的数据，否则会因为参数过多过拟合。但是这个成本非常高昂，因此长久以来，我们都在研究一个关键问题：如何在有限数据下训练高效的深度学习模型？一个重要的里程碑是转移学习——受人类启发，不是从大量数据中从头开始学习，而是利用少量样例来解决问题。转移学习有两个阶段：预训练+微调，微调阶段就是转移预训练阶段学到的知识到特定任务上。这一方法首先在计算机视觉（CV）领域取得成功，这是对预训练模型（PTMs）的第一波探索浪潮。自然语言处理（NLP）领域采用了自监督学习进行预训练，其动机是利用文本内在关联作为监督信...

PFM

发表于2025-11-16|AIPTM

Kimi全文翻译 :arrow_down:0. 摘要预训练基础模型（Pretrained Foundation Models, PFMs）被视为不同数据模态的各种下游任务的基础。PFM（例如，BERT、ChatGPT 和 GPT-4）是在大规模数据上训练的，为广泛的下游应用提供了合理的参数初始化。与早期使用卷积和循环模块提取特征的方法不同，BERT 学习了 Transformer 的双向编码器表示，这些是在大型数据集上作为上下文语言模型训练的。同样，生成预训练Transformer（Generative Pretrained Transformer, GPT）方法采用 Transform...