Hongwei Zhao's Blog

发表于2025-11-16|AITransformer

多层Transformer在多层Transformer中，多层编码器先对输入序列进行编码，然后得到最后一个Encoder的输出Memory；解码器先通过Masked Multi-Head Attention对输入序列进行编码，然后将输出结果同Memory通过Encoder-Decoder Attention后得到第1层解码器的输出；接着再将第1层Decoder的输出通过Masked Multi-Head Attention进行编码，最后再将编码后的结果同Memory通过Encoder-Decoder Attention后得到第2层解码器的输出，以此类推得到最后一个Decoder的输出。 ...

Transformer模型的参数量与计算量

发表于2025-11-16|AITransformer

1. 前言最近，OpenAI推出的ChatGPT展现出了卓越的性能，引发了大规模语言模型(Large Language Model, LLM)的研究热潮。大规模语言模型的“大”体现在两个方面：模型参数规模大，训练数据规模大。以GPT3为例，GPT3的参数量为1750亿，训练数据量达到了570GB。进而，训练大规模语言模型面临两个主要挑战：显存效率和计算效率。现在业界的大语言模型都是基于transformer模型的，模型结构主要有两大类：encoder-decoder（代表模型是T5）和decoder-only，具体的，decoder-only结构又可以分为Causal LM（代表模型是...

Self-Attention Q K V的原理

发表于2025-11-16|AITransformer

文章来源：为什么Self-Attention要通过线性变换计算Q K V，背后的原理或直观解释是什么？ “线性变换”是机器学习中针对数据常用的变换方式，通过线性变换可以将数据进行降维、解耦、筛选精炼等操作。而 Transformer 中的“线性变换”有着十分独特且重要的意义，它是导致 Multi-Head Attention 机制得以成功运行的根基。但是要彻底了解 Transformer 中独特的“线性变换”机制，你首先要彻底理解 Q、K、V 三矩阵与生成它们的三个线性变换矩阵 $W^{Q}$ ，$W^{K}$，$W^{V}$ 之间的巧妙关系。 1. Q、K、V三者之间的运算关系先...

Transformer

发表于2025-11-16|AITransformer

Transformer paper: Attention Is All You Need Transformer中的Self-AttentionSelf-Attention in Detail计算自注意力的第一步就是从每个编码器的输入向量（每个单词的词向量）中生成三个向量。也就是说对于每个单词，我们创造一个查询向量、一个键向量和一个值向量。这三个向量是通过词嵌入与三个权重矩阵后相乘创建的。可以发现这些新向量在维度上比词嵌入向量更低。他们的维度是64，而词嵌入和编码器的输入/输出向量的维度是512. 但实际上不强求维度更小，这只是一种基于架构上的选择，它可以使多头注意力（...

Temp

发表于2025-11-16|AITransformer

A High-Level Look首先将这个模型看成是一个黑箱操作。在机器翻译中，就是输入一种语言，输出另一种语言。那么拆开这个黑箱，我们可以看到它是由编码组件、解码组件和它们之间的连接组成。编码组件部分由一堆编码器（encoder）构成（论文中是将6个编码器叠在一起——数字6没有什么神奇之处，你也可以尝试其他数字）。解码组件部分也是由相同数量（与编码器对应）的解码器（decoder）组成的。所有的编码器在结构上都是相同的，但它们没有共享参数。每个编码器都可以分解成两个子层。从编码器输入的句子首先会经过一个自注意力（self-attention）层，这层帮助编...

Transformer中FFNs的作用

发表于2025-11-16|AITransformer

Transformer 与 FFN 聊一聊 Transformer 中的 FFN Transformer 的基本单位就是一层 block 这里，一个 block 包含 MSA + FFN，目前公认的说法是， Attention 作为 token-mixer 做 spatial interaction。FFN （又称 MLP）在后面作为 channel-mixer 进一步增强 representation。从 2017 至今，过去绝大部分 Transformer 优化，尤其是针对 NLP tasks 的 Efficient Transformer 都是在 Attention 上的，因为文...

Bert

发表于2025-11-16|AITransformer

Seq2Seq在开始讲解Attention之前，我们先简单回顾一下Seq2Seq模型，传统的机器翻译基本都是基于Seq2Seq模型来做的，该模型分为encoder层与decoder层，并均为RNN或RNN的变体构成，如下图所示：在encode阶段，第一个节点输入一个词，之后的节点输入的是下一个词与前一个节点的hidden state，最终encoder会输出一个context，这个context又作为decoder的输入，每经过一个decoder的节点就输出一个翻译后的词，并把decoder的hidden state作为下一层的输入。该模型对于短文本的翻译来说效果很好，但是其也存在一...

VAE

发表于2025-11-16|AITransformer

文章来源：机器学习方法—优雅的模型（一）：变分自编码器（VAE） 1. Introduction2. Motivation 在说 VAE 之前，自然要先说到传统的自编码器 (Autoencoder)。上图即是一个自编码的实例。自编码器类似于一个非线性的 PCA，是一个利用神经网络来给复杂数据降维的模型。现在我们记$X$ 整个数据集的集合，$x_i$ 数据集中的一个样本。自编码器包含一个编码器$z = g(X)$，它的输出$z$ 们称作编码，$z$ 维度往往远远小于输入$X$ 维度。它还包含一个解码器$\tilde{X} = f(z)$，这个解码器能够通过编码$...

ViT综述

发表于2025-11-16|AIVisionTransformer

Peeling Back the Layers: Interpreting the Storytelling of ViT MM 2024 ViT逐层解码：揭示图像理解过程使用了Instruct-Blip作为基础模型，包含一个40层的图像编码器（EVA-CLIP-ViT）和一个大模型作为文本解码器，逐层逐头分析了ViT的内部结构。借鉴该思路分析一下ViT-B/16。

VIT全文翻译

发表于2025-11-16|AIVisionTransformer

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale0. 摘要虽然 Transformer 架构已成为自然语言处理任务的实际标准，但其在计算机视觉中的应用仍然有限。在视觉领域，注意力机制要么与卷积网络结合使用，要么用来替换卷积网络的某些部分，同时保持其整体结构不变。我们展示了这种对 CNNs 的依赖并非必要，直接应用于图像块序列的纯 Transformer 在图像分类任务上可以表现得非常好。当在大量数据上预训练并转移到多个中小规模的图像识别基准测试时（如 ImageNet、CIFAR-100、...

VIT解读

发表于2025-11-16|AIVisionTransformer

Vision Transformer 详解论文名称：An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale原论文对应源码：https://github.com/google-research/vision_transformerPyTorch 实现代码： pytorch_classification/vision_transformerTensorflow2 实现代码：tensorflow_classification/vision_transformer在 bilib...

ViT模型列表

发表于2025-11-16|AIVisionTransformer

符号定义在论文的 Table1 中有给出三个模型（Base/ Large/ Huge）的参数 Model Patch Size Layers Hidden Size D MLP size Heads Params ViT-Base 16x16 12 768 3072 12 86M ViT-Large 16x16 24 1024 4096 16 307M ViT-Huge 14x14 32 1280 5120 16 632M Layers：指 Transformer Block 的层数。 Hidden Size D：指每个 token 的特征维...