Hongwei Zhao's Blog

发表于2025-11-16

编码最早只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，比如大写字母A的编码是65，小写字母z的编码是122。中国制定了GB2312编码，用来把中文编进去。 Unicode把所有语言都统一到一套编码里。 ASCII编码和Unicode编码的区别**：ASCII编码是1个字节**，而Unicode编码通常是2个字节如果你写的文本基本上全部是英文的话，用Unicode编码比ASCII编码需要多一倍的存储空间，在存储和传输上就十分不划算。本着节约的精神，又出现了把Unicode编码转化为可变长编码的UTF-8编码。UTF-8...

Shell

发表于2025-11-16

Reference https://zhuanlan.zhihu.com/p/463932084 https://www.jianshu.com/p/a891af6f87e0 Shell简介作为一个单词，他是“壳”的意思，蛋壳坚果壳。之所以叫壳，是为了和计算机的“核”来区分，用它表示“为使用者提供的操作界面”。Shell也会泛指所有为用户提供操作界面的程序，分为两类：命令行（CLI command-line interface）与图形界面（GUI graphical user interface）。但是通常情况下，我们在聊shell的时候，其实都是聊的Linux的命令行界面。 She...

SSH

发表于2025-11-16

https://zhuanlan.zhihu.com/p/21999778 https://blog.csdn.net/li528405176/article/details/82810342 基础Secure Shell(SSH) 是由 IETF(The Internet Engineering Task Force) 制定的建立在应用层基础上的安全网络协议。它是专为远程登录会话(甚至可以用Windows远程登录Linux服务器进行文件互传)和其他网络服务提供安全性的协议，可有效弥补网络中的漏洞。通过SSH，可以把所有传输的数据进行加密，也能够防止DNS欺骗和IP欺骗。还有一个额外...

卷积神经网络

发表于2025-11-16|AI卷积神经网络

Convolutional Neural Networks 1.1 为什么CNN计算机视觉要面临一个挑战，就是数据的输入可能会非常大。举个例子，在过去的课程中，你们一般操作的都是64×64的小图片，实际上，它的数据量是64×64×3，因为每张图片都有3个颜色通道。如果计算一下的话，可得知数据量为12288，所以我们的特征向量$x$ 度为12288。这其实还好，因为64×64真的是很小的一张图片。如果你要操作更大的图片，比如一张1000×1000的图片，它足有1兆那么大，但是特征向量的维度达到了1000×1000×3，因为有3个RGB通道，所以数字将会是300万。如果你在尺寸很小...

RNN

发表于2025-11-16|AI循环神经网络

Recurrent Neural Networks RNN，或者说最常用的LSTM，一般用于记住之前的状态，以供后续神经网络的判断，它由input gate、forget gate、output gate和cell memory组成，每个LSTM本质上就是一个neuron，特殊之处在于有4个输入：$z$ 三门控制信号$z_i$、$z_f$ $z_o$，每个时间点的输入都是由当前输入值+上一个时间点的输出值+上一个时间点cell值来组成应用举例这边举的例子是slot filling，我们假设订票系统听到用户说：“ i would like to arrive Taipei on N...

Self-Attention概述

发表于2025-11-16|AITransformer

self_v7.pptx Sophisticated Input到目前为止，Network的Input都是一个向量，然后我们的输出，可能是一个数值，这个是Regression，可能是一个类别，这是Classification。但假设我们遇到更复杂的问题呢，假设我们说输入是多个向量，而且这个输入的向量的数目是会改变的呢? Vector Set as Input 文字处理假设我们今天Network的输入是一个句子，每一个句子的长度都不一样，每个句子里面词汇的数目都不一样如果我们把一个句子里面的每一个词汇，都描述成一个向量，那我们的Model的输入，就会是一个Vector ...

LSTM

发表于2025-11-16|AI循环神经网络

其他RNN Recurrent Neural Networ的架构是可以任意设计的，比如说，它当然是deep(刚才我们看到的Recurrent Neural Networ它只有一个hidden layer)，当然它也可以是deep Recurrent Neural Networ。比如说，我们把$x^t$ 进去之后，它可以通过一个hidden layer，再通过第二个hidden layer，以此类推(通过很多的hidden layer)才得到最后的output。每一个hidden layer的output都会被存在memory里面，在下一个时间点的时候，每一个hidden layer会...

Self-Attention理论推导

发表于2025-11-16|AITransformer

理论推导Self-Attention的Input，是一串的Vector，那这个Vector可能是你整个Network的Input，它也可能是某个Hidden Layer的Output，所以用 $a$ 表示它： Input一排$a$向量以后，Self-Attention要Output另外一排b向量。每一个b都是考虑了所有的a以后才生成出来的，$b^1$ 虑了$a^1 \dots a^4$，$b^2$ 虑了$a^1 \dots a^4$ ，$b^3,b^4$ 是一样，考虑整个input的sequence，才产生出来的。关于如何产生$b^1$ 个向量，这里有一个特别的机制，这个机制是根据...

Multi-head-SelfAttention

发表于2025-11-16|AITransformer

Multi-head Self-attentionSelf-attention 有一个进阶的版本，叫做 Multi-head Self-attention，至于需要用多少的 head，这个又是另外一个 hyperparameter，也是你需要调的。那为什么我们会需要比较多的 head 呢？我们在做这个 Self-attention 的时候，我们就是用 $q$ 去找相关的 $k$，但是相关这件事情有很多种不同的形式，有很多种不同的定义，所以也许我们不能只有一个 $q$，我们应该要有多个 $q$，不同的 $q$ 负责不同种类的相关性。所以假设你要做 Multi-head Self-at...

Self-Attention-APP

发表于2025-11-16|AITransformer

Applications …Self-attention 当然是用得很广，我们已经提过很多次 transformer 这个东西那我们大家也都知道说，在 NLP 的领域有一个东西叫做 BERT，BERT 里面也用到 Self-attention，所以 Self-attention 在 NLP 上面的应用，是大家都耳熟能详的但 Self-attention，不是只能用在 NLP 相关的应用上，它还可以用在很多其他的问题上， Self-attention for Speech比如说在做语音的时候，你也可以用 Self-attention，不过在做语音的时候，你可能会对 Self-att...

Self-Attention拓展

发表于2025-11-16|AITransformer

Self-attention v.s. CNN3我们可以来比较一下，Self-attention 跟 CNN 之间，有什么样的差异或者是关联性如果我们今天，是用 Self-attention 来处理一张图片，代表说，假设这个是你要考虑的 pixel，那它产生 query，其他 pixel 产生 key，你今天在做 inner product 的时候，你考虑的不是一个小的receptive field的信息，而是整张影像的资讯但是今天在做 CNN 的时候，，会画出一个 receptive field，每一个 filter，每一个 neural，只考虑 receptive fiel...

Transformer模型详解_图解最完整版

发表于2025-11-16|AITransformer

Transformer模型详解（图解最完整版）前言Transformer由论文《Attention is All You Need》提出，现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取，其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本，并注释该论文。在本文中，我们将试图把模型简化一点，并逐一介绍里面的核心概念，希望让普通读者也能轻易理解。 Attention is All You Need：Attention Is All You Need 1.Transformer 整体结构首先介绍 Tr...