编码
编码 最早只有127个字符被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122。 中国制定了GB2312编码,用来把中文编进去。 Unicode把所有语言都统一到一套编码里。 ASCII编码和Unicode编码的区别**:ASCII编码是1个字节**,而Unicode编码通常是2个字节 如果你写的文本基本上全部是英文的话,用Unicode编码比ASCII编码需要多一倍的存储空间,在存储和传输上就十分不划算。本着节约的精神,又出现了把Unicode编码转化为可变长编码的UTF-8编码。UTF-8...
Shell
Reference https://zhuanlan.zhihu.com/p/463932084 https://www.jianshu.com/p/a891af6f87e0 Shell简介作为一个单词,他是“壳”的意思,蛋壳坚果壳。之所以叫壳,是为了和计算机的“核”来区分,用它表示“为使用者提供的操作界面”。Shell也会泛指所有为用户提供操作界面的程序,分为两类:命令行(CLI command-line interface)与图形界面(GUI graphical user interface)。但是通常情况下,我们在聊shell的时候,其实都是聊的Linux的命令行界面。 She...
SSH
https://zhuanlan.zhihu.com/p/21999778 https://blog.csdn.net/li528405176/article/details/82810342 基础Secure Shell(SSH) 是由 IETF(The Internet Engineering Task Force) 制定的建立在应用层基础上的安全网络协议。它是专为远程登录会话(甚至可以用Windows远程登录Linux服务器进行文件互传)和其他网络服务提供安全性的协议,可有效弥补网络中的漏洞。通过SSH,可以把所有传输的数据进行加密,也能够防止DNS欺骗和IP欺骗。还有一个额外...
卷积神经网络
Convolutional Neural Networks 1.1 为什么CNN计算机视觉要面临一个挑战,就是数据的输入可能会非常大。举个例子,在过去的课程中,你们一般操作的都是64×64的小图片,实际上,它的数据量是64×64×3,因为每张图片都有3个颜色通道。如果计算一下的话,可得知数据量为12288,所以我们的特征向量$x$ 度为12288。这其实还好,因为64×64真的是很小的一张图片。 如果你要操作更大的图片,比如一张1000×1000的图片,它足有1兆那么大,但是特征向量的维度达到了1000×1000×3,因为有3个RGB通道,所以数字将会是300万。如果你在尺寸很小...
RNN
Recurrent Neural Networks RNN,或者说最常用的LSTM,一般用于记住之前的状态,以供后续神经网络的判断,它由input gate、forget gate、output gate和cell memory组成,每个LSTM本质上就是一个neuron,特殊之处在于有4个输入:$z$ 三门控制信号$z_i$、$z_f$ $z_o$,每个时间点的输入都是由当前输入值+上一个时间点的输出值+上一个时间点cell值来组成 应用举例 这边举的例子是slot filling,我们假设订票系统听到用户说:“ i would like to arrive Taipei on N...
Self-Attention概述
self_v7.pptx Sophisticated Input到目前为止,Network的Input都是一个向量,然后我们的输出,可能是一个数值,这个是Regression,可能是一个类别,这是Classification。 但假设我们遇到更复杂的问题呢,假设我们说输入是多个向量,而且这个输入的向量的数目是会改变的呢? Vector Set as Input 文字处理 假设我们今天Network的输入是一个句子,每一个句子的长度都不一样,每个句子里面词汇的数目都不一样 如果我们把一个句子里面的每一个词汇,都描述成一个向量,那我们的Model的输入,就会是一个Vector ...
LSTM
其他RNN Recurrent Neural Networ的架构是可以任意设计的,比如说,它当然是deep(刚才我们看到的Recurrent Neural Networ它只有一个hidden layer),当然它也可以是deep Recurrent Neural Networ。 比如说,我们把$x^t$ 进去之后,它可以通过一个hidden layer,再通过第二个hidden layer,以此类推(通过很多的hidden layer)才得到最后的output。每一个hidden layer的output都会被存在memory里面,在下一个时间点的时候,每一个hidden layer会...
Self-Attention理论推导
理论推导Self-Attention的Input,是一串的Vector,那这个Vector可能是你整个Network的Input,它也可能是某个Hidden Layer的Output,所以用 $a$ 表示它: Input一排$a$向量以后,Self-Attention要Output另外一排b向量。每一个b都是考虑了所有的a以后才生成出来的,$b^1$ 虑了$a^1 \dots a^4$,$b^2$ 虑了$a^1 \dots a^4$ ,$b^3,b^4$ 是一样,考虑整个input的sequence,才产生出来的。 关于如何产生$b^1$ 个向量,这里有一个特别的机制,这个机制是根据...
Multi-head-SelfAttention
Multi-head Self-attentionSelf-attention 有一个进阶的版本,叫做 Multi-head Self-attention, 至于需要用多少的 head,这个又是另外一个 hyperparameter,也是你需要调的。 那为什么我们会需要比较多的 head 呢?我们在做这个 Self-attention 的时候,我们就是用 $q$ 去找相关的 $k$,但是相关这件事情有很多种不同的形式,有很多种不同的定义,所以也许我们不能只有一个 $q$,我们应该要有多个 $q$,不同的 $q$ 负责不同种类的相关性。 所以假设你要做 Multi-head Self-at...
Self-Attention-APP
Applications …Self-attention 当然是用得很广,我们已经提过很多次 transformer 这个东西 那我们大家也都知道说,在 NLP 的领域有一个东西叫做 BERT,BERT 里面也用到 Self-attention,所以 Self-attention 在 NLP 上面的应用,是大家都耳熟能详的 但 Self-attention,不是只能用在 NLP 相关的应用上,它还可以用在很多其他的问题上, Self-attention for Speech比如说在做语音的时候,你也可以用 Self-attention,不过在做语音的时候,你可能会对 Self-att...
Self-Attention拓展
Self-attention v.s. CNN3我们可以来比较一下,Self-attention 跟 CNN 之间,有什么样的差异或者是关联性 如果我们今天,是用 Self-attention 来处理一张图片,代表说,假设这个是你要考虑的 pixel,那它产生 query,其他 pixel 产生 key, 你今天在做 inner product 的时候,你考虑的不是一个小的receptive field的信息,而是整张影像的资讯 但是今天在做 CNN 的时候,,会画出一个 receptive field,每一个 filter,每一个 neural,只考虑 receptive fiel...
Transformer模型详解_图解最完整版
Transformer模型详解(图解最完整版) 前言Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本,并注释该论文。 在本文中,我们将试图把模型简化一点,并逐一介绍里面的核心概念,希望让普通读者也能轻易理解。 Attention is All You Need:Attention Is All You Need 1.Transformer 整体结构首先介绍 Tr...



