词嵌入

发表于2025-11-16|更新于2026-03-01|大模型基础篇

|浏览量:

文章作者: Hongwei Zhao

文章链接: https://geeks-z.github.io/Blog/2025/11/16/%E5%A4%A7%E6%A8%A1%E5%9E%8B/01.%E5%9F%BA%E7%A1%80%E7%AF%87/03.%E8%AF%8D%E5%B5%8C%E5%85%A5/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog！

大模型基础篇

相关推荐

Token：模型理解和处理的基本单位在 AI 领域，Token 是指模型处理的基本数据单位。它可以是单词、字符、短语甚至图像片段、声音片段等。例如，一句话会被分割成多个 Token，每个标点符号也会被视为单独的 Token。 Token 的划分方式会影响模型对数据的理解和处理。例如，中英文的 Token 划分方式就存在差异。对于中文，由于存在多音字和词组的情况，Token 的划分需要更加细致。为了更好地理解 Token 的概念，让我们来看一个简单的例子。假设我们要将句子今天天气很好进行 Token 化，那么，该句子的 Token 序列可能有以下几种情况，取决于大模型的分词规则、架构以及...

大模型 AI 应用全栈开发知识体系大模型学习路线 1.1 什么是语言模型这里我们最开始从统计或者说统计学习的角度切入来讲这件事情，我们期望实现的是基于给定的文本信息输入，给出对应的新的文本/符号输出（可以是文本翻译、文本分类、文本扩写）。要实现这样一个任务要解决两个问题：1）输入序列问题：由于这里输入的是文本信号，而计算机能进入神经网络处理和计算的是数值，所以我们需要讲字符通过一定方式转化为数值。2）输出序列问题：由于所需要输出的部分也是文本，而神经网络的输出是数值类型的（分类问题：二分类问题对应01输出，多分类对应多个01输出；回归问题：对应数值类型输出），所以需要建立...

分词语言模型 $p$ 是建立在词元（token）序列的上的一个概率分布输出，其中每个词元来自某个词汇表$V$，如下的形式。 1[the, mouse, ate, the, cheese] Tips: 词元(token)一般在NLP（自然语言处理）中来说，通常指的是一个文本序列中的最小单元，可以是单词、标点符号、数字、符号或其他类型的语言元素。通常，对于NLP任务，文本序列会被分解为一系列的tokens，以便进行分析、理解或处理。在英文中一个”token”可以是一个单词，也可以是一个标点符号。在中文中，通常以字或词作为token（这其中就包含一些字符串分词的差异性，将在后续内容中讲到）...

模型仓库介绍

实战self-llm https://github.com/datawhalechina/self-llm 【中文】针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导，简化开源大模型的部署、使用和应用流程。

大模型推理加速：看图学KV Cache KV Cache是Transformer标配的推理加速功能，transformer官方use_cache这个参数默认是True，但是它只能用于Decoder架构的模型，这是因为Decoder有Causal Mask，在推理的时候前面已经生成的字符不需要与后面的字符产生attention，从而使得前面已经计算的K和V可以缓存起来。我们先看一下不使用KV Cache的推理过程。假设模型最终生成了“遥遥领先”4个字。当模型生成第一个“遥”字时，input=”<s>“, “<s>“是起始字符。Attention的计...