模型仓库介绍

发表于2025-11-16|更新于2026-03-01|大模型前置篇

|浏览量:

实战

self-llm

https://github.com/datawhalechina/self-llm

【中文】针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导，简化开源大模型的部署、使用和应用流程。

文章作者: Hongwei Zhao

文章链接: https://geeks-z.github.io/Blog/2025/11/16/%E5%A4%A7%E6%A8%A1%E5%9E%8B/00.%E5%89%8D%E7%BD%AE%E7%AF%87/01.%E6%A8%A1%E5%9E%8B%E4%BB%93%E5%BA%93%E4%BB%8B%E7%BB%8D/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog！

大模型前置篇

相关推荐

分布式训练

第8章分布式训练8.1 为什么分布式训练越来越流行近年来，深度学习被广泛应用到各个领域，包括计算机视觉、语言理解、语音识别、广告推荐等。在这些不同的领域中，一个共同的特点就是模型规模越来越大，比如 GPT-3 模型的参数量达到1750亿。即使用1024张 80 GB 的 A100，那么完整训练 GPT-3 的时长都需要1个月。模型规模的扩大，对硬件（算力、内存）的发展提出要求。然而，因为内存墙的存在，单一设备的算力及容量，受限于物理定律，持续提高芯片的集成越来越困难，难以跟上模型扩大的需求。为了解决算力增速不足的问题，人们考虑用多节点集群进行分布式训练，以提升算力，分布式训练势在必...

大模型 AI 应用全栈开发知识体系大模型学习路线 1.1 什么是语言模型这里我们最开始从统计或者说统计学习的角度切入来讲这件事情，我们期望实现的是基于给定的文本信息输入，给出对应的新的文本/符号输出（可以是文本翻译、文本分类、文本扩写）。要实现这样一个任务要解决两个问题：1）输入序列问题：由于这里输入的是文本信号，而计算机能进入神经网络处理和计算的是数值，所以我们需要讲字符通过一定方式转化为数值。2）输出序列问题：由于所需要输出的部分也是文本，而神经网络的输出是数值类型的（分类问题：二分类问题对应01输出，多分类对应多个01输出；回归问题：对应数值类型输出），所以需要建立...

从零训练大模型

【LLM】从零开始训练大模型Author: 何枝 Date: 2023-11-13 Link: https://zhuanlan.zhihu.com/p/636270877 目录收起 1. 预训练阶段（Pretraining Stage） 1.1 Tokenizer Training 1.2 Language Model PreTraining 1.3 数据集清理 1.4 模型效果评测 2. 指令微调阶段（Instruction Tuning Stage） 2.1 Self Instruction 2.2 开源数据集整理 2.3 模型的评测方法 3. 奖励模型（Reward Model...

大模型推理加速：看图学KV Cache KV Cache是Transformer标配的推理加速功能，transformer官方use_cache这个参数默认是True，但是它只能用于Decoder架构的模型，这是因为Decoder有Causal Mask，在推理的时候前面已经生成的字符不需要与后面的字符产生attention，从而使得前面已经计算的K和V可以缓存起来。我们先看一下不使用KV Cache的推理过程。假设模型最终生成了“遥遥领先”4个字。当模型生成第一个“遥”字时，input=”<s>“, “<s>“是起始字符。Attention的计...

大模型的数据

大语言模型背后的数据我们要清楚，大型语言模型是在”原始文本”上进行训练的。为了实现高度的能力（如语言和世界知识），这些文本应涵盖广泛的领域、类型、语言等。网络是寻找这种文本的自然场所（但不是唯一场所），因此这将是我们主要关注的焦点。网络的体量绝对巨大。作为下限，谷歌的搜索索引就有100PB（参考资料）。实际的网络可能更大，而深网(指的是所有无法被搜索引擎识别的网页)的规模比这还要大。值得注意的是，大公司中存储的私有数据集甚至比公开可用的数据更大。例如，沃尔玛每小时就会产生2.5PB的数据！ Common Crawl是一个非营利组织，它对网络进行爬取，并提供免费给公众的快照。由于其便利...

vLLM 部署调用

vLLM 简介vLLM 框架是一个高效的大语言模型推理和部署服务系统，具备以下特性：高效的内存管理：通过 PagedAttention 算法，vLLM 实现了对 KV 缓存的高效管理，减少了内存浪费，优化了模型的运行效率。高吞吐量：vLLM 支持异步处理和连续批处理请求，显著提高了模型推理的吞吐量，加速了文本生成和处理速度。易用性：vLLM 与 HuggingFace 模型无缝集成，支持多种流行的大型语言模型，简化了模型部署和推理的过程。兼容 OpenAI 的 API 服务器。分布式推理：框架支持在多 GPU 环境中进行分布式推理，通过模型并行策略和高效的数据通信，提升了处理大...