RAG

发表于2025-11-16|更新于2026-03-01|大模型微调篇

|浏览量:

文章作者: Hongwei Zhao

文章链接: https://geeks-z.github.io/Blog/2025/11/16/%E5%A4%A7%E6%A8%A1%E5%9E%8B/04.%E5%BE%AE%E8%B0%83%E7%AF%87/04.RAG/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog！

大模型微调篇

相关推荐

大模型应用优化路径

提示工程、RAG和微调 - 哪个才是大模型应用优化的最佳路径？在上一篇文章【GitHub Copilot产品经理和微软MVP告诉你：企业是否需要训练自己的代码大模型？- 微软MVP全球峰会纪行】中，我以GitHub Copilot作为案例，和大家分析了企业进行私有化模型训练的6个基本要素。但这其实是一个未完成的话题。企业内部存在大量的私域数据是客观事实，从代码生成角度来看，私有的框架、公用代码组件、内部编码规范、内部接口定义和说明以及内部业务逻辑这些内容客观存在；即便不适合采用私有化训练的方式，我们也必须找到解决这些问题的有效方式。在本篇中，我将延续这个话题和大家聊一聊几个大家在大...

大模型微调的三个节点：节点 1 ChatGPT：由于 ChatGPT 惊人的效果，让大家意识到 AGI 的可能性，并重视起了大模型+开放指令微调+强化学习这种三阶段范式节点 2 LLaMA：LLaMA 是 Meta 在今年 2 月份推出的基座模型，宣称 LLaMA-13B 在大多数基准测试中超过了 GPT-3 (175B)，而 LLaMA-65B 与最好的模型 Chinchilla70B 和 PaLM-540B 相比非常有竞争力。此外，该项目还开源了 7B、13B、30B 和 65B 版本。节点 3 Stanford Alpaca：在 LLaMA 的基础上，用 Self-Inst...

大模型之Adaptation

第7章大模型之Adaptation 使用语言模型（例如在上下文学习中）通过仅给出提示，我们已经能够执行一些任务。然而，提示方法并不适用于全部的下游任务，如自然语言推理（NLI）、问题回答（QA）、将网络表格转换为文本、解析电子健康记录（EHR）等。下游任务与语言模型的训练数据（例如，Pile数据集）可能在格式和主题上有所不同，或者需要随时间更新新知识。因此，语言模型需要使用特定于任务的数据或领域知识来针对下游任务进行适配。 7.1 引言7.1.1 为什么需要Adaptation?在自动化和人工智能的时代，语言模型已成为一个迅速发展的领域。这些模型被训练为对各种各样的任务作出响应，但它...

Prompt Engineering

分布式训练

第8章分布式训练8.1 为什么分布式训练越来越流行近年来，深度学习被广泛应用到各个领域，包括计算机视觉、语言理解、语音识别、广告推荐等。在这些不同的领域中，一个共同的特点就是模型规模越来越大，比如 GPT-3 模型的参数量达到1750亿。即使用1024张 80 GB 的 A100，那么完整训练 GPT-3 的时长都需要1个月。模型规模的扩大，对硬件（算力、内存）的发展提出要求。然而，因为内存墙的存在，单一设备的算力及容量，受限于物理定律，持续提高芯片的集成越来越困难，难以跟上模型扩大的需求。为了解决算力增速不足的问题，人们考虑用多节点集群进行分布式训练，以提升算力，分布式训练势在必...