avatar
文章
480
标签
104
分类
109
首页
文章
  • 归档
  • 分类
  • 标签
生活
  • 相册
  • 视频
关于
Hongwei Zhao's BlogContinual Learning for Large Language Models A Survey 返回首页
首页
文章
  • 归档
  • 分类
  • 标签
生活
  • 相册
  • 视频
关于

Continual Learning for Large Language Models A Survey

发表于2025-11-16|更新于2026-03-01|大模型大模型持续学习
|浏览量:
文章作者: Hongwei Zhao
文章链接: https://geeks-z.github.io/Blog/2025/11/16/%E5%A4%A7%E6%A8%A1%E5%9E%8B/06.%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8C%81%E7%BB%AD%E5%AD%A6%E4%B9%A0/03.Continual%20Learning%20for%20Large%20Language%20Models%20A%20Survey/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog!
大模型大模型持续学习
cover of previous post
上一篇
线性代数知识点总结
线性代数行列式1.行列式按行(列)展开定理 (1) 设$A = ( a_{{ij}} ){n \times n}$,则:$a{i1}A_{j1} +a_{i2}A_{j2} + \cdots + a_{{in}}A_{{jn}} = \begin{cases}|A|,i=j\ 0,i \neq j\end{cases}$ 或$a_{1i}A_{1j} + a_{2i}A_{2j} + \cdots + a_{{ni...
cover of next post
下一篇
Recent Advances of Foundation Language Models-based Continual Learning-A Survey
相关推荐
cover
2025-11-16
Recent Advances of Foundation Language Models-based Continual Learning-A Survey
cover
2025-11-16
Towards Lifelong Learning of Large Language Models A Survey
cover
2025-11-16
大模型应用优化路径
提示工程、RAG和微调 - 哪个才是大模型应用优化的最佳路径?在上一篇文章 【GitHub Copilot产品经理和微软MVP告诉你:企业是否需要训练自己的代码大模型?- 微软MVP全球峰会纪行】中,我以GitHub Copilot作为案例,和大家分析了企业进行私有化模型训练的6个基本要素。但这其实是一个未完成的话题。 企业内部存在大量的私域数据是客观事实,从代码生成角度来看,私有的框架、公用代码组件、内部编码规范、内部接口定义和说明以及内部业务逻辑这些内容客观存在;即便不适合采用私有化训练的方式,我们也必须找到解决这些问题的有效方式。 在本篇中,我将延续这个话题和大家聊一聊几个大家在大...
cover
2025-11-16
分词
分词语言模型 $p$ 是建立在词元(token)序列的上的一个概率分布输出,其中每个词元来自某个词汇表$V$,如下的形式。 1[the, mouse, ate, the, cheese] Tips: 词元(token)一般在NLP(自然语言处理)中来说,通常指的是一个文本序列中的最小单元,可以是单词、标点符号、数字、符号或其他类型的语言元素。通常,对于NLP任务,文本序列会被分解为一系列的tokens,以便进行分析、理解或处理。在英文中一个”token”可以是一个单词,也可以是一个标点符号。在中文中,通常以字或词作为token(这其中就包含一些字符串分词的差异性,将在后续内容中讲到)...
cover
2025-11-16
大模型各阶段数据
以下是目前常见大模型在不同训练阶段的方案总结及对应阶段的样例数据: 1. 预训练阶段(Pretraining)常见方案 数据来源:大规模无监督文本(如网页、书籍、代码、多语言语料),强调数据多样性和规模。 关键技术:分层采样、去重、多模态融合(图文/视频对)。 代表模型: GPT-3:使用45TB的Common Crawl、维基百科、书籍等数据,覆盖多领域文本和代码。 T5:基于750GB的C4数据集(清洗后的Common Crawl英文文本),强调格式统一化处理。 DeepSeek-V3:聚焦高质量代码和数学数据,总量达14.8万亿token。 智源BGE:采用3亿对中...
cover
2025-11-16
Fine-tuning
avatar
Hongwei Zhao
AI Researcher & Developer
文章
480
标签
104
分类
109
Follow Me
公告
欢迎来到我的博客!这里分享 AI、机器学习和数学。
最新文章
智能体
智能体2025-11-16
Scaling Law
Scaling Law2025-11-16
temp
temp2025-11-16
ProximalGradientMethod
ProximalGradientMethod2025-11-16
ES6语法
ES6语法2025-11-16
© 2024 - 2026 By Hongwei Zhao