Hongwei Zhao

全部文章

共 482 篇

Untitled

<h2 id="数学知识">数学知识<a class="anchor-link" href="#数学知识" title="Permanent link">¶</a></h2> <p>可导:即设<span class="mat...

Untitled

<h2 id="求逆矩阵">求逆矩阵<a class="anchor-link" href="#求逆矩阵" title="Permanent link">¶</a></h2> <p>我们从逆矩阵开始,对于二阶矩阵有<span...

Untitled

<h2 id="图像压缩">图像压缩<a class="anchor-link" href="#图像压缩" title="Permanent link">¶</a></h2> <p>本讲我们介绍一种图片有损压缩的一种方法:JPEG...

Untitled

<h2 id="图和网络">图和网络<a class="anchor-link" href="#图和网络" title="Permanent link">¶</a></h2> <pre><code class="langua...

Untitled

<p>对于<span class="math-inline">m \times n</span>矩阵<span class="math-inline">A</span>,<span class="math-inline">ran...

Untitled

<p>上一讲中,我们从三个简单的性质扩展出了一些很好的推论,本讲将继续使用这三条基本性质:</p> <ol> <li><span class="math-inline">\det I=1</span>;</li> &...

Untitled

<p>本讲我们介绍将一个矩阵写为<span class="math-inline">[Math Processing Error]A=U\varSigma V^T</span>,分解的因子分别为正交矩阵、对角矩阵、正交矩阵,与前面几讲的分解不同的是,这两个正交矩阵...

Untitled

<h2 id="微分方程fracmathrmdumathrmdtau">微分方程<span class="math-inline">\frac{\mathrm{d}u}{\mathrm{d}t}=Au</span><a class="anchor-link"...

第二讲:矩阵消元

<h1 id="第二讲矩阵消元">第二讲:矩阵消元<a class="anchor-link" href="#第二讲矩阵消元" title="Permanent link">¶</a></h1> <p>这个方法最早由高斯提出,我们...

Untitled

<h2 id="对角化矩阵">对角化矩阵<a class="anchor-link" href="#对角化矩阵" title="Permanent link">¶</a></h2> <p>上一讲我们提到关键方程<span c...

第四讲:$A$ 的 $LU$ 分解

<h1 id="第四讲a-的-lu-分解">第四讲:<span class="math-inline">A</span> 的 <span class="math-inline">LU</span> 分解<a class="anchor...

Untitled

<p>上一讲中,我们知道了投影矩阵<span class="math-inline">P=A(A^TA)^{-1}A^T</span>,<span class="math-inline">Pb</span>将会把向量投影在<span ...

线性代数

<h1 id="线性代数">线性代数<a class="anchor-link" href="#线性代数" title="Permanent link">¶</a></h1> <h2 id="行列式">行列式<a class...

plt.plot([48/17], [12/17], 'o')

<p>从<span class="math-inline">\mathbb{R}^2</span>空间讲起,有向量<span class="math-inline">a, b</span>,做<span class="math-inl...

Untitled

<p>本讲我们会了解如何完整的测试一个矩阵是否正定,测试<span class="math-inline">x^TAx</span>是否具有最小值,最后了解正定的几何意义——椭圆(ellipse)和正定性有关,双曲线(hyperbola)与正定无关。另外,本讲涉及...

Untitled

<h2 id="对称矩阵">对称矩阵<a class="anchor-link" href="#对称矩阵" title="Permanent link">¶</a></h2> <p>前面我们学习了矩阵的特征值与特征向量,也了解了一...

第六讲:列空间和零空间

<h1 id="第六讲列空间和零空间">第六讲:列空间和零空间<a class="anchor-link" href="#第六讲列空间和零空间" title="Permanent link">¶</a></h1> <p>对向量子空...

Untitled

<p>如何判断一个操作是不是线性变换?线性变换需满足以下两个要求:</p> <p><div class="math-display"><br /> T(v+w)=T(v)+T(w)\<br /> T(cv)=cT(v)<b...

Untitled

<h2 id="乘法和逆矩阵">乘法和逆矩阵<a class="anchor-link" href="#乘法和逆矩阵" title="Permanent link">¶</a></h2> <p>上一讲大概介绍了矩阵乘法和逆矩阵,本...

Untitled

<p>前面我们涉及到的逆(inverse)都是指左、右乘均成立的逆矩阵,即<span class="math-inline">A^{-1}A=I=AA^{-1}</span>。在这种情况下,<span class="math-inline">m\tim...

Untitled

<h2 id="转换置换向量空间r">转换、置换、向量空间R<a class="anchor-link" href="#转换置换向量空间r" title="Permanent link">¶</a></h2> <h2 id="置换矩阵p...

第七讲:求解$Ax=0$,主变量,特解

<h1 id="第七讲求解ax0主变量特解">第七讲:求解<span class="math-inline">Ax=0</span>,主变量,特解<a class="anchor-link" href="#第七讲求解ax0主变量特解" title="Perm...

Untitled

<h2 id="马尔科夫矩阵">马尔科夫矩阵<a class="anchor-link" href="#马尔科夫矩阵" title="Permanent link">¶</a></h2> <p>马尔科夫矩阵(Markov matr...

Untitled

<p>行列式(determinant)的性质:</p> <ol> <li> <p><span class="math-inline">\det{I}=1</span>,单位矩阵行列式值为一。</p> &l...

Untitled

<h2 id="特征值特征向量的由来">特征值、特征向量的由来<a class="anchor-link" href="#特征值特征向量的由来" title="Permanent link">¶</a></h2> <p>给定矩阵&...

Untitled

<p>在四个基本子空间中,提到对于秩为<span class="math-inline">r</span>的<span class="math-inline">m \times n</span>矩阵,其行空间(<span class=...

Untitled

<h2 id="标准正交矩阵">标准正交矩阵<a class="anchor-link" href="#标准正交矩阵" title="Permanent link">¶</a></h2> <p>定义标准正交向量(orthonorm...

Untitled

<p><span class="math-inline">v_1,\ v_2,\ \cdots,\ v_n</span>是<span class="math-inline">m\times n</span>矩阵<span class=...

第一讲:方程组的几何解释

<h1 id="第一讲方程组的几何解释">第一讲:方程组的几何解释<a class="anchor-link" href="#第一讲方程组的几何解释" title="Permanent link">¶</a></h1> <p>我们...

Untitled

<h2 id="对称矩阵">对称矩阵<a class="anchor-link" href="#对称矩阵" title="Permanent link">¶</a></h2> <p>前面我们学习了矩阵的特征值与特征向量,也了解了一...

Untitled

<p>本讲主要介绍复数向量、复数矩阵的相关知识(包括如何做复数向量的点积运算、什么是复数对称矩阵等),以及傅里叶矩阵(最重要的复数矩阵)和快速傅里叶变换。</p> <h2 id="复数矩阵运算">复数矩阵运算<a class="anchor-link" hr...

Untitled

<h2 id="矩阵空间秩1矩阵和小世界图">矩阵空间、秩1矩阵和小世界图<a class="anchor-link" href="#矩阵空间秩1矩阵和小世界图" title="Permanent link">¶</a></h2> <h...

Untitled

<p>在本讲的开始,先接着上一讲来继续说一说正定矩阵。</p> <ul> <li> <p>正定矩阵的逆矩阵有什么性质?我们将正定矩阵分解为<span class="math-inline">A=S\Lambda S^{-1}&l...

第八讲:求解$Ax=b$:可解性和解的结构

<h1 id="第八讲求解axb可解性和解的结构">第八讲:求解<span class="math-inline">Ax=b</span>:可解性和解的结构<a class="anchor-link" href="#第八讲求解axb可解性和解的结构" tit...

Untitled

<h2 id="信息量">信息量<a class="anchor-link" href="#信息量" title="Permanent link">¶</a></h2> <p>假设 <span class="math-inl...

先验分布与后验分布

<h2 id="1回顾贝叶斯定理">1.回顾贝叶斯定理<a class="anchor-link" href="#1回顾贝叶斯定理" title="Permanent link">¶</a></h2> <p>首先,我们先来复习一下...

Untitled

<h2 id="统计量及其分布">统计量及其分布<a class="anchor-link" href="#统计量及其分布" title="Permanent link">¶</a></h2> <h3 id="总体与样本"><...

模拟 logits 和真实标签

<h2 id="交叉熵">交叉熵<a class="anchor-link" href="#交叉熵" title="Permanent link">¶</a></h2> <p>假设有两个分布<span class="math...

Untitled

<h2 id="梯度流">梯度流<a class="anchor-link" href="#梯度流" title="Permanent link">¶</a></h2> <h3 id="欧式空间">欧式空间<a class=...

Untitled

<h2 id="推土机距离问题earth-movers-distance">推土机距离问题(Earth Mover's Distance)<a class="anchor-link" href="#推土机距离问题earth-movers-distance" title="Perma...

Untitled

<h2 id="六假设检验">六、假设检验<a class="anchor-link" href="#六假设检验" title="Permanent link">¶</a></h2> <h3 id="61-假设检验的基本思想和概念"&g...

Untitled

<p>统计学与概率论的区别就是归纳和演绎,前者通过样本推测总体的分布,而后者已知总体分布去研究样本。因此参数估计则是归纳的过程,参数估计有两种形式:<strong>点估计</strong>和<strong>区间估计</strong><...

Untitled

<blockquote> <p><a href="https://zhuanlan.zhihu.com/p/387938179">两个多元正态分布的KL散度、巴氏距离和W距离</a></p> </blockquote> <...

Untitled

<h2 id="wgan">WGAN<a class="anchor-link" href="#wgan" title="Permanent link">¶</a></h2> <p>假设 <span class="math-...

Untitled

<blockquote> <p>文章来源:<a href="https://zhuanlan.zhihu.com/p/639733453">Optimal Transport的前世今生 | (一) 从Monge问题到Kantorovich问题</a>&...

Untitled

<blockquote> <p><a href="https://zhuanlan.zhihu.com/p/662721431">EMO:基于最优传输思想设计的分类损失函数</a></p> </blockquote> <p...

Untitled

...

低秩近似之路(三):CR

<h1 id="低秩近似之路三cr">低秩近似之路(三):CR<a class="anchor-link" href="#低秩近似之路三cr" title="Permanent link">¶</a></h1> <p><st...

Untitled

<blockquote> <p><a href="https://so.csdn.net/so/search?q=%E7%90%86%E8%A7%A3%E7%9F%A9%E9%98%B5&t=blog&u=myan">理解矩阵(转载自孟岩)<...

低秩近似之路(二):SVD

<h1 id="低秩近似之路二svd">低秩近似之路(二):SVD<a class="anchor-link" href="#低秩近似之路二svd" title="Permanent link">¶</a></h1> <p><...

低秩近似之路(一):伪逆

<h1 id="低秩近似之路一伪逆">低秩近似之路(一):伪逆<a class="anchor-link" href="#低秩近似之路一伪逆" title="Permanent link">¶</a></h1> <p><st...

Untitled

<blockquote> <p>文章来源:<a href="https://zhuanlan.zhihu.com/p/714259385">Monarch矩阵-计算高效的稀疏型矩阵分解</a> <br><br /> 最佳排版请看...

Untitled

<h2 id="新理解矩阵1矩阵是什么"><a href="https://spaces.ac.cn/archives/1765">《新理解矩阵1》:矩阵是什么?</a><a class="anchor-link" href="#新理解矩阵1矩阵是什么" t...

Untitled

<h2 id="随机变量及其分布">随机变量及其分布<a class="anchor-link" href="#随机变量及其分布" title="Permanent link">¶</a></h2> <h3 id="随机变量的概念"&g...

Untitled

<h2 id="三随机变量的数字特征">三、随机变量的数字特征<a class="anchor-link" href="#三随机变量的数字特征" title="Permanent link">¶</a></h2> <h3 id="31-...

Untitled

<h2 id="一事件与概率">一、事件与概率<a class="anchor-link" href="#一事件与概率" title="Permanent link">¶</a></h2> <h3 id="11-随机试验和随机事件"&g...

ES6 语法

<h1 id="es6-语法">ES6 语法<a class="anchor-link" href="#es6-语法" title="Permanent link">¶</a></h1> <p>ECMAScript 6.0(以下简...

Untitled

<h2 id="编码">编码<a class="anchor-link" href="#编码" title="Permanent link">¶</a></h2> <ol> <li> <p>最早只有127个...

Reference

<h1 id="reference">Reference<a class="anchor-link" href="#reference" title="Permanent link">¶</a></h1> <ul> <li&...

Untitled

<h2 id="1maven-简介">1.Maven 简介<a class="anchor-link" href="#1maven-简介" title="Permanent link">¶</a></h2> <p>Maven 的本...

Untitled

<h2 id="快捷键">快捷键<a class="anchor-link" href="#快捷键" title="Permanent link">¶</a></h2> <h2 id="mac-键盘符号说明">Mac 键盘符号说明...

参考文章

<h2 id="软件设计的整体流程">软件设计的整体流程<a class="anchor-link" href="#软件设计的整体流程" title="Permanent link">¶</a></h2> <ul> <li&...

Untitled

<h2 id="分布式文件系统">分布式文件系统<a class="anchor-link" href="#分布式文件系统" title="Permanent link">¶</a></h2> <h2 id="什么是分布式文件系统"&g...

Zotero+坚果云搞定多设备文献管理

<h1 id="zotero坚果云搞定多设备文献管理">Zotero+坚果云搞定多设备文献管理<a class="anchor-link" href="#zotero坚果云搞定多设备文献管理" title="Permanent link">¶</a>&l...

Untitled

<h2 id="云平台核心">云平台核心<a class="anchor-link" href="#云平台核心" title="Permanent link">¶</a></h2> <h3 id="为什么用云平台">为什么用云平台...

Untitled

<p>学习编程其实就是学高级语言,即那些为人类设计的计算机语言。</p> <p>但是,计算机不理解高级语言,必须通过编译器转成二进制代码,才能运行。学会高级语言,并不等于理解计算机实际的运行步骤。</p> <p><img alt="i...

查看 Linux 命令帮助信息

<h1 id="查看-linux-命令帮助信息">查看 Linux 命令帮助信息<a class="anchor-link" href="#查看-linux-命令帮助信息" title="Permanent link">¶</a></h1> ...

scp

<h1 id="scp">scp<a class="anchor-link" href="#scp" title="Permanent link">¶</a></h1> <p>加密的方式在本地主机和远程主机之间复制文件</p...

Linux 文件内容查看编辑

<h1 id="linux-文件内容查看编辑">Linux 文件内容查看编辑<a class="anchor-link" href="#linux-文件内容查看编辑" title="Permanent link">¶</a></h1> <...

Untitled

<h2 id="学习资源">学习资源<a class="anchor-link" href="#学习资源" title="Permanent link">¶</a></h2> <ul> <li><a href="...

命令行的艺术

<blockquote> <p>转载自 https://github.com/jlevy/the-art-of-command-line</p> </blockquote> <p><em><a href="README-c...

free

<h1 id="free">free<a class="anchor-link" href="#free" title="Permanent link">¶</a></h1> <p>显示内存的使用情况</p> <...

top

<h1 id="top">top<a class="anchor-link" href="#top" title="Permanent link">¶</a></h1> <p>显示或管理执行中的程序</p> <h...

Linux 系统管理

<h1 id="linux-系统管理">Linux 系统管理<a class="anchor-link" href="#linux-系统管理" title="Permanent link">¶</a></h1> <blockquote&...

iotop

<h1 id="iotop">iotop<a class="anchor-link" href="#iotop" title="Permanent link">¶</a></h1> <p>用来监视磁盘 I/O 使用状况的工具<...

Linux 硬件管理

<h1 id="linux-硬件管理">Linux 硬件管理<a class="anchor-link" href="#linux-硬件管理" title="Permanent link">¶</a></h1> <blockquote&...

grep

<h1 id="grep">grep<a class="anchor-link" href="#grep" title="Permanent link">¶</a></h1> <p>强大的文本搜索工具</p> <...

新建用户加入组

<blockquote> <p>关键词:<code>groupadd</code>, <code>groupdel</code>, <code>groupmod</code>, <code>u...

Untitled

<h2 id="linux命令">Linux命令<a class="anchor-link" href="#linux命令" title="Permanent link">¶</a></h2> <ul> <li>查看 ...

vmstat

<h1 id="vmstat">vmstat<a class="anchor-link" href="#vmstat" title="Permanent link">¶</a></h1> <p>显示虚拟内存状态</p>...

Linux 网络管理

<h1 id="linux-网络管理">Linux 网络管理<a class="anchor-link" href="#linux-网络管理" title="Permanent link">¶</a></h1> <blockquote&...

Linux 文件目录管理

<h1 id="linux-文件目录管理">Linux 文件目录管理<a class="anchor-link" href="#linux-文件目录管理" title="Permanent link">¶</a></h1> <block...

iostat

<h1 id="iostat">iostat<a class="anchor-link" href="#iostat" title="Permanent link">¶</a></h1> <p>监视系统输入输出设备和 CPU 的使...

Linux 软件管理

<h1 id="linux-软件管理">Linux 软件管理<a class="anchor-link" href="#linux-软件管理" title="Permanent link">¶</a></h1> <blockquote&...

Linux 文件压缩和解压

<h1 id="linux-文件压缩和解压">Linux 文件压缩和解压<a class="anchor-link" href="#linux-文件压缩和解压" title="Permanent link">¶</a></h1> <bl...

Untitled

<h2 id="homebrew">Homebrew<a class="anchor-link" href="#homebrew" title="Permanent link">¶</a></h2> <p>.bash_profil...

Untitled

<h2 id="accuracy">accuracy<a class="anchor-link" href="#accuracy" title="Permanent link">¶</a></h2> <p>title:Questi...

Untitled

<p>TODO</p> <blockquote> <p>Github Action 官方文档:https://docs.github.com/en/actions/using-workflows/workflow-syntax-for-github-a...

创建挂载目录

<p><img alt="image-20231103170538800" src="https://markdownimg-hw.oss-cn-beijing.aliyuncs.com/image202311031705837.png" /></p> <h...

Untitled

<h2 id="图像">图像<a class="anchor-link" href="#图像" title="Permanent link">¶</a></h2> <div align=center><img src=""/...

Untitled

<h2 id="表-1-数学模式重音符">表 1: 数学模式重音符<a class="anchor-link" href="#表-1-数学模式重音符" title="Permanent link">¶</a></h2> <table&g...

Untitled

<h2 id="readme-模板">README 模板<a class="anchor-link" href="#readme-模板" title="Permanent link">¶</a></h2> <div align=cent...

查看当前版本

<h2 id="conda">conda<a class="anchor-link" href="#conda" title="Permanent link">¶</a></h2> <p>conda是一个包,依赖和环境管理工具,适...

Untitled

<h2 id="cuda安装多版本切换">cuda安装(多版本切换)<a class="anchor-link" href="#cuda安装多版本切换" title="Permanent link">¶</a></h2> <p>除...

Untitled

<h2 id="pytorch">PyTorch<a class="anchor-link" href="#pytorch" title="Permanent link">¶</a></h2> <p>在开发过程中可能会有多个项目同...

Untitled

<h2 id="nas网络篇">NAS网络篇<a class="anchor-link" href="#nas网络篇" title="Permanent link">¶</a></h2> <p>假设把NAS搭建在家中,家庭成员们在...

Untitled

<h2 id="nas硬盘篇">NAS硬盘篇<a class="anchor-link" href="#nas硬盘篇" title="Permanent link">¶</a></h2> <p>目前市面上的硬盘主要分为企业盘、NA...

Untitled

<h2 id="nas介绍篇">NAS介绍篇<a class="anchor-link" href="#nas介绍篇" title="Permanent link">¶</a></h2> <p>NAS 可以看作“简化版”“私人”存...

Untitled

<h2 id="nas玩法篇">NAS玩法篇<a class="anchor-link" href="#nas玩法篇" title="Permanent link">¶</a></h2> <h3 id="家庭影院">家庭影院<...

Untitled

<h2 id="nas选购篇">NAS选购篇<a class="anchor-link" href="#nas选购篇" title="Permanent link">¶</a></h2> <p>本部分有每个市面上在售NAS产品型号...

创建挂载目录

<h2 id="anaconda">Anaconda<a class="anchor-link" href="#anaconda" title="Permanent link">¶</a></h2> <ol> <li>...

Untitled

<h3 id="2-table-环境"><strong>2. <code>table</code> 环境</strong><a class="anchor-link" href="#2-table-环境" title="Permane...

Untitled

<h3 id="1-figure-环境"><strong>1. <code>figure</code> 环境</strong><a class="anchor-link" href="#1-figure-环境" title="Perm...

Untitled

<ol> <li><strong>文档结构</strong>:</li> </ol> <ul> <li>使用<code>\documentclass</code>命令设置文档类型,...

Untitled

<h2 id="mac-中-idea-快捷键">Mac 中 IDEA 快捷键<a class="anchor-link" href="#mac-中-idea-快捷键" title="Permanent link">¶</a></h2> <...

Untitled

<h2 id="pycharm-远程连接服务器">pycharm 远程连接服务器<a class="anchor-link" href="#pycharm-远程连接服务器" title="Permanent link">¶</a></h2> ...

Untitled

<h2 id="anaconda">Anaconda<a class="anchor-link" href="#anaconda" title="Permanent link">¶</a></h2> <ul> <li>...

Untitled

<div align=center><img src="https://markdownimg-hw.oss-cn-beijing.aliyuncs.com/20241027212237.png" style="zoom: 60%;" /></div>...

Untitled

<div align=center><img src="https://markdownimg-hw.oss-cn-beijing.aliyuncs.com/20240528122659.png"/></div> <h3 id="为什么现在的-llm-都是...

简介

<h2 id="基于大模型的智能体agent">基于大模型的智能体(Agent)<a class="anchor-link" href="#基于大模型的智能体agent" title="Permanent link">¶</a></h2> &...

Untitled

<blockquote> <p><a href="https://zhuanlan.zhihu.com/p/667489780">解析大模型中的Scaling Law</a></p> </blockquote> <p>...

1. Llama进化史

<p>TODO</p> <blockquote> <p>LLAMA(Large Language Model Meta AI)</p> </blockquote> <h2 id="llama1">LLaMA1<...

Untitled

<h2 id="chatglm-6b">ChatGLM-6B<a class="anchor-link" href="#chatglm-6b" title="Permanent link">¶</a></h2> <blockquote&...

Untitled

<h2 id="实战">实战<a class="anchor-link" href="#实战" title="Permanent link">¶</a></h2> <h3 id="self-llm">self-llm<a c...

Untitled

...

Untitled

...

Untitled

...

第7章 大模型之Adaptation

<h1 id="第7章-大模型之adaptation">第7章 大模型之Adaptation<a class="anchor-link" href="#第7章-大模型之adaptation" title="Permanent link">¶</a><...

Untitled

<p>大模型微调的三个节点:</p> <ul> <li><strong>节点 1 ChatGPT</strong>:由于 ChatGPT 惊人的效果,让大家意识到 AGI 的可能性,并重视起了大模型+开放指令微调+强化学习这种三...

【LLM】从零开始训练大模型

<h1 id="llm从零开始训练大模型">【LLM】从零开始训练大模型<a class="anchor-link" href="#llm从零开始训练大模型" title="Permanent link">¶</a></h1> <p&g...

Untitled

<h2 id="大模型框架分类整理">大模型框架分类整理<a class="anchor-link" href="#大模型框架分类整理" title="Permanent link">¶</a></h2> <h3 id="一训练框架"&...

Untitled

<blockquote> <p><a href="https://zhuanlan.zhihu.com/p/20329244481">大模型精度:FP32、TF32、FP16、BF16、FP8、FP4、NF4、INT8</a></p> &l...

Untitled

<h2 id="1-预训练阶段pretraining-stage">1. 预训练阶段(Pretraining Stage)<a class="anchor-link" href="#1-预训练阶段pretraining-stage" title="Permanent link"&g...

第8章 分布式训练

<h1 id="第8章-分布式训练">第8章 分布式训练<a class="anchor-link" href="#第8章-分布式训练" title="Permanent link">¶</a></h1> <h2 id="81-为什么分...

Untitled

<h2 id="大语言模型背后的数据">大语言模型背后的数据<a class="anchor-link" href="#大语言模型背后的数据" title="Permanent link">¶</a></h2> <p>我们要清楚,...

Untitled

<p>以下是目前常见大模型在不同训练阶段的方案总结及对应阶段的样例数据:</p> <hr /> <h3 id="1-预训练阶段pretraining"><strong>1. 预训练阶段(Pretraining)</strong>...

Untitled

<blockquote> <p><a href="https://www.zhihu.com/question/648879790/answer/3504152602">目前有什么可以本地部署的大模型推荐?</a></p> </blo...

升级pip

<h2 id="环境准备">环境准备<a class="anchor-link" href="#环境准备" title="Permanent link">¶</a></h2> <p>本文基础环境如下:</p> <...

升级pip

<h2 id="环境准备">环境准备<a class="anchor-link" href="#环境准备" title="Permanent link">¶</a></h2> <p>本文基础环境如下:</p> <...

model_download.py

<h2 id="openai-o1-model-简介"><strong>OpenAI o1 model 简介</strong><a class="anchor-link" href="#openai-o1-model-简介" title="Permanent...

更换 pypi 源加速库的安装

<p>本节我们简要介绍如何基于 transformers、peft 等框架,对 Qwen2.5-7B-Instruct 模型进行 Lora 微调。Lora 是一种高效微调方法,深入了解其原理可参见博客:<a href="https://zhuanlan.zhihu.com/p/65...

model_download.py

<h2 id="vllm-简介">vLLM 简介<a class="anchor-link" href="#vllm-简介" title="Permanent link">¶</a></h2> <p><code>vLL...

升级 pip

<h2 id="环境准备">环境准备<a class="anchor-link" href="#环境准备" title="Permanent link">¶</a></h2> <pre><code>----------...

更换 pypi 源加速库的安装

<p>本节我们简要介绍基于 transformers、peft 等框架,使用 Qwen2.5-7B-Instruct 模型在<strong>中文法律问答数据集 DISC-Law-SFT</strong> 上进行Lora微调训练,同时使用 <a href="h...

Untitled

<blockquote> <p><a href="https://zhuanlan.zhihu.com/p/662498827">大模型推理加速:看图学KV Cache</a></p> </blockquote> <p&g...

Untitled

<h2 id="模型架构">模型架构<a class="anchor-link" href="#模型架构" title="Permanent link">¶</a></h2> <p>到目前为止,我们已经将语言模型定义为对词元序列的...

Untitled

<h2 id="token模型理解和处理的基本单位">Token:模型理解和处理的基本单位<a class="anchor-link" href="#token模型理解和处理的基本单位" title="Permanent link">¶</a></...

Untitled

<h2 id="大模型-ai-应用全栈开发知识体系">大模型 AI 应用全栈开发知识体系<a class="anchor-link" href="#大模型-ai-应用全栈开发知识体系" title="Permanent link">¶</a></h...

Untitled

<h2 id="分词">分词<a class="anchor-link" href="#分词" title="Permanent link">¶</a></h2> <p>语言模型 <span class="math-inli...

Untitled

...

Untitled

...

Untitled

...

Untitled

...

Untitled

<blockquote> <p>文章来源:<a href="https://zhuanlan.zhihu.com/p/634466306">对比学习在学啥?</a></p> </blockquote> <p>对比学习...

Untitled

<h2 id="multi-modal-gated-mixture-of-local-to-global-experts-for-dynamic-image-fusion"><a href="https://arxiv.org/abs/2302.01392">Multi-Mo...

Untitled

<p>随着 Mixtral 8x7B (<a href="https://mistral.ai/news/mixtral-of-experts/">announcement</a>, <a href="https://huggingface.co/mistr...

Untitled

<h2 id="st-moe-designing-stableand-transferable-sparse-expert-models">ST-MoE: Designing Stableand Transferable Sparse Expert Models<a class="...

Untitled

<h2 id="patch-level-routing-in-mixture-of-experts-is-provably-sample-efficient-for-convolutional-neural-networks">Patch-level Routing in Mixture...

Untitled

<h2 id="moe模型">MoE模型<a class="anchor-link" href="#moe模型" title="Permanent link">¶</a></h2> <table> <thead> &l...

Untitled

...

Untitled

<h2 id="one-student-knows-all-experts-know-from-sparse-to-dense">One Student Knows All Experts Know: From Sparse to Dense<a class="anchor-lin...

Untitled

<h2 id="scaling-vision-with-sparse-mixture-of-experts"><a href="https://arxiv.org/pdf/2106.05974.pdf">Scaling Vision with Sparse Mixture o...

Untitled

<h2 id="from-sparse-to-soft-mixtures-of-experts">From Sparse to Soft Mixtures of Experts<a class="anchor-link" href="#from-sparse-to-soft-mix...

文生图模型之Stable Diffusion

<p><strong>Author:</strong> [Hao Bai]</p> <p><strong>Link:</strong> [https://www.zhihu.com/question/53601228...

Untitled

<p>说起生成模型,大家最容易想到的就是GAN,GAN是<strong>通过对抗训练实现的一种隐式生成模型</strong>。虽然GAN很强大,但其实还有很多与GAN不同的生成模型,最常见的就是基于<strong>最大化似然的模型</strong...

Untitled

<p><a href="https://zhuanlan.zhihu.com/p/11439249557">扩散模型 vs. 最优传输</a></p> <h2 id="references">References<a class="a...

扩散模型之DDIM

<h1 id="扩散模型之ddim">扩散模型之DDIM<a class="anchor-link" href="#扩散模型之ddim" title="Permanent link">¶</a></h1> <p><stron...

Untitled

<p>利用深度学习自动学习特征已经逐步取代了人工构建特征和统计方法。但其中一个关键问题是需要大量的数据,否则会因为参数过多过拟合。但是这个成本非常高昂,因此长久以来,我们都在研究一个关键问题:如何在有限数据下训练高效的深度学习模型?</p> <p>一个重要的里程碑...

Untitled

<h2 id="kimi全文翻译-arrow_down">Kimi全文翻译 :arrow_down:<a class="anchor-link" href="#kimi全文翻译-arrow_down" title="Permanent link">¶</a&g...

Untitled

<h2 id="recurrent-neural-networks">Recurrent Neural Networks<a class="anchor-link" href="#recurrent-neural-networks" title="Permanent link"&g...

Untitled

<h2 id="其他rnn">其他RNN<a class="anchor-link" href="#其他rnn" title="Permanent link">¶</a></h2> <div align=center><im...

Untitled

<h2 id="propulsion-steering-llm-with-tiny-fine-tuning"><a href="https://arxiv.org/abs/2409.10927">Propulsion: Steering LLM with Tiny Fine-...

Untitled

<blockquote> <p>来源:<a href="https://kexue.fm/archives/10226">对齐全量微调!这是我看过最精彩的LoRA改进(一)</a></p> </blockquote> <p...

Untitled

<blockquote> <ul> <li>解读来源:<a href="https://kexue.fm/archives/10266">对齐全量微调!这是我看过最精彩的LoRA改进(二)</a></li> <li>...

------------------------------------

<h2 id="一全参数微调">一、全参数微调<a class="anchor-link" href="#一全参数微调" title="Permanent link">¶</a></h2> <div align=center>&l...

------------------------------------

<h2 id="一adalora在做一件什么事">一、AdaLoRA在做一件什么事<a class="anchor-link" href="#一adalora在做一件什么事" title="Permanent link">¶</a></h2>...

Untitled

<blockquote> <p><a href="https://arxiv.org/abs/2402.12354">《LoRA+: Efficient Low Rank Adaptation of Large Models》</a></p>...

Untitled

<h2 id="learning-attentional-mixture-ofloras-for-language-model-continual-learning">Learning Attentional Mixture ofLoRAs for Language Model Cont...

Untitled

<h2 id="kimi全文翻译-arrow_down">Kimi全文翻译 :arrow_down:<a class="anchor-link" href="#kimi全文翻译-arrow_down" title="Permanent link">¶</a&g...

Untitled

<h2 id="milora-effcient-mixture-of-low-rank-adaptation-for-large-language-models-fine-tuning">MiLoRA: Effcient Mixture of Low-Rank Adaptation fo...

Untitled

<h2 id="loramoe">LoRAMoE<a class="anchor-link" href="#loramoe" title="Permanent link">¶</a></h2> <h2 id="1-背景">1. 背...

Untitled

<h2 id="mixture-of-lora-experts"><a href="https://arxiv.org/abs/2404.13628">Mixture of LoRA Experts</a><a class="anchor-link" hre...

Untitled

...

Untitled

<h2 id="prefix-tuning-optimizing-continuous-prompts-for-generationacl-2021">Prefix-Tuning: Optimizing Continuous Prompts for Generation(ACL 2021...

Untitled

<h2 id="lst-ladder-side-tuning-for-parameter-and-memory-efficient-transfer-learning">LST: Ladder Side-Tuning for Parameter and Memory Efficient ...

Untitled

<blockquote> <p><a href="https://github.com/jxhe/unify-parameter-efficient-tuning">Code</a></p> </blockquote> <...

Untitled

<h2 id="0-摘要">0 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>随着基于 Transformer 的预训练语言模...

Untitled

<h2 id="面向预训练语言模型的-prompt-tuning-技术发展历程">面向预训练语言模型的 Prompt-Tuning 技术发展历程<a class="anchor-link" href="#面向预训练语言模型的-prompt-tuning-技术发展历程" title=...

Untitled

<blockquote> <p><a href="https://zhuanlan.zhihu.com/p/718589490">R-Adapter:零样本模型微调新突破,提升鲁棒性与泛化能力 | ECCV 2024</a></p> <...

Untitled

<h2 id="parameter-efficient-transfer-learning-for-nlp-adaptericml-2019">Parameter-Efficient Transfer Learning for NLP Adapter(ICML 2019)<a cl...

Untitled

<blockquote> <p>Convolutional Neural Networks</p> </blockquote> <h2 id="11-为什么cnn">1.1 为什么CNN<a class="anchor-link" h...

Untitled

<h2 id="adaptive-adapter-routing-for-long-tailed-class-incremental-learning">Adaptive Adapter Routing for Long-Tailed Class-Incremental Learning...

Untitled

<h2 id="cvpr2024-gr">CVPR2024 GR<a class="anchor-link" href="#cvpr2024-gr" title="Permanent link">¶</a></h2> <blockquo...

Untitled

<p>论文标题:VMamba: Visual State Space Model</p> <p>论文地址: https://arxiv.org/abs/2401.10166</p> <p>代码地址: https://github.com/M...

Untitled

<h2 id="背景">背景<a class="anchor-link" href="#背景" title="Permanent link">¶</a></h2> <p>Transformer:以其注意力机制而闻名,其中序列的任何...

Untitled

<table> <thead> <tr> <th>符号</th> <th>维度</th> <th>符号说明</th> <th>默认值</th> </tr> ...

Untitled

<h2 id="selection-mechanism">Selection Mechanism<a class="anchor-link" href="#selection-mechanism" title="Permanent link">¶</a>...

Untitled

<p>论文地址:https://arxiv.org/pdf/2401.09417.pdf<br /> 项目地址:https://github.com/hustvl/Vim<br /> 论文标题:Vision Mamba: Efficient Visual Repr...

Untitled

...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>参数效率微调(PEFT)已成为适应预训练ViT...

Untitled

<h2 id="an-image-is-worth-16x16-words-transformers-for-image-recognition-at-scale">An Image is Worth 16x16 Words: Transformers for Image Recogni...

Untitled

<h2 id="peeling-back-the-layers-interpreting-the-storytelling-of-vit"><a href="https://dl.acm.org/doi/10.1145/3664647.3681712">Peeling Bac...

Untitled

<h2 id="dynamic-tuning-towards-parameter-and-inference-efficiency-for-vit-adaptation"><a href="http://arxiv.org/abs/2403.11808">Dynamic Tu...

Untitled

<h2 id="vision-transformer-详解">Vision Transformer 详解<a class="anchor-link" href="#vision-transformer-详解" title="Permanent link">¶<...

Untitled

<h2 id="vision-transformer-to-discover-the-four-secrets-of-image-patches"><a href="https://linkinghub.elsevier.com/retrieve/pii/S156625352400...

Untitled

<h2 id="符号定义">符号定义<a class="anchor-link" href="#符号定义" title="Permanent link">¶</a></h2> <p>在论文的 Table1 中有给出三个模型(Bas...

Untitled

<h3 id="self-attention-vs-cnn3">Self-attention v.s. CNN3<a class="anchor-link" href="#self-attention-vs-cnn3" title="Permanent link">¶...

Untitled

<p><a href="https://zhuanlan.zhihu.com/p/338817680">Transformer模型详解(图解最完整版)</a></p> <h2 id="前言">前言<a class="anchor-li...

Untitled

<blockquote> <p><a href="https://hw-universal.oss-cn-beijing.aliyuncs.com/self_v7.pptx">self_v7.pptx</a></p> </blockq...

Bert_李宏毅

<h2 id="seq2seq">Seq2Seq<a class="anchor-link" href="#seq2seq" title="Permanent link">¶</a></h2> <p>在开始讲解Attention之...

Untitled

<h2 id="transformer-与-ffn">Transformer 与 FFN<a class="anchor-link" href="#transformer-与-ffn" title="Permanent link">¶</a></h...

Untitled

<h2 id="a-high-level-look">A High-Level Look<a class="anchor-link" href="#a-high-level-look" title="Permanent link">¶</a></h...

Untitled

<h2 id="multi-head-self-attention">Multi-head Self-attention<a class="anchor-link" href="#multi-head-self-attention" title="Permanent link"&g...

Untitled

<h2 id="多层transformer">多层Transformer<a class="anchor-link" href="#多层transformer" title="Permanent link">¶</a></h2> <p&...

Untitled

<blockquote> <p>文章来源:<a href="https://www.zhihu.com/question/592626839/answer/3304714001">为什么Self-Attention要通过线性变换计算Q K V,背后的原理或直观解释...

Untitled

<h2 id="transformer">Transformer<a class="anchor-link" href="#transformer" title="Permanent link">¶</a></h2> <blockquo...

Untitled

<h2 id="理论推导">理论推导<a class="anchor-link" href="#理论推导" title="Permanent link">¶</a></h2> <p>Self-Attention的Input,是一串...

Untitled

<h2 id="1-前言">1. 前言<a class="anchor-link" href="#1-前言" title="Permanent link">¶</a></h2> <p>最近,OpenAI推出的ChatGPT展现出了...

Untitled

<h2 id="applications-">Applications …<a class="anchor-link" href="#applications-" title="Permanent link">¶</a></h2> <p...

Untitled

<h3 id="选择优化器">选择优化器<a class="anchor-link" href="#选择优化器" title="Permanent link">¶</a></h3> <p><strong><em&...

Untitled

<h3 id="选择模型架构">选择模型架构<a class="anchor-link" href="#选择模型架构" title="Permanent link">¶</a></h3> <p><strong><...

Untitled

<ul> <li>预训练参数是最好的参数初始化方式,其次是Xavir。</li> </ul>...

Untitled

<ul> <li>ReLu、Sigmoid、Softmax、Tanh是最常用的4个激活函数。</li> <li>对于输出层,常用sigmoid和softMax激活函数,中间层常用ReLu激活函数,RNN常用Tanh激活函数。</li> &l...

Untitled

<ul> <li>学习率最好是从高到低2倍速度递减一般从0.01开始。</li> <li>如果使用微调,则learning rate设置为0.0001较好。learning rate设置上有很多trick,包括cosing learning rate等...

Untitled

<ul> <li>Epoch number和Early stopping是息息相关的,需要输出loss看一下,到底是什么epoch时效果最好,及时early stopping。</li> <li>Epoch越大,会浪费计算资源;epoch太小,则训练模...

Untitled

<blockquote> <ul> <li><a href="https://github.com/schrodingercatss/tuning_playbook_zh_cn">tuning_playbook_zh_cn</a></...

Untitled

<ul> <li>Focal loss对于极大不平衡的数据集确实有奇效,其中gamma因子可以成10倍数衰减</li> <li>Loss function是Model和数据之外,第三重要的参数。具体使用MSE、Cross entropy、Focal还是...

Untitled

<ul> <li>batch size不能太大,也不能太小;太小会浪费计算资源,太大则会浪费内存;一般设置为16的倍数。对于推荐来说32-64-128-512测试效果再高一般也不会正向了,再低训练太慢了。</li> <li>Learning rate和...

Untitled

<ul> <li>数据量太大的情况下,可以先用1/10,1/100的数据先去估算一下训练或者推理时间,心里有个底。</li> <li>视觉问题一定要使用数据增强。</li> <li>一定要进行数据预处理,把数据分布分散到均值为0...

Untitled

<h2 id="批量大小对梯度下降法的影响">批量大小对梯度下降法的影响<a class="anchor-link" href="#批量大小对梯度下降法的影响" title="Permanent link">¶</a></h2> <p&...

机器学习调参自动优化方法

<p><img alt="cover_image" src="https://mmbiz.qlogo.cn/mmbiz_jpg/vI9nYe94fsEdWl1RjERNWqia63EmoBmWJFgw9TUA0ibJm5hvHWMcHXm4YmAkBibr3yZX8b4RZic2V...

Untitled

<p><a href="https://zhuanlan.zhihu.com/p/343564175">论文阅读笔记:各种Optimizer梯度下降优化算法回顾和总结</a></p> <p>不管是使用PyTorch还是TensorFlow,...

Untitled

<blockquote> <p><a href="https://blog.csdn.net/zhaohongfei_358/article/details/129625803">权重衰减weight_decay参数从入门到精通</a></p&g...

PyTorch | 优化神经网络训练的17种方法

<h1 id="pytorch--优化神经网络训练的17种方法">PyTorch | 优化神经网络训练的17种方法<a class="anchor-link" href="#pytorch--优化神经网络训练的17种方法" title="Permanent link">&pa...

Untitled

<h2 id="todo">TODO<a class="anchor-link" href="#todo" title="Permanent link">¶</a></h2> <h2 id="gradient-descent--mome...

Untitled

<p>临界点其实不一定是在训练一个网络的时候会遇到的最大的障碍。图 3.18 中的横坐标代表参数更新的次数,竖坐标表示损失。一般在训练一个网络的时候,损失原来很大,随着参数不断的更新,损失会越来越小,最后就卡住了,损失不再下降。当我们走到临界点的时候,意味着梯度非常小,但损失不再下降的时...

Untitled

<p><strong>临界点</strong>:<br /> <strong>局部极小值</strong> :<br /> <strong>鞍点</strong>:</p> <...

Untitled

<h2 id="梯度下降">梯度下降<a class="anchor-link" href="#梯度下降" title="Permanent link">¶</a></h2> <p>解决下面的最优化问题:<br /> ...

Untitled

<h2 id="一个框架回顾优化算法">一个框架回顾优化算法<a class="anchor-link" href="#一个框架回顾优化算法" title="Permanent link">¶</a></h2> <p>深度学习优化...

Untitled

<h2 id="背景">背景<a class="anchor-link" href="#背景" title="Permanent link">¶</a></h2> <h3 id="梯度下降">梯度下降<a class="an...

Untitled

<h2 id="dropout">Dropout<a class="anchor-link" href="#dropout" title="Permanent link">¶</a></h2> <h3 id="how-to-train"...

Untitled

<h2 id="lenet-5">LeNet-5<a class="anchor-link" href="#lenet-5" title="Permanent link">¶</a></h2> <p><strong>L...

GAT(Graph Attention Network)

<h1 id="gatgraph-attention-network">GAT(Graph Attention Network)<a class="anchor-link" href="#gatgraph-attention-network" title="Permanent li...

Graph Convolutional Network

<h1 id="graph-convolutional-network">Graph Convolutional Network<a class="anchor-link" href="#graph-convolutional-network" title="Permanent l...

Untitled

<blockquote> <p><a href="https://www.zhihu.com/question/26726794/answer/151282052">各种机器学习算法的应用场景分别是什么(比如朴素贝叶斯、决策树、K 近邻、SVM、逻辑回归最大熵模型...

Untitled

<h2 id="network-pruning修剪">Network Pruning(修剪)<a class="anchor-link" href="#network-pruning修剪" title="Permanent link">¶</a><...

Untitled

<div align=center><img src="https://markdownimg-hw.oss-cn-beijing.aliyuncs.com/20240224165837.png" style="zoom: 50%;" /></div> <...

Untitled

<h2 id="训练策略">训练策略<a class="anchor-link" href="#训练策略" title="Permanent link">¶</a></h2> <p><img alt="image-20220...

Untitled

<h2 id="归一化-normalization">归一化 Normalization<a class="anchor-link" href="#归一化-normalization" title="Permanent link">¶</a></h...

Untitled

<h3 id="导读">导读<a class="anchor-link" href="#导读" title="Permanent link">¶</a></h3> <p>感知机是二类分类的<strong>线性分类模型&...

Logistic Regression

<h1 id="logistic-regression">Logistic Regression<a class="anchor-link" href="#logistic-regression" title="Permanent link">¶</a>...

Untitled

<h2 id="线性判别分析lda">线性判别分析(LDA)<a class="anchor-link" href="#线性判别分析lda" title="Permanent link">¶</a></h2> <h4 id="二分类"&...

Untitled

<blockquote> <p>单变量线性回归(Linear Regression with One Variable)</p> </blockquote> <h2 id="模型表示model-representation">模型表示(Mo...

Untitled

<h2 id="batch">Batch<a class="anchor-link" href="#batch" title="Permanent link">¶</a></h2> <p>我们实际上在算微分的时候,并不是真的对所有...

Untitled

<h2 id="1-背景介绍">1. 背景介绍<a class="anchor-link" href="#1-背景介绍" title="Permanent link">¶</a></h2> <p>首先介绍一下最近邻搜索:最近邻搜索...

Untitled

<h2 id="loss-functioncost-function">Loss Function/Cost Function<a class="anchor-link" href="#loss-functioncost-function" title="Permanent lin...

Untitled

<div align=center><img src="https://markdownimg-hw.oss-cn-beijing.aliyuncs.com/image202208160952736.jpg"/></div> <h2 id="欧氏距离euc...

Reinforcement Learning

<h1 id="reinforcement-learning">Reinforcement Learning<a class="anchor-link" href="#reinforcement-learning" title="Permanent link">¶&...

Untitled

<blockquote> <p><a href="https://zhuanlan.zhihu.com/p/25327755">机器学习算法集锦:从贝叶斯到深度学习及各自优缺点</a></p> <p><em>在我们日...

Untitled

<p>激活函数(Activation Function)是一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式。类似于人类大脑中基于神经元的模型,激活函数最终决定了要发射给下一个神经元的内容。</p> <h2 id="sigmoid-函数">Sigmo...

Untitled

<h2 id="sequence-to-sequence-seq2seq">Sequence-to-sequence (Seq2seq)<a class="anchor-link" href="#sequence-to-sequence-seq2seq" title="Perman...

正则化

<h1 id="正则化">正则化<a class="anchor-link" href="#正则化" title="Permanent link">¶</a></h1> <p><strong>正则化主要用于避免过拟合的...

Untitled

<h2 id="train--dev--test-sets">Train / Dev / Test sets<a class="anchor-link" href="#train--dev--test-sets" title="Permanent link">¶&l...

贝叶斯分类器

<h1 id="贝叶斯分类器">贝叶斯分类器<a class="anchor-link" href="#贝叶斯分类器" title="Permanent link">¶</a></h1> <p><strong>贝叶斯分...

模型评估与选择

<h1 id="模型评估与选择">模型评估与选择<a class="anchor-link" href="#模型评估与选择" title="Permanent link">¶</a></h1> <h2 id="误差">误差<...

Untitled

<h2 id="1相关背景">1.相关背景<a class="anchor-link" href="#1相关背景" title="Permanent link">¶</a></h2> <p>在许多领域的研究与应用中,通常需要对含有...

Untitled

<h2 id="正交普鲁克问题">正交普鲁克问题<a class="anchor-link" href="#正交普鲁克问题" title="Permanent link">¶</a></h2> <blockquote> <p...

Untitled

<p>K-means 是我们最常用的基于欧式距离的聚类算法,其认为两个目标的距离越近,相似度越大。</p> <p>本文大致思路为:先介绍经典的牧师-村名模型来引入 K-means 算法,然后介绍算法步骤和时间复杂度,通过介绍其优缺点来引入算法的调优与改进,最后我们...

初始化

<p>在深度学习中,经常会使用EMA(指数移动平均)这个方法对模型的参数做平均,以求提高测试指标并增加模型鲁棒。</p> <h2 id="ema的定义">EMA的定义<a class="anchor-link" href="#ema的定义" title="P...

Untitled

<p><strong>Gradient Boosting</strong>是Boosting中的一大类算法,它的思想借鉴于梯度下降法,其基本原理是根据当前模型损失函数的负梯度信息来训练新加入的弱分类器,然后将训练好的弱分类器以累加的形式结合到现有模型中。</...

Untitled

<h2 id="knn-简介">KNN 简介<a class="anchor-link" href="#knn-简介" title="Permanent link">¶</a></h2> <p><strong>假定我们...

Untitled

<h2 id="svd性质">SVD性质<a class="anchor-link" href="#svd性质" title="Permanent link">¶</a></h2> <ul> <li>矩阵的奇异值分解一...

Untitled

<h2 id="theory-on-mixture-of-experts-in-continual-learning"><a href="http://arxiv.org/abs/2406.16437">Theory on Mixture-of-Experts in Cont...

Untitled

<h2 id="multimodal-parameter-efficient-few-shot-class-incremental-learning"><a href="https://arxiv.org/abs/2303.04751">Multimodal Paramete...

Untitled

<h2 id="few-shot-tuning-of-foundation-models-for-class-incremental-learning"><a href="https://arxiv.org/abs/2405.16625">Few-shot Tuning of...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>少样本类增量学习(Few-Shot Class...

Untitled

<h2 id="pre-trained-vision-and-language-transformers-are-few-shot-incremental-learners"><a href="https://arxiv.org/abs/2404.02117">Pre-tra...

Untitled

<h2 id="a-survey-on-few-shot-class-incremental-learning"><a href="https://arxiv.org/abs/2304.08130">A survey on few-shot class-incremental...

Untitled

<h2 id="graph-based-methods">Graph-Based Methods<a class="anchor-link" href="#graph-based-methods" title="Permanent link">¶</a>...

Untitled

<h2 id="few-shot-class-incremental-learning-a-survey"><a href="https://arxiv.org/abs/2308.06764">Few-shot Class-incremental Learning: A Su...

Generate some random data

<h2 id="1numpy-的ndarray一种多维数组对象">1、NumPy 的<code>ndarray</code>:一种多维数组对象<a class="anchor-link" href="#1numpy-的ndarray一种多维数组对象" tit...

Untitled

<h2 id="示例随机漫步">示例:随机漫步<a class="anchor-link" href="#示例随机漫步" title="Permanent link">¶</a></h2> <p>我们通过模拟随机漫步来说明如何运用...

Untitled

<h2 id="伪随机数生成">伪随机数生成<a class="anchor-link" href="#伪随机数生成" title="Permanent link">¶</a></h2> <p><code>numpy....

Untitled

<p>NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。</p> <p>NumPy的部分功能如下:</p> <ul> <li>nd...

Untitled

<h2 id="4用于数组的文件输入输出">4、用于数组的文件输入输出<a class="anchor-link" href="#4用于数组的文件输入输出" title="Permanent link">¶</a></h2> <p>...

Untitled

<h2 id="2通用函数快速的元素级数组函数">2、通用函数:快速的元素级数组函数<a class="anchor-link" href="#2通用函数快速的元素级数组函数" title="Permanent link">¶</a></h2>...

Untitled

<h2 id="利用数组进行数据处理">利用数组进行数据处理<a class="anchor-link" href="#利用数组进行数据处理" title="Permanent link">¶</a></h2> <p>NumPy ...

Untitled

<h2 id="线性代数">线性代数<a class="anchor-link" href="#线性代数" title="Permanent link">¶</a></h2> <p>线性代数(如矩阵乘法、矩阵分解、行列式以及其他方...

乘号表示列表元素的重复

<p>列表(<code>list</code>),是一种结构化的、非标量类型,它的值是有序序列,每个值都可以通过索引进行标识。</p> <h2 id="列表定义">列表定义<a class="anchor-link" href="#列...

定义一个ArgumentParser实例

<h2 id="argparse">argparse<a class="anchor-link" href="#argparse" title="Permanent link">¶</a></h2> <p><code>...

创建集合的字面量语法

<h2 id="集合set">集合(set)<a class="anchor-link" href="#集合set" title="Permanent link">¶</a></h2> <h3 id="定义">定义<a cl...

Untitled

<h2 id="序列类型定义">序列类型定义<a class="anchor-link" href="#序列类型定义" title="Permanent link">¶</a></h2> <ul> <li> <p...

Untitled

<h2 id="定义">定义<a class="anchor-link" href="#定义" title="Permanent link">¶</a></h2> <ul> <li>元组是一种序列类型,一旦创建就<...

Untitled

<h2 id="字典dict">字典(dict)<a class="anchor-link" href="#字典dict" title="Permanent link">¶</a></h2> <h3 id="定义">定义<a...

Untitled

<p>在 Python 中,下划线(<code>_</code>)有多种用途和约定,它们通常与变量命名、模块导入、特殊方法(魔术方法)等相关。以下是一些常见的用途和含义:</p> <div align=center><img src=...

python中的模块、库、包有什么区别?

<h1 id="python中的模块库包有什么区别">python中的模块、库、包有什么区别?<a class="anchor-link" href="#python中的模块库包有什么区别" title="Permanent link">¶</a><...

Untitled

<h2 id="类和对象">类和对象<a class="anchor-link" href="#类和对象" title="Permanent link">¶</a></h2> <p>"把一组数据结构和处理它们的方法组成对...

... 此处省略上面的代码 ...

<h2 id="python的历史">Python的历史<a class="anchor-link" href="#python的历史" title="Permanent link">¶</a></h2> <ol> <li&...

Untitled

<blockquote> <p>https://arxiv.org/abs/2110.04596</p> </blockquote> <h2 id="kimi-arrow_down">Kimi :arrow_down:<a class...

Untitled

<blockquote> <p>https://arxiv.org/abs/2408.00483</p> </blockquote> <h2 id="kimi-arrow_down">Kimi :arrow_down:<a class...

Untitled

<h2 id="a-closer-look-at-few-shot-classification"><a href="https://arxiv.org/abs/1904.04232">A Closer Look at Few-shot Classification</...

Untitled

<p><strong>Link:</strong> <a href="https://zhuanlan.zhihu.com/p/258562899">小样本学习——概念、原理与方法简介(Few-shot learning)</a></...

Untitled

<h2 id="universal-representation-learning-from-multiple-domains-for-few-shot-classification"><a href="https://arxiv.org/abs/2103.13841">Un...

Untitled

<h2 id="pvit-prior-augmented-vision-transformer-for-out-of-distribution-detection"><a href="http://arxiv.org/abs/2410.20631">PViT: Prior-a...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>在许多现实世界的机器学习应用中,检测从训练分布...

Untitled

...

Untitled

<h2 id="large-scale-incremental-learning">Large scale incremental learning<a class="anchor-link" href="#large-scale-incremental-learning" tit...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>在类别增量学习(Class Increment...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>本文关注增量学习阶段中普遍存在的性能不平衡问题...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>深度学习模型在增量学习新任务时往往会遗忘先前学...

Untitled

<h2 id="packnet-adding-multiple-tasks-to-a-single-network-by-iterative-pruning">PackNet: Adding Multiple Tasks to a Single Network by Iterative ...

Untitled

<blockquote> <p>DER: Dynamically Expandable Representation for Class Incremental Learning](https://arxiv.org/abs/2103.16788) | CVPR 2021 |...

Untitled

<blockquote> <p>FOSTER: <a href="https://arxiv.org/abs/2204.04662">Feature Boosting and Compression for Class-Incremental Learning&l...

Untitled

<h2 id="maintaining-discrimination-and-fairness-in-class-incremental-learning">Maintaining discrimination and fairness in class incremental lear...

Untitled

<h2 id="overcoming-catastrophic-forgetting-in-neural-networks">Overcoming catastrophic forgetting in neural networks<a class="anchor-link" hr...

Untitled

<h2 id="weighted-ensemble-models-are-strong-continual-learners">Weighted Ensemble Models Are Strong Continual Learners<a class="anchor-link" ...

Untitled

<h2 id="gradient-based-sample-selection-for-online-continual-learning">Gradient based sample selection for online continual learning<a class=...

Untitled

<h2 id="inflora-interference-free-low-rank-adaptation-for-continual-learning"><a href="https://arxiv.org/abs/2404.00228">InfLoRA-Interfere...

Untitled

<h2 id="expandable-subspace-ensemble-for-pre-trained-model-based-class-incremental-learning"><a href="http://arxiv.org/abs/2403.12030">Exp...

Untitled

<h2 id="revisiting-class-incremental-learning-with-pre-trained-models-generalizability-and-adaptivity-are-all-you-need">Revisiting Class-Increme...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>“预训练 → 下游适应”为持续学习(Conti...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>现有的联邦学习方法在涉及数据隐私和非独立同分布...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>基于提示的持续学习利用预训练知识进行下游持续学...

Untitled

<blockquote> <p><a href="http://arxiv.org/abs/2412.09441">MOS: Model Surgery for Pre-Trained Model-Based Class-Incremental Learning&...

Untitled

<h2 id="learning-to-prompt-for-continual-learning"><a href="https://arxiv.org/abs/2112.08654">Learning to Prompt for Continual Learning<...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>持续学习使模型能够自主适应不断变化的环境或数据...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>计算机视觉模型在学习不断变化的训练数据中的新概...

Untitled

<blockquote> <p><a href="http://arxiv.org/abs/2303.09447">Steering Prototypes with Prompt-tuning for Rehearsal-free Continual Learni...

Untitled

<h2 id="promptfusion-decoupling-stability-and-plasticity-for-continual-learning"><a href="http://arxiv.org/abs/2303.07223">PromptFusion: D...

Untitled

<h2 id="dualprompt-complementary-prompting-for-rehearsal-free-continual-learning"><a href="https://arxiv.org/abs/2204.04799">DualPrompt: C...

Untitled

<h2 id="dual-consistency-model-inversion-for-non-exemplar-class-incremental-learning">Dual-consistency Model Inversion for Non-exemplar Class In...

Untitled

<h2 id="icarl-incremental-classifier-and-representation-learning">iCaRL: Incremental Classifier and Representation Learning<a class="anchor-l...

Untitled

<h2 id="learning-without-forgetting">Learning without Forgetting<a class="anchor-link" href="#learning-without-forgetting" title="Permanent l...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>传统的学习系统在封闭世界中针对固定数量的类别进...

Untitled

<h2 id="learning-a-unified-classifier-incrementally-via-rebalancing">Learning a unified classifier incrementally via rebalancing<a class="anc...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>持续学习(Continual Learning...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>在持续学习(Continual Learnin...

Untitled

<h2 id="continual-learning-for-large-language-models-a-survey">Continual Learning for Large Language Models: A Survey<a class="anchor-link" h...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>近期,在自然语言处理(NLP)和计算机视觉(C...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>在当今世界的应用中,经常面临流数据,这要求学习...

Untitled

<blockquote> <p>基于 <a href="https://arxiv.org/abs/2302.03648">Class-Incremental Learning: A Survey</a></p> </blockquo...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>持续学习中的首要挑战是缓解灾难性遗忘,使模型在...

Untitled

<blockquote> <p>Rectification-Based Knowledge Retention for Task Incremental Learning<br /> <a href="https://mp.weixin.qq.com/s/c...

Untitled

<h2 id="memory-efficient-incremental-learning-through-feature-adaptation"><a href="http://arxiv.org/abs/2004.00713">Memory-Efficient Incre...

Untitled

...

Untitled

<h2 id="semantic-drift-compensation-for-class-incremental-learning">Semantic Drift Compensation for Class-Incremental Learning<a class="ancho...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>本文聚焦于一个具有挑战性的问题——在线任务无关...

Untitled

<h2 id="calibrating-cnns-for-lifelong-learning">Calibrating CNNs for Lifelong Learning<a class="anchor-link" href="#calibrating-cnns-for-life...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>持续学习方法通常面临灾难性遗忘的问题,尤其是在...

Untitled

<h2 id="fcs-feature-calibration-and-separation-for-non-exemplar-class-incremental-learning"><a href="https://ieeexplore.ieee.org/document/106...

Untitled

<h2 id="prototype-sample-relation-distillation-towards-replay-free-continual-learning">Prototype-sample relation distillation: towards replay-fr...

Untitled

<p>不同模态进行对齐:CLIP、VLMo<br /> 大语言模型能力会更重要:Frozen、FLamingo、BLIP-2<br /> MLP即可完成对齐:LLaVA、MiniGPT-4<br /> 视觉编码器很重要:Deepseek-VL、Qwen...

Untitled

<h2 id="摘要">摘要<a class="anchor-link" href="#摘要" title="Permanent link">¶</a></h2> <p>BLIP 是一种多模态 Transformer 模型,主要针...

Untitled

<blockquote> <p><a href="http://arxiv.org/abs/2406.18868">Advancing Cross-domain Discriminability in Continual Learning of Vision-La...

Untitled

<blockquote> <p><a href="https://arxiv.org/abs/2305.19270">Paper</a> </p> </blockquote> <h2 id="0-摘要">0. 摘要&...

Untitled

<h2 id="boosting-continual-learning-of-vision-language-models-via-mixture-of-experts-adapters"><a href="http://arxiv.org/abs/2403.11549">B...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>持续学习(Continual Learning...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>类增量学习是一个具有挑战性的问题,其目标是训练...

Untitled

<blockquote> <p><a href="https://arxiv.org/abs/2403.18383">Paper</a> | <a href="https://github.com/DoubleClass/GMM">Code...

Untitled

<h2 id="chatgpt全文翻译-arrow_down">ChatGPT全文翻译 :arrow_down:<a class="anchor-link" href="#chatgpt全文翻译-arrow_down" title="Permanent link">¶...

Untitled

<h2 id="s-prompts-learning-with-pre-trained-transformers-an-occams-razor-for-domain-incremental-learning"><a href="http://arxiv.org/abs/2207....

Untitled

...

Untitled

...

Untitled

...

Untitled

<h3 id="特征变换迁移法">特征变换迁移法<a class="anchor-link" href="#特征变换迁移法" title="Permanent link">¶</a></h3> <ul> <li>目标是...

Untitled

...

Untitled

...

Untitled

<h3 id="模型预训练迁移法">模型预训练迁移法<a class="anchor-link" href="#模型预训练迁移法" title="Permanent link">¶</a></h3> <p>第三种比较常用的方法则是...

Untitled

<p>迁移学习(Transfer Learning)根据 领域 和 任务的相似性,可以这样划分:</p> <div align=center><img src="https://markdownimg-hw.oss-cn-beijing.aliyuncs.c...

Untitled

<blockquote> <p><a href="https://zhuanlan.zhihu.com/p/481537410">Domain Generalization | 域适应、域泛化、OOD、开放集问题定义</a></p> <...

Untitled

<h3 id="样本权重迁移法">样本权重迁移法<a class="anchor-link" href="#样本权重迁移法" title="Permanent link">¶</a></h3> <ol> <li> &l...

Untitled

<h2 id="reference">Reference<a class="anchor-link" href="#reference" title="Permanent link">¶</a></h2> <ol> <li&...

Untitled

<p>使用 PyTorch Lightning 进行模型训练可以简化深度学习项目的开发流程,提高代码的可读性和可维护性。以下是使用 PyTorch Lightning 完成模型训练的主要步骤:</p> <ol> <li><strong>安装...

Pytorch Lightning 完全攻略

<h1 id="pytorch-lightning-完全攻略">Pytorch Lightning 完全攻略<a class="anchor-link" href="#pytorch-lightning-完全攻略" title="Permanent link">¶&...

Untitled

<h2 id="1-导入必要的模块">1. 导入必要的模块<a class="anchor-link" href="#1-导入必要的模块" title="Permanent link">¶</a></h2> <pre><co...

批次的大小

<h2 id="常见的包">常见的包<a class="anchor-link" href="#常见的包" title="Permanent link">¶</a></h2> <pre><code class="langua...

定义模型和优化器

<h2 id="优化器">优化器<a class="anchor-link" href="#优化器" title="Permanent link">¶</a></h2> <p>PyTorch 中的优化器是用于管理并更新模型中可学习...

定义一个简单的线性模型

<h2 id="损失函数">损失函数<a class="anchor-link" href="#损失函数" title="Permanent link">¶</a></h2> <p>损失函数是衡量模型输出与真实标签之间的差异。我们...

Untitled

...

参数如下:

<h2 id="tensorboard-安装">TensorBoard 安装<a class="anchor-link" href="#tensorboard-安装" title="Permanent link">¶</a></h2> <...

Untitled

<h2 id="epoch与global-step的关系">Epoch与Global Step的关系<a class="anchor-link" href="#epoch与global-step的关系" title="Permanent link">¶</a&...

安装方法一

<h2 id="可视化网络结构">可视化网络结构<a class="anchor-link" href="#可视化网络结构" title="Permanent link">¶</a></h2> <p>随着深度神经网络做的的发展,网...

初始化wandb

<h2 id="使用-wandb-可视化训练过程">使用 wandb 可视化训练过程<a class="anchor-link" href="#使用-wandb-可视化训练过程" title="Permanent link">¶</a></h2&g...

Untitled

<h2 id="1-创建dataset">1 创建dataset<a class="anchor-link" href="#1-创建dataset" title="Permanent link">¶</a></h2> <p><...

使用 create_model

<h3 id="使用">使用<a class="anchor-link" href="#使用" title="Permanent link">¶</a></h3> <pre><code class="language-pyt...

Untitled

<h2 id="概述">概述<a class="anchor-link" href="#概述" title="Permanent link">¶</a></h2> <p>PyTorchImageModels,简称 timm,是一个...

Representation layer

<p><a href="https://zhuanlan.zhihu.com/p/350837279">视觉 Transformer 优秀开源工作:timm 库 vision transformer 代码解读</a></p> <h2 id="ti...

prints: torch.Size([1000])

<blockquote> <p><a href="https://zhuanlan.zhihu.com/p/404107277">视觉神经网络模型优秀开源工作:timm 库使用方法和代码解读</a></p> </blockquote&...

Untitled

<pre><code class="language-python">class CosineLinear(nn.Module): def __init__(self, in_features, out_features, nb_proxy=1, to_reduce=...

Untitled

<ul> <li>不要使用太大的线性层。因为 nn.Linear(m,n)使用的是的内存,线性层太大很容易超出现有显存。</li> <li>不要在太长的序列上使用 RNN。因为 RNN 反向传播使用的是 BPTT 算法,其需要的内存和输入序列的长度呈线...

convolutional neural network (2 convolutional layers)

<h2 id="模型定义和操作">模型定义和操作<a class="anchor-link" href="#模型定义和操作" title="Permanent link">¶</a></h2> <p>一个简单两层卷积网络的示例&l...

Untitled

<h2 id="计算数据集的均值和标准差">计算数据集的均值和标准差<a class="anchor-link" href="#计算数据集的均值和标准差" title="Permanent link">¶</a></h2> <pre&g...

Untitled

<h2 id="参数相关">参数相关<a class="anchor-link" href="#参数相关" title="Permanent link">¶</a></h2> <h3 id="打印梯度更新的参数">打印梯度更新的参...

假设输入张量

<h2 id="计算分类准确率">计算分类准确率<a class="anchor-link" href="#计算分类准确率" title="Permanent link">¶</a></h2> <pre><code clas...

install imgaug either via pypi

<h2 id="imgaug-简介和安装">imgaug 简介和安装<a class="anchor-link" href="#imgaug-简介和安装" title="Permanent link">¶</a></h2> <h3 id...

Untitled

<h2 id="数据增强data-augmentation">数据增强(Data augmentation)<a class="anchor-link" href="#数据增强data-augmentation" title="Permanent link">¶&l...

Untitled

<div align=center><img src="https://markdownimg-hw.oss-cn-beijing.aliyuncs.com/20240605173714.png"/></div> <p>-<a href="ht...

Untitled

<h3 id="3-自监督学习增强方法">3. 自监督学习增强方法<a class="anchor-link" href="#3-自监督学习增强方法" title="Permanent link">¶</a></h3> <ul> ...

定义TransMix增强方法

<h2 id="高级数据增强方法">高级数据增强方法<a class="anchor-link" href="#高级数据增强方法" title="Permanent link">¶</a></h2> <ul> <li>...

原始代码

<h2 id="分布式-evaluation">分布式 evaluation<a class="anchor-link" href="#分布式-evaluation" title="Permanent link">¶</a></h2> <...

Untitled

<h2 id="gpu-集群上的分布式">GPU 集群上的分布式<a class="anchor-link" href="#gpu-集群上的分布式" title="Permanent link">¶</a></h2> <blockquo...

main.py

<h2 id="horovod-的优雅实现">Horovod 的优雅实现<a class="anchor-link" href="#horovod-的优雅实现" title="Permanent link">¶</a></h2> <bl...

# torch.distributed

<h2 id="使用-apex-再加速">使用 Apex 再加速<a class="anchor-link" href="#使用-apex-再加速" title="Permanent link">¶</a></h2> <blockquo...

main.py

<h2 id="使用-torchmultiprocessing-取代启动器">使用 torch.multiprocessing 取代启动器<a class="anchor-link" href="#使用-torchmultiprocessing-取代启动器" title="Perm...

Untitled

<h2 id="参考资料">参考资料:<a class="anchor-link" href="#参考资料" title="Permanent link">¶</a></h2> <ol> <li><a href=...

这里要 model.cuda()

<blockquote> <p>单机多卡( Data Parallel,DP)</p> </blockquote> <h2 id="简介">简介<a class="anchor-link" href="#简介" title="Perm...

Untitled

<h2 id="network-partitioning">Network partitioning<a class="anchor-link" href="#network-partitioning" title="Permanent link">¶</a&...

Untitled

<h3 id="dp-与-ddp-的优缺点">DP 与 DDP 的优缺点<a class="anchor-link" href="#dp-与-ddp-的优缺点" title="Permanent link">¶</a></h3> <h4...

创建存放在 GPU 的数据

<h2 id="tensors"><a href="https://pytorch.org/docs/stable/torch.html#tensors">Tensors</a><a class="anchor-link" href="#tensors" t...

再来反向传播⼀一次,注意grad是累加的

<h2 id="自动求导">自动求导<a class="anchor-link" href="#自动求导" title="Permanent link">¶</a></h2> <p>PyTorch 中,所有神经网络的核心是<...

假设tensor_gpu是你的GPU上的Tensor

<h2 id="matplotlib">matplotlib<a class="anchor-link" href="#matplotlib" title="Permanent link">¶</a></h2> <pre><...

创建一个形状为 (4, 4) 的张量

<h2 id="view-转换维度">view() 转换维度<a class="anchor-link" href="#view-转换维度" title="Permanent link">¶</a></h2> <blockquote&g...

Untitled

<h2 id="ai硬件加速设备">AI硬件加速设备<a class="anchor-link" href="#ai硬件加速设备" title="Permanent link">¶</a></h2> <p>在进行模型部署和训练时,...

Untitled

<h3 id="int---float">int -> float<a class="anchor-link" href="#int---float" title="Permanent link">¶</a></h3> <bloc...

tensor([[ 1, 20],

<h2 id="torchtopk">torch.topk()<a class="anchor-link" href="#torchtopk" title="Permanent link">¶</a></h2> <ol> <...

文章结构

<h1 id="文章结构">文章结构<a class="anchor-link" href="#文章结构" title="Permanent link">¶</a></h1> <p>提及 RNN,绝大部分人都知道他是一个用于序列任...

Swin Transformer 解读

<h1 id="swin-transformer-解读">Swin Transformer 解读<a class="anchor-link" href="#swin-transformer-解读" title="Permanent link">¶</a>...

Transformer 解读

<h1 id="transformer-解读">Transformer 解读<a class="anchor-link" href="#transformer-解读" title="Permanent link">¶</a></h1> <...

ViT解读

<h1 id="vit解读">ViT解读<a class="anchor-link" href="#vit解读" title="Permanent link">¶</a></h1> <p> <font size=3>&...

文章结构

<h1 id="文章结构">文章结构<a class="anchor-link" href="#文章结构" title="Permanent link">¶</a></h1> <p>在<a href="./RNN%E8%AF...

ResNet源码解读

<h1 id="resnet源码解读">ResNet源码解读<a class="anchor-link" href="#resnet源码解读" title="Permanent link">¶</a></h1> <p>本文对残差神...

Untitled

<h2 id="pytorch-实现模型训练的-5-大要素">PyTorch 实现模型训练的 5 大要素<a class="anchor-link" href="#pytorch-实现模型训练的-5-大要素" title="Permanent link">¶<...

Untitled

<h3 id="tensordataset">TensorDataset<a class="anchor-link" href="#tensordataset" title="Permanent link">¶</a></h3> <bl...

设置训练集的数据增强和转化

<h2 id="transforms">transforms<a class="anchor-link" href="#transforms" title="Permanent link">¶</a></h2> <p>我们在安装&...

使用示例

<h2 id="dataloader-与-dataset">DataLoader 与 DataSet<a class="anchor-link" href="#dataloader-与-dataset" title="Permanent link">¶</a&...

手动设置分布式环境变量(仅用于 Debug)

<p>本地pycharm debug报错,该如何修改</p> <p>这个错误是因为在 <strong>本地 PyCharm 调试</strong> 分布式训练代码时,<strong>没有正确设置环境变量</strong&g...

Untitled

<h2 id="modeleval">model.eval()<a class="anchor-link" href="#modeleval" title="Permanent link">¶</a></h2> <h3 id="pyto...

Untitled

<p>TODO<br /> 总 loss 由多个 loss 组成。如果只有一个 loss,那么直接 loss.backward()即可,不止一个 loss 时, backward()放在哪里?</p> <p>目前的写法:</p> <p...

output = net(fake_img, 'conv', 'prelu')

<h2 id="模型容器">模型容器<a class="anchor-link" href="#模型容器" title="Permanent link">¶</a></h2> <p>Torch.nn中一个重要的概念是模型容器 (&...

Untitled

<p>一个神经网络的典型训练过程如下:</p> <ol> <li>定义包含一些可学习参数(或者叫权重)的神经网络</li> <li>在输入数据集上迭代</li> <li>通过网络处理输入</li&g...

导入必要的package

<h2 id="模型修改">模型修改<a class="anchor-link" href="#模型修改" title="Permanent link">¶</a></h2> <h3 id="修改模型层">修改模型层<a c...

查看随机初始化的conv参数

<h2 id="梯度消失与梯度爆炸">梯度消失与梯度爆炸<a class="anchor-link" href="#梯度消失与梯度爆炸" title="Permanent link">¶</a></h2> <p>考虑一个 3 层的...

Untitled

<h2 id="模型构建">模型构建<a class="anchor-link" href="#模型构建" title="Permanent link">¶</a></h2> <p>网络模型的内容如下,包括<strong&g...

实例化模型

<h2 id="nnparameter">nn.Parameter<a class="anchor-link" href="#nnparameter" title="Permanent link">¶</a></h2> <p>在 ...

保存整个模型

<h2 id="模型存储内容">模型存储内容<a class="anchor-link" href="#模型存储内容" title="Permanent link">¶</a></h2> <p>一个PyTorch模型主要包含两个部...

Untitled

<h2 id="state_dict">state_dict<a class="anchor-link" href="#state_dict" title="Permanent link">¶</a></h2> <blockquote&...

定义模型

<h2 id="torchoptimsgd">torch.optim.SGD<a class="anchor-link" href="#torchoptimsgd" title="Permanent link">¶</a></h2> <...

Untitled

<h2 id="集成学习概述">集成学习概述<a class="anchor-link" href="#集成学习概述" title="Permanent link">¶</a></h2> <p>集成学习(ensemble lear...

Untitled

<blockquote> <p><a href="https://zhuanlan.zhihu.com/p/87885678">【机器学习】决策树(下)——XGBoost、LightGBM(非常详细)</a></p> </blockq...

Untitled

<h2 id="2-lightgbm">2. LightGBM<a class="anchor-link" href="#2-lightgbm" title="Permanent link">¶</a></h2> <p>Light...

Untitled

<p>决策树是一个非常常见并且优秀的机器学习算法,它易于理解、可解释性强,其可作为分类算法,也可用于回归模型。</p> <h2 id="1-id3">1. ID3<a class="anchor-link" href="#1-id3" title="Perm...

Untitled

<h2 id="kimi全文翻译-arrow_down">Kimi全文翻译 :arrow_down:<a class="anchor-link" href="#kimi全文翻译-arrow_down" title="Permanent link">¶</a&g...

Untitled

<h2 id="chatgpt全文翻译-arrow_down">ChatGPT全文翻译 :arrow_down:<a class="anchor-link" href="#chatgpt全文翻译-arrow_down" title="Permanent link">¶...

ChatGPT总结 :arrow_down:

<h1 id="chatgpt总结-arrow_down">ChatGPT总结 :arrow_down:<a class="anchor-link" href="#chatgpt总结-arrow_down" title="Permanent link">¶</...

Untitled

<h2 id="chatgpt全文翻译-arrow_down">ChatGPT全文翻译 :arrow_down:<a class="anchor-link" href="#chatgpt全文翻译-arrow_down" title="Permanent link">¶...

Untitled

<h2 id="半监督增量学习">半监督增量学习<a class="anchor-link" href="#半监督增量学习" title="Permanent link">¶</a></h2> <p>首先,让我们先学习下半监督式的...

Untitled

<h2 id="0-摘要">0. 摘要<a class="anchor-link" href="#0-摘要" title="Permanent link">¶</a></h2> <p>域增量学习(Domain-Incrementa...

Untitled

<h2 id="ensemble-knowledge-distillation-for-ctr-prediction"><a href="http://arxiv.org/abs/2011.04106">Ensemble Knowledge Distillation for ...

Untitled

<p>知识蒸馏是一种模型压缩方法,是一种基于“教师-学生网络思想”的训练方法,由于其简单,有效,在工业界被广泛应用。这一技术的理论来自于2015年Hinton发表的一篇神作 <a href="http://arxiv.org/abs/1503.02531">Distillin...

Untitled

<blockquote> <p><a href="https://zhuanlan.zhihu.com/p/664343770">Springer知识蒸馏专著解读 | 面向图像识别的知识蒸馏综述</a></p> </blockquot...

Untitled

<h2 id="全文翻译">全文翻译<a class="anchor-link" href="#全文翻译" title="Permanent link">¶</a></h2> <h2 id="0-摘要">0. 摘要<a cl...

Untitled

<p><a href="https://zhuanlan.zhihu.com/p/31558973">科普帖:深度学习中GPU和显存分析</a></p> <h2 id="0-预备知识">0 预备知识<a class="anchor-l...

l2p-cifar

<h2 id="nohup">nohup<a class="anchor-link" href="#nohup" title="Permanent link">¶</a></h2> <ul> <li> <p>...

Untitled

<h2 id="概念">概念<a class="anchor-link" href="#概念" title="Permanent link">¶</a></h2> <ul> <li> <p><code...

Untitled

<blockquote> <p><a href="https://blog.csdn.net/Hanx09/article/details/107322958">内存与显存、CPU与GPU、GPU与CUDA</a></p> </blo...

Untitled

<p>TODO<br /> - https://mp.weixin.qq.com/s/KbYKAnZYQfLB2VkKQPhCVQ</p> <hr /> <p>在计算机的世界里,总线就是这样一条高速公路,它连接着CPU(中央处理器,相当于城...

Untitled

<h2 id="显存大小和带宽">显存大小和带宽<a class="anchor-link" href="#显存大小和带宽" title="Permanent link">¶</a></h2> <p>NVIDIA GPU 显存有两...

Untitled

<p>TODO<br /> https://mp.weixin.qq.com/s/9MqBP6OVlS_uq-VVuKc2cg</p> <hr /> <h2 id="tensor-core-算力计算">Tensor Core 算力计算<...

Untitled

<h2 id="常用命令">常用命令<a class="anchor-link" href="#常用命令" title="Permanent link">¶</a></h2> <ul> <li>nohop 命令提交的作...

Untitled

<h2 id="1英伟达-gpu-架构演进史">1.英伟达 GPU 架构演进史<a class="anchor-link" href="#1英伟达-gpu-架构演进史" title="Permanent link">¶</a></h2> &l...

Untitled

<h2 id="ccf-会议截稿日期汇总网站">CCF 会议截稿日期汇总网站<a class="anchor-link" href="#ccf-会议截稿日期汇总网站" title="Permanent link">¶</a></h2> <...

Untitled

<ol> <li>arXiv(发音同archive)是一个提供学术文章在线发表的服务器,领域涵盖物理学、数学、非线性科学、计算机科学、定量生命科学、计量金融学和统计学。</li> <li>arXiv名中的“X”对应于希腊字母“χ”(大写为“Χ”,发音c...

Untitled

<h2 id="实验结果">实验结果<a class="anchor-link" href="#实验结果" title="Permanent link">¶</a></h2> <h3 id="baseline">Baseline&...

Untitled

<pre><code class="language-python">colors = ['#43978F', "#9467bd",'#ED9F9B','#84C2AE', '#E56F5E', '#F6C957','#589CD6', '#FFB77F'...

Untitled

<h2 id="chatgpt学术论文指令">ChatGPT学术论文指令<a class="anchor-link" href="#chatgpt学术论文指令" title="Permanent link">¶</a></h2> <p&...

Untitled

<blockquote> <p><a href="http://arxiv.org/abs/2211.15969">Isolation and Impartial Aggregation: A Paradigm of Incremental Learning wi...

Untitled

<h2 id="全文翻译">全文翻译<a class="anchor-link" href="#全文翻译" title="Permanent link">¶</a></h2> <blockquote> <ol> <...

规范与注意事项

<h1 id="规范与注意事项">规范与注意事项<a class="anchor-link" href="#规范与注意事项" title="Permanent link">¶</a></h1> <h2 id="规范">规范<...

Untitled

<ol> <li>Overclaim</li> </ol> <p>Overclaim是我一开始投稿CVPR时审稿人给我的反馈,当时还一直在揣摩,为啥审稿人会这么说?是我的实验漏掉了部分,还是我的效果不够有说服力?这点其实是个很主观的评价,作...

Untitled

<h2 id="先看题目摘要和引言">先看题目,摘要和引言<a class="anchor-link" href="#先看题目摘要和引言" title="Permanent link">¶</a></h2> <p>引言部分的tea...

自我学习 & 自我聚类

<p>在zero-shot-learning里面呢?跟刚才讲的task是一样的,source data有label,target data每天label。在刚才task里面可以把source data当做training data,把target data当做testing data,但...