知识蒸馏概述
知识蒸馏是一种模型压缩方法,是一种基于“教师-学生网络思想”的训练方法,由于其简单,有效,在工业界被广泛应用。这一技术的理论来自于2015年Hinton发表的一篇神作 Distilling the Knowledge in a Neural Network Knowledge Distillation,简称KD,顾名思义,就是将已经训练好的模型包含的知识(”Knowledge”),蒸馏(“Distill”)提取到另一个模型里面去。 1 介绍1.1. 论文提出的背景虽然在一般情况下,我们不会去区分训练和部署使用的模型,但是训练和部署之间存在着一定的不一致性: 在训练过程中,我们需要使用...
知识蒸馏分类
Springer知识蒸馏专著解读 | 面向图像识别的知识蒸馏综述 本次文章介绍我们发表于由Springer出版的专著《Advancements in Knowledge Distillation: Towards New Horizons of Intelligent Systems 》中的第一章“Categories of Response-Based, Feature-Based, and Relation-Based Knowledge Distillation”。该篇文章的主要内容是整理了面向图像识别的知识蒸馏的相关工作,首先在response-based、feature-b...
AED
Ensemble Knowledge Distillation for CTR Prediction0. 摘要近年来,基于深度学习的模型在点击率(CTR)预测中得到了广泛研究,并在许多工业应用中提升了预测准确性。然而,当前的研究主要集中在构建复杂的网络架构以更好地捕捉复杂的特征交互和动态用户行为。模型复杂度的增加可能会减缓在线推理速度,并阻碍其在实时应用中的采用。相反,我们的工作目标是一种基于知识蒸馏(KD)的新模型训练策略。KD 是一种教师 - 学生学习框架,将教师模型学到的知识传递给学生模型。KD 策略不仅允许我们将学生模型简化为普通的 DNN 模型,还能在准确性上显著超越最先进的教...
WKD
全文翻译0. 摘要自Hinton等人的开创性工作以来,基于Kullback-Leibler散度(KL-Div)的知识蒸馏已成为主流,其变种在近期取得了令人瞩目的性能。然而,KL-Div仅比较教师和学生模型之间对应类别的概率,缺乏跨类别比较的机制。此外,KL-Div在应用于中间层时存在问题,因为它无法处理非重叠分布,并且不了解底层流形的几何结构。为了解决这些问题,我们提出了基于Wasserstein距离(WD)的知识蒸馏方法。具体来说,我们提出了一种基于离散WD的logit蒸馏方法WKD-L,该方法通过跨类别比较概率,从而能够显式利用类别之间的丰富关联。此外,我们引入了一种基于连续WD的特...
Propulsion
Propulsion: Steering LLM with Tiny Fine-Tuning 自然语言处理(NLP)和相邻领域因大型语言模型的快速发展而实现了前所未有的进步。然而,为特定任务微调这些模型的计算成本仍然很高,而且可能降低先学习到的特征。为了应对这些挑战,作者提出了一种名为 Propulsion 的全新高效微调方法,旨在在大幅降低计算成本的同时优化特定任务的性能。受物理运动中控制调整概念的启发, Propulsion 选择性地重新缩放预训练模型的特定维度,指导输出预测直接朝着任务目标,而不修改模型的参数。通过在预训练层引入可训练的轻量级 Propulsion 参数,作者在微调...
对比学习在学什么
文章来源:对比学习在学啥? 对比学习是大模型的入门算法。它的想法很简单:对于输入$x$, 找一些它的正样本和负样本,希望在学习之后的网络特征空间中,$x$ 正样本近一点,负样本远一点。 实际上,对比学习并非个例,预训练算法大多非常简单:要么是遮盖一部分数据内容让模型猜出来,要么是让模型不断预测一句话的下一个词是什么等等。因为这些算法过于简单,人们很难理解它们究竟如何创造出了强大的模型,所以往往会把大模型的成功归功于海量数据或巨大算力,把算法设计归为炼丹与悟性。 对比学习与谱聚类算法 对比学习与谱聚类算法的关系不是我们第一个提出的。人们早就在实践中发现,对比学习得到的模型在分类任务上有...
小样本学习
Link: 小样本学习——概念、原理与方法简介(Few-shot learning) Few-shot learning (FSL) 在机器学习领域具有重大意义和挑战性,是否拥有从少量样本中学习和概括的能力,是将人工智能和人类智能进行区分的明显分界点,因为人类可以仅通过一个或几个示例就可以轻松地建立对新事物的认知,而机器学习算法通常需要成千上万个有监督样本来保证其泛化能力。原则上我们将FSL方法分为基于生成模型和基于判别模型两种,其中基于元学习的FSL方法值得特别注意。 到目前为止,FSL有一部分比较重要的应用,涵盖了计算机视觉,自然语言处理,音频和语音,强化学习和数据分析等许多研究热点...
Deep Long-Tailed Learning-A Survey
https://arxiv.org/abs/2110.04596 Kimi :arrow_down:问题阐述背景:深度学习在视觉识别领域取得了显著进展,但其在处理长尾分布数据集时面临挑战。长尾分布数据集中的类别数量众多,但样本分布极不均衡,少数类别(头类)拥有大量样本,而大多数类别(尾类)样本数量有限。这导致基于深度网络的识别模型在多数类别上表现良好,而在少数类别上性能不足,限制了模型在现实世界应用的实用性。 研究问题的重要性:长尾学习(Long-Tailed Learning, LTL)对于提升深度学习模型在少数类别上的性能至关重要,这有助于模型在现实世界中的广泛应用,如面部识别、...
小样本学习论文阅读
A Closer Look at Few-shot Classification 论文阅读笔记:A Closer Look at Few-shot Classification 对比了两种分类原则,直接学习分类器权重(Baseline)和余弦相似度分类(Baseline++)。 Training Pipeline 分类器 Mind the Gap Between Prototypes and Images in Cross-domain Finetuning NeurIPS 2024|少样本学习中类别原型和图片样本之间的信息差异对于泛化性能的影响 背景是跨域少样本分类任务。样...
基于样本的迁移学习
样本权重迁移法 样本权重迁移法。此类方法学习目标是学习源域样本的权重 $v_i$。 特征变换迁移法。此类方法对应于 $v_{i}=1, \forall i$,目标是学习一个特征变换 $T$ 来减小正则化项 $R(\cdot, \cdot)$。 模型预训练迁移法。此类方法对应于 $v_{i}=1, \forall i, R(T(\mathcal{D}{s}), T(\mathcal{D}{t})) := R(\mathcal{D}{t}; f{s})$。在此种方法下,目标是如何将源域的判别函数 $f_s$ 对目标域数据进行正则化和微调。
UCL
Universal representation learning from multiple domains for few-shot classification要翻译这篇文章到中文并符合您的要求,我将逐步翻译以下内容,并按照您的格式需求进行整理,包括标题层级、公式用 LaTeX 表示,以及标题和内容之间的空行。请稍等,我将从摘要部分开始翻译。 0. 摘要本文探讨了少样本分类问题,其目标是在仅有少量标注样本的情况下,为先前未见过的类别和领域学习分类器。近期的方法通过使用适配网络对新领域的特征进行对齐,或从多个领域特定的特征提取器中选择相关特征。在本文中,我们提出了一种方法,通过使用适...



