MoE
随着 Mixtral 8x7B (announcement, model card) 的推出,一种称为混合专家模型 (Mixed Expert Models,简称 MoEs) 的 Transformer 模型在开源人工智能社区引起了广泛关注。 简短总结混合专家模型 (MoEs): 与稠密模型相比, 预训练速度更快 与具有相同参数数量的模型相比,具有更快的 推理速度 需要 大量显存,因为所有专家系统都需要加载到内存中 在 微调方面存在诸多挑战,但 近期的研究 表明,对混合专家模型进行 指令调优具有很大的潜力。 什么是混合专家模型?模型规模是提升模型性能的关键因素之一。在有限的计算资源预...
Soft MoE
From Sparse to Soft Mixtures of Experts From Sparse to Soft Mixtures of Experts 摘要Soft MoE 提出了一种新的可微稀疏混合专家模型,稀疏混合专家 (Sparse Mixture of Experts, MoE) 是一种在保证模型训练和推理的成本不显著增加的情况下,大幅度提升模型容量的方法。 MoE 方法已经有很长的一段历史了,是一种扩大模型容量的经典高效的做法,但是它的缺点是: 训练不稳定 Token Dropping 的问题 较难扩展 Expert 的数量 低效率的微调 造成以上问题的一个原因是...
V-MoE
Scaling Vision with Sparse Mixture of Experts Code | NeurIPS 2021 摘要稀疏门控混合专家网络 (MoESparsely-gated Mixture of Experts networks,MoE)) 这种方法已经在自然语言处理领域中表现出了出色的可扩展性。但是在计算机视觉中,几乎所有性能网络都是 “密集 (Dense) 的”,也就是说,每个输入都由所有的参数来处理。 本文就提出了视觉领域经典的稀疏门控混合专家网络 Vision MoE (V-MoE),它是 Vision Transformer 的稀疏版本,V-MoE 是一...
ST-MoE
ST-MoE: Designing Stableand Transferable Sparse Expert Models ST-MoE: Designing Stableand Transferable Sparse Expert Models 摘要ST-MoE 的目的是设计稳定可迁移的稀疏专家模型,做了这么几个工作: 对影响 MoE 模型训练质量-稳定性 trade-off 的一些稳定性技术做了大规模的研究。 引入一种 router z-loss,解决训练不稳定的问题,同时轻微提升模型质量。 Sparse 和 Dense 模型的微调分析,重点是超参数的分析。本文表明:不好的超...
MoE综述
MoE模型 模型 发布时间 备注 GPT4 2023年3月 23年6月George Hotz爆料GPT4是8×220B模型 Mistral-8×7B 2023年12月 Mistral AI,开源 LLAMA-MoE 2023年12月 github开源项目 DeepSeek-MoE 2024年1月 幻方量化(深度求索),国内首个开源MoE模型,有技术报告 abab6 2024年1月 MiniMax,号称千亿MoE,无开源,无细节发布 天工2.0 2024年2月 昆仑万维,无开源,无细节发布 Step-2 2024年3月 阶跃星辰,无开源,无细节发布 M...
MoE 知识蒸馏
One Student Knows All Experts Know: From Sparse to Dense One Student Knows All Experts Know: From Sparse to Dense 太长不看版人类教育系统由多个 Expert 来训练一位 Student。专家混合 (Mixture-of-experts, MoE) 是一种强大的稀疏架构,包括多个 Expert 模型。但是,MoE 的架构容易过拟合,难以部署,对业界其实并不友好。 这个工作受到人类教育的启发,作者提出了一种新的任务**:知识整合** (Knowledge Integration...
MoE-Fusion
Multi-Modal Gated Mixture of Local-to-Global Experts for Dynamic Image FusionKimi全文翻译 :arrow_down:0. 摘要红外和可见光图像融合旨在整合多个源的综合信息,以实现在各种实际任务(如检测)中超越单一模态的性能。然而,大多数现有方法直接结合了不同模态的纹理细节和对象对比度,忽略了现实中的动态变化,这削弱了良好照明条件下可见光的纹理和低照明条件下红外的对比度。为了填补这一空白,我们提出了一个动态图像融合框架,该框架具有多模态门控的从局部到全局专家的混合(称为 MoE-Fusion),以动态地从各自的...
零实现一个MOE
从零实现一个MOE(专家混合模型) 什么是混合模型(MOE)MOE主要由两个关键点组成: 一是将传统Transformer中的FFN(前馈网络层)替换为多个稀疏的专家层(Sparse MoE layers)。每个专家本身是一个独立的神经网络,实际应用中,这些专家通常是前馈网络 (FFN),但也可以是更复杂的网络结构。 二是门控网络或路由:此部分用来决定输入的token分发给哪一个专家。 可能有对FFN(前馈网络层)不太熟悉的小伙伴可以看一下下面的代码及图例,很简单就是一个我们平时常见的结构。 1234567891011121314class FeedForward(nn.Module):...
常用命令
常用命令 nohop 命令提交的作业在 xshell 断开后仍然可以运行。命令格式:nohop ./train.sh > out 2>&1 &。其中脚本文件需要有可执行权限,’out’ 为指定的结果输出文件。 tail -f 输出文件名,动态查看输出信息 gpustat 可已查看每个 GPU 当前使用的用户 nvidia-smi:查看显存使用情况 nvitopnvitop nvitop 是一个非常全面的 NVIDIA-GPU 设备运行状况的实时监控工具 nvitop 安装 使用 pipx 进行安装 1pipx run nvitop 使用 p...
pMoE
Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient for Convolutional Neural Networks0. 摘要在深度学习中,混合专家(MoE)模型基于每个样本或每个标记激活一个或几个专家(子网络),从而显著减少计算量。最近提出的 MoE 中的 patch-level 路由(pMoE)将每个输入分成 n 个 patches(或 tokens),并通过优先路由将 l 个 patches(l ≪ n)发送给每个专家。pMoE 在保持测试精度的同时,展示了在减少训练和推理成本方面的巨大经验...
GPU服务器概念
概念 显卡 :显卡,是图形处理单元(GPU)的简称,是独立的处理单元,可以进行图像处理和计算,硬件设备。 CUDA:英文全称是Compute Unified Device Architecture,是显卡厂商 NVIDIA 推出的运算平台。按照官方的说法是,CUDA 是一个并行计算平台和编程模型,能够使得使用 GPU 进行通用计算变得简单和优雅。对于 GPU 本身的编程,使用的是CUDA语言来实现的。但是,在我们使用 PyTorch 编写深度学习代码时,使用的CUDA又是另一个意思。在 PyTorch 使用 CUDA表示要开始要求我们的模型或者数据开始使用 GPU 了。 我们使用 G...



