avatar
文章
480
标签
104
分类
109
首页
文章
  • 归档
  • 分类
  • 标签
生活
  • 相册
  • 视频
关于
Hongwei Zhao's BlogSwitch Transformers 返回首页
首页
文章
  • 归档
  • 分类
  • 标签
生活
  • 相册
  • 视频
关于

Switch Transformers

发表于2025-11-16|更新于2026-03-01|AIMoE
|浏览量:
文章作者: Hongwei Zhao
文章链接: https://geeks-z.github.io/Blog/2025/11/16/AI/09.MoE/08.Switch%20Transformers/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog!
AIMoE
cover of previous post
上一篇
零实现一个MOE
从零实现一个MOE(专家混合模型) 什么是混合模型(MOE)MOE主要由两个关键点组成: 一是将传统Transformer中的FFN(前馈网络层)替换为多个稀疏的专家层(Sparse MoE layers)。每个专家本身是一个独立的神经网络,实际应用中,这些专家通常是前馈网络 (FFN),但也可以是更复杂的网络结构。 二是门控网络或路由:此部分用来决定输入的token分发给哪一个专家。 可能有对FFN(前馈网络层)不太熟悉的小伙伴可以看一下下面的代码及图例,很简单就是一个我们平时常见的结构。 1234567891011121314class FeedForward(nn.Module):...
cover of next post
下一篇
MoE-Fusion
Multi-Modal Gated Mixture of Local-to-Global Experts for Dynamic Image FusionKimi全文翻译 :arrow_down:0. 摘要红外和可见光图像融合旨在整合多个源的综合信息,以实现在各种实际任务(如检测)中超越单一模态的性能。然而,大多数现有方法直接结合了不同模态的纹理细节和对象对比度,忽略了现实中的动态变化,这削弱了良好照明条件下可见光的纹理和低照明条件下红外的对比度。为了填补这一空白,我们提出了一个动态图像融合框架,该框架具有多模态门控的从局部到全局专家的混合(称为 MoE-Fusion),以动态地从各自的...
相关推荐
cover
2025-11-16
MoE-Fusion
Multi-Modal Gated Mixture of Local-to-Global Experts for Dynamic Image FusionKimi全文翻译 :arrow_down:0. 摘要红外和可见光图像融合旨在整合多个源的综合信息,以实现在各种实际任务(如检测)中超越单一模态的性能。然而,大多数现有方法直接结合了不同模态的纹理细节和对象对比度,忽略了现实中的动态变化,这削弱了良好照明条件下可见光的纹理和低照明条件下红外的对比度。为了填补这一空白,我们提出了一个动态图像融合框架,该框架具有多模态门控的从局部到全局专家的混合(称为 MoE-Fusion),以动态地从各自的...
cover
2025-11-16
Soft MoE
From Sparse to Soft Mixtures of Experts From Sparse to Soft Mixtures of Experts 摘要Soft MoE 提出了一种新的可微稀疏混合专家模型,稀疏混合专家 (Sparse Mixture of Experts, MoE) 是一种在保证模型训练和推理的成本不显著增加的情况下,大幅度提升模型容量的方法。 MoE 方法已经有很长的一段历史了,是一种扩大模型容量的经典高效的做法,但是它的缺点是: 训练不稳定 Token Dropping 的问题 较难扩展 Expert 的数量 低效率的微调 造成以上问题的一个原因是...
cover
2025-11-16
pMoE
Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient for Convolutional Neural Networks0. 摘要在深度学习中,混合专家(MoE)模型基于每个样本或每个标记激活一个或几个专家(子网络),从而显著减少计算量。最近提出的 MoE 中的 patch-level 路由(pMoE)将每个输入分成 n 个 patches(或 tokens),并通过优先路由将 l 个 patches(l ≪ n)发送给每个专家。pMoE 在保持测试精度的同时,展示了在减少训练和推理成本方面的巨大经验...
cover
2025-11-16
V-MoE
Scaling Vision with Sparse Mixture of Experts Code | NeurIPS 2021 摘要稀疏门控混合专家网络 (MoESparsely-gated Mixture of Experts networks,MoE)) 这种方法已经在自然语言处理领域中表现出了出色的可扩展性。但是在计算机视觉中,几乎所有性能网络都是 “密集 (Dense) 的”,也就是说,每个输入都由所有的参数来处理。 本文就提出了视觉领域经典的稀疏门控混合专家网络 Vision MoE (V-MoE),它是 Vision Transformer 的稀疏版本,V-MoE 是一...
cover
2025-11-16
MoE 知识蒸馏
One Student Knows All Experts Know: From Sparse to Dense One Student Knows All Experts Know: From Sparse to Dense 太长不看版人类教育系统由多个 Expert 来训练一位 Student。专家混合 (Mixture-of-experts, MoE) 是一种强大的稀疏架构,包括多个 Expert 模型。但是,MoE 的架构容易过拟合,难以部署,对业界其实并不友好。 这个工作受到人类教育的启发,作者提出了一种新的任务**:知识整合** (Knowledge Integration...
cover
2025-11-16
MoE综述
MoE模型 模型 发布时间 备注 GPT4 2023年3月 23年6月George Hotz爆料GPT4是8×220B模型 Mistral-8×7B 2023年12月 Mistral AI,开源 LLAMA-MoE 2023年12月 github开源项目 DeepSeek-MoE 2024年1月 幻方量化(深度求索),国内首个开源MoE模型,有技术报告 abab6 2024年1月 MiniMax,号称千亿MoE,无开源,无细节发布 天工2.0 2024年2月 昆仑万维,无开源,无细节发布 Step-2 2024年3月 阶跃星辰,无开源,无细节发布 M...
avatar
Hongwei Zhao
AI Researcher & Developer
文章
480
标签
104
分类
109
Follow Me
公告
欢迎来到我的博客!这里分享 AI、机器学习和数学。
最新文章
智能体
智能体2025-11-16
Scaling Law
Scaling Law2025-11-16
temp
temp2025-11-16
ProximalGradientMethod
ProximalGradientMethod2025-11-16
ES6语法
ES6语法2025-11-16
© 2024 - 2026 By Hongwei Zhao