Switch Transformers

发表于2025-11-16|更新于2026-03-01|AIMoE

|浏览量:

文章作者: Hongwei Zhao

文章链接: https://geeks-z.github.io/Blog/2025/11/16/AI/09.MoE/08.Switch%20Transformers/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog！

相关推荐

Multi-Modal Gated Mixture of Local-to-Global Experts for Dynamic Image FusionKimi全文翻译 :arrow_down:0. 摘要红外和可见光图像融合旨在整合多个源的综合信息，以实现在各种实际任务（如检测）中超越单一模态的性能。然而，大多数现有方法直接结合了不同模态的纹理细节和对象对比度，忽略了现实中的动态变化，这削弱了良好照明条件下可见光的纹理和低照明条件下红外的对比度。为了填补这一空白，我们提出了一个动态图像融合框架，该框架具有多模态门控的从局部到全局专家的混合（称为 MoE-Fusion），以动态地从各自的...

From Sparse to Soft Mixtures of Experts From Sparse to Soft Mixtures of Experts 摘要Soft MoE 提出了一种新的可微稀疏混合专家模型，稀疏混合专家 (Sparse Mixture of Experts, MoE) 是一种在保证模型训练和推理的成本不显著增加的情况下，大幅度提升模型容量的方法。 MoE 方法已经有很长的一段历史了，是一种扩大模型容量的经典高效的做法，但是它的缺点是：训练不稳定 Token Dropping 的问题较难扩展 Expert 的数量低效率的微调造成以上问题的一个原因是...

Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient for Convolutional Neural Networks0. 摘要在深度学习中，混合专家（MoE）模型基于每个样本或每个标记激活一个或几个专家（子网络），从而显著减少计算量。最近提出的 MoE 中的 patch-level 路由（pMoE）将每个输入分成 n 个 patches（或 tokens），并通过优先路由将 l 个 patches（l ≪ n）发送给每个专家。pMoE 在保持测试精度的同时，展示了在减少训练和推理成本方面的巨大经验...

Scaling Vision with Sparse Mixture of Experts Code | NeurIPS 2021 摘要稀疏门控混合专家网络 (MoESparsely-gated Mixture of Experts networks，MoE)) 这种方法已经在自然语言处理领域中表现出了出色的可扩展性。但是在计算机视觉中，几乎所有性能网络都是 “密集 (Dense) 的”，也就是说，每个输入都由所有的参数来处理。本文就提出了视觉领域经典的稀疏门控混合专家网络 Vision MoE (V-MoE)，它是 Vision Transformer 的稀疏版本，V-MoE 是一...

MoE 知识蒸馏

One Student Knows All Experts Know: From Sparse to Dense One Student Knows All Experts Know: From Sparse to Dense 太长不看版人类教育系统由多个 Expert 来训练一位 Student。专家混合 (Mixture-of-experts, MoE) 是一种强大的稀疏架构，包括多个 Expert 模型。但是，MoE 的架构容易过拟合，难以部署，对业界其实并不友好。这个工作受到人类教育的启发，作者提出了一种新的任务**：知识整合** (Knowledge Integration...

MoE模型模型发布时间备注 GPT4 2023年3月 23年6月George Hotz爆料GPT4是8×220B模型 Mistral-8×7B 2023年12月 Mistral AI，开源 LLAMA-MoE 2023年12月 github开源项目 DeepSeek-MoE 2024年1月幻方量化(深度求索)，国内首个开源MoE模型，有技术报告 abab6 2024年1月 MiniMax，号称千亿MoE，无开源，无细节发布天工2.0 2024年2月昆仑万维，无开源，无细节发布 Step-2 2024年3月阶跃星辰，无开源，无细节发布 M...