问题

发表于2025-11-16|更新于2026-03-01|AIMamba

|浏览量:

Selection Mechanism

20240306151603
20240306151548
20240306151444
20240306151459

$N$ 何理解
S4中$L$ 如何处理的？S6中$L$ 如何处理的？
S6:$\bar{A}\bar{B}$ 何计算的？
S6: 训练和推理？

Parallel Scan

20240306160537

Code

20240306171415

文章作者: Hongwei Zhao

文章链接: https://geeks-z.github.io/Blog/2025/11/16/AI/22.Mamba/03.%E9%97%AE%E9%A2%98/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog！

相关推荐

背景Transformer:以其注意力机制而闻名，其中序列的任何部分都可以动态地与任何其他部分相互作用，特别是具有因果注意力机制的的Transformer，擅长处理序列中的单个元素。但是它们带来了显著的计算和内存成本，与序列长度的平方(L²)成比例。循环神经网络(rnn): rnn只考虑当前输入和最后一个隐藏状态，按顺序更新隐藏状态。这种方法允许它们潜在地处理无限序列长度和恒定的内存需求。但是rnn的简单性是一个缺点，限制了它们记住长期依赖关系的能力。此外，rnn中的时间反向传播(BPTT)是内存密集型的，并且可能遭受梯度消失或爆炸的影响，尽管有LSTM等创新部分结解决了这个问题。 S...

论文地址：https://arxiv.org/pdf/2401.09417.pdf项目地址：https://github.com/hustvl/Vim论文标题：Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

论文标题：VMamba: Visual State Space Model 论文地址: https://arxiv.org/abs/2401.10166 代码地址: https://github.com/MzeroMiko/VMamba

符号维度符号说明默认值 $A$ $B$ batch size $C$ $D$ channels $E$ a controllable expansion factor 2 $L$ length $N$

Semantic Drift Compensation for Class-Incremental Learning0. 摘要深度网络的类增量学习（Class-Incremental Learning）旨在通过连续增加需要分类的类别数量来实现持续学习。在训练过程中，网络每次仅能访问一个任务的数据，其中每个任务包含若干类别。在这种情况下，网络会遭遇“灾难性遗忘”（Catastrophic Forgetting），即对先前任务的性能显著下降。大多数方法针对分类网络研究了这一情景，其中每当新任务到来时，网络的分类层必须添加额外的权重以适应新类别。嵌入网络具有天然的优势，可以在无需添...

state_dict 在PyTorch中，state_dict是一个字典对象，用于存储模型或优化器的参数。这个字典将每一层或优化器的参数映射到对应的张量。state_dict的主要作用在于方便模型的保存和加载，以便在训练过程中恢复模型的状态或在其他任务中重用模型。对于模型（如torch.nn.Module的实例），state_dict包含模型的可学习参数（如权重和偏置）。只有包含可学习参数的层（如卷积层、线性层等）和已注册的缓冲区（如Batch Normalization层的运行均值和方差）才会在state_dict中有对应的条目。这些参数是在模型训练过程中被优化器更新的。对于...