Selection Mechanism
- $N$ 何理解
- S4中$L$ 如何处理的?S6中$L$ 如何处理的?
- S6:$\bar{A}\bar{B}$ 何计算的?
- S6: 训练和推理?
Parallel Scan
Code
文章作者: Hongwei Zhao
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog!
相关推荐

2025-11-16
概述
背景Transformer:以其注意力机制而闻名,其中序列的任何部分都可以动态地与任何其他部分相互作用,特别是具有因果注意力机制的的Transformer,擅长处理序列中的单个元素。但是它们带来了显著的计算和内存成本,与序列长度的平方(L²)成比例。 循环神经网络(rnn): rnn只考虑当前输入和最后一个隐藏状态,按顺序更新隐藏状态。这种方法允许它们潜在地处理无限序列长度和恒定的内存需求。但是rnn的简单性是一个缺点,限制了它们记住长期依赖关系的能力。此外,rnn中的时间反向传播(BPTT)是内存密集型的,并且可能遭受梯度消失或爆炸的影响,尽管有LSTM等创新部分结解决了这个问题。 S...

2025-11-16
Vision Mamba
论文地址:https://arxiv.org/pdf/2401.09417.pdf项目地址:https://github.com/hustvl/Vim论文标题:Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

2025-11-16
VMamba
论文标题:VMamba: Visual State Space Model 论文地址: https://arxiv.org/abs/2401.10166 代码地址: https://github.com/MzeroMiko/VMamba

2025-11-16
符号说明
符号 维度 符号说明 默认值 $A$ $B$ batch size $C$ $D$ channels $E$ a controllable expansion factor 2 $L$ length $N$

2025-11-16
SDC
Semantic Drift Compensation for Class-Incremental Learning0. 摘要深度网络的类增量学习(Class-Incremental Learning)旨在通过连续增加需要分类的类别数量来实现持续学习。在训练过程中,网络每次仅能访问一个任务的数据,其中每个任务包含若干类别。在这种情况下,网络会遭遇“灾难性遗忘”(Catastrophic Forgetting),即对先前任务的性能显著下降。 大多数方法针对分类网络研究了这一情景,其中每当新任务到来时,网络的分类层必须添加额外的权重以适应新类别。 嵌入网络具有天然的优势,可以在无需添...

2025-11-16
nn.Module
state_dict 在PyTorch中,state_dict是一个字典对象,用于存储模型或优化器的参数。这个字典将每一层或优化器的参数映射到对应的张量。state_dict的主要作用在于方便模型的保存和加载,以便在训练过程中恢复模型的状态或在其他任务中重用模型。 对于模型(如torch.nn.Module的实例),state_dict包含模型的可学习参数(如权重和偏置)。只有包含可学习参数的层(如卷积层、线性层等)和已注册的缓冲区(如Batch Normalization层的运行均值和方差)才会在state_dict中有对应的条目。这些参数是在模型训练过程中被优化器更新的。 对于...
公告
欢迎来到我的博客!这里分享 AI、机器学习和数学。





