Pytorch中的多个loss和的梯度回传

发表于2025-11-16|更新于2026-03-01|AIPyTorch面经与bug解决

|浏览量:

TODO
总 loss 由多个 loss 组成。如果只有一个 loss，那么直接 loss.backward()即可，不止一个 loss 时， backward()放在哪里？

目前的写法：

loss1= Loss(output[0], target)
loss2= Loss(output[1], target)
loss3= Loss(output[2], target)
loss4= Loss(output[3], target)

loss = loss1 + loss2 + loss3 + loss4
loss.backward()

补充

关于张量 tensor 中的 require_grad 属性：如果一个张量它的 requires_grad=True，那么在反向传播计算梯度时调用 backward()方法就会计算这个张量的梯度。但是需要注意的是：计算完梯度之后，这个梯度并不一定会一直保存在属性 grad 中，只有对于 requires_grad=True 的叶子结点才会一直保存梯度，即将梯度一直保存在该叶子张量的 grad 属性中。而对于非叶子节点，即中间节点的张量,我们在计算完梯度之后为了更高效地利用内存，一般会将中间计算的梯度释放掉。

References

Pytorch 中的梯度回传

文章作者: Hongwei Zhao

文章链接: https://geeks-z.github.io/Blog/2025/11/16/AI/30.PyTorch/102.%E9%9D%A2%E7%BB%8F%E4%B8%8Ebug%E8%A7%A3%E5%86%B3/101.Pytorch%E4%B8%AD%E7%9A%84%E5%A4%9A%E4%B8%AAloss%E5%92%8C%E7%9A%84%E6%A2%AF%E5%BA%A6%E5%9B%9E%E4%BC%A0/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog！

AI PyTorch 面经与bug解决

相关推荐

ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable RANK expected, but not set本地pycharm debug报错，该如何修改这个错误是因为在本地 PyCharm 调试分布式训练代码时，没有正确设置环境变量，导致 torch.distributed 无法找到 RANK 变量。为什么会发生这个错误？在使用 torch.distributed 进行多 GPU 训练时，PyTorch 需要一些环境变量来确...

model.eval()pytorch中model.eval()会对哪些函数有影响？ pytorch中model.eval()会对哪些函数有影响？答：将BN和dropout这些训练和测试时行为不同的层切换到test mode。 Dropout训练和推理时的差异众所周知，dropout是训练的时候将某层的神经元输出以 $p$（如10%）的概率随机置为零，以减缓过拟合。那么测试时呢？为了保证测试时每次推理的一致性，肯定是不能再随机让神经失活了，那什么都不做，让所有神经元都按正常输出值原样输出可以嘛？从训练和测试时的输出值尺度一致性来看，答案显然是否定的。设每个神经元原始输出的绝对值均...

高级数据增强

高级数据增强方法 Cutout：在图像上随机遮挡一个矩形区域。 Mixup：将两张图像按照一定比例进行线性混合，同时混合对应的标签。 CutMix：将一张图像的矩形区域剪切并粘贴到另一张图像上，同时混合标签。 Random Erasing：在图像中随机擦除一个区域。 TransMix: TransMix 是一种用于增强 Vision Transformer (ViT) 模型的高级数据增强方法。它结合了 Mixup 和 CutMix 的思想，并应用于 Transformer 的 attention 机制上。 Mixup 和 CutMix12345678910111213141516171...

使用wandb可视化训练过程

使用 wandb 可视化训练过程Tensorboard 对数据的保存仅限于本地，也很难分析超参数不同对实验的影响。wandb 的出现很好的解决了这些问题。wandb 是 Weights & Biases 的缩写，它能够自动记录模型训练过程中的超参数和输出指标，然后可视化和比较结果，并快速与其他人共享结果。目前它能够和 Jupyter、TensorFlow、Pytorch、Keras、Scikit、fast.ai、LightGBM、XGBoost 一起结合使用。 wandb 的安装wandb 的安装非常简单，我们只需要使用 pip 安装即可。 1pip install wandb ...

tensor类型转换

int -> float torch.tensor(x, dtype=数据格式) 12345678910import torcha = [1, 2, 3, 4]a1 = torch.tensor(a)a_float = torch.tensor(a1, dtype=torch.float32)a_int64 = torch.tensor(a1, dtype=torch.int64)print(a1.dtype)print(a_float.dtype)print(a_int64.dtype) 123torch.int64torch.float32torch.int64 ...

LSTM解读及实战

文章结构在RNN详解及其实战中，我们简单讨论了为什么需要RNN这类模型、RNN的具体思路、RNN的简单实现等问题。同时，在文章结尾部分我们提到了RNN存在的梯度消失问题，及之后的一个解决方案**：LSTM**。因此，本篇文章主要结构如下： LSTM 理解及简单实现 LSTM 实战经典 RNN 与 LSTM 对比关于梯度消失 LSTM 理解其实，我们将 LSTM 与 RNN 说成两个并不可取， LSTM 依然归属于 RNN 之下，相比于使用线性回归方式来处理序列问题， LSTM 其实是设计了一个模块来取代线性回归算法。 LSTM(Long Short-Term Memory)，翻译...