PyTorch计算图

发表于2025-11-16|更新于2026-03-01|AIPyTorch训练

|浏览量:

文章作者: Hongwei Zhao

文章链接: https://geeks-z.github.io/Blog/2025/11/16/AI/30.PyTorch/05.%E8%AE%AD%E7%BB%83/04.PyTorch%E8%AE%A1%E7%AE%97%E5%9B%BE/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog！

AI PyTorch 训练

相关推荐

常见的包123456import osimport numpy as npimport torchimport torch.nn as nnfrom torch.utils.data import Dataset, DataLoaderimport torch.optim as optimizer 超参数设置 batch size 初始学习率（初始）训练次数（max_epochs） GPU 配置 12345batch_size = 16# 批次的大小lr = 1e-4# 优化器的学习率max_epochs = 100 除了直接将超参数设置在训练的代码里，我们也可以使用 yaml、...

优化器PyTorch 中的优化器是用于管理并更新模型中可学习参数的值，使得模型输出更加接近真实标签。 Optimizer Optimizer是优化器的基类 12345class Optimizer(object): def __init__(self, params, defaults): self.defaults = defaults self.state = defaultdict(dict) self.param_groups = [] Optimizer 属性 defaults：存储的是优化器的超参数，例子如下： 1...

损失函数损失函数是衡量模型输出与真实标签之间的差异。我们还经常听到代价函数和目标函数，它们之间差异如下：损失函数(Loss Function)是计算一个样本的模型输出与真实标签的差异 $Loss =f\left(y^{\wedge}, y\right)$ 代价函数(Cost Function)是计算整个样本集的模型输出与真实标签的差异，是所有样本损失函数的平均值 $\cos t=\frac{1}{N} \sum_{i}^{N} f\left(y{i}^{\wedge}, y_{i}\right)$ 目标函数(Objective Function)就是代价函数加上正...

Distributed Data Parallel，DDP使用不过通过 DP 进行分布式多卡训练的方式容易造成负载不均衡，有可能第一块 GPU 显存占用更多，因为输出默认都会被 gather 到第一块 GPU 上。为此 Pytorch 也提供了torch.nn.parallel.DistributedDataParallel（DDP）方法来解决这个问题。针对每个 GPU，启动一个进程，然后这些进程在最开始的时候会保持一致（模型的初始化参数也一致，每个进程拥有自己的优化器），同时在更新模型的时候，梯度传播也是完全一致的，这样就可以保证任何一个 GPU 上面的模型参数就是完全一致的，所...

分布式evaluation

分布式 evaluation all_reduce, barrier 等 API 是 distributed 中更为基础和底层的 API。这些 API 可以帮助我们控制进程之间的交互，控制 GPU 数据的传输。在自定义 GPU 协作逻辑，汇总 GPU 间少量的统计信息时，大有用处。熟练掌握这些 API 也可以帮助我们自己设计、优化分布式训练、测试流程。到目前为止，Distributed Sampler 能够帮助我们分发数据，DistributedDataParallel、hvd.broadcast_parameters 能够帮助我们分发模型，并在框架的支持下解决梯度汇总和参数更新的问...

torch.topk() 作用取一个 tensor 的 topk 元素，返回值为降序后的前 k 个大小的元素值及索引使用方法 dim=0 表示按照列求 topn dim=1 表示按照行求 topn 默认情况下，dim=1 示例 12345>>> x = torch.arange(1., 6.)>>> xtensor([ 1., 2., 3., 4., 5.])>>> torch.topk(x, 3)torch.return_types.topk(values=tensor([5., 4....