avatar
文章
480
标签
104
分类
109
首页
文章
  • 归档
  • 分类
  • 标签
生活
  • 相册
  • 视频
关于
Hongwei Zhao's BlogPyTorch计算图 返回首页
首页
文章
  • 归档
  • 分类
  • 标签
生活
  • 相册
  • 视频
关于

PyTorch计算图

发表于2025-11-16|更新于2026-03-01|AIPyTorch训练
|浏览量:
文章作者: Hongwei Zhao
文章链接: https://geeks-z.github.io/Blog/2025/11/16/AI/30.PyTorch/05.%E8%AE%AD%E7%BB%83/04.PyTorch%E8%AE%A1%E7%AE%97%E5%9B%BE/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog!
AIPyTorch训练
cover of previous post
上一篇
损失函数
损失函数损失函数是衡量模型输出与真实标签之间的差异。我们还经常听到代价函数和目标函数,它们之间差异如下: 损失函数(Loss Function)是计算一个样本的模型输出与真实标签的差异 $Loss =f\left(y^{\wedge}, y\right)$ 代价函数(Cost Function)是计算整个样本集的模型输出与真实标签的差异,是所有样本损失函数的平均值 $\cos t=\frac{1}{N} \sum_{i}^{N} f\left(y{i}^{\wedge}, y_{i}\right)$ 目标函数(Objective Function)就是代价函数加上正...
cover of next post
下一篇
优化器
优化器PyTorch 中的优化器是用于管理并更新模型中可学习参数的值,使得模型输出更加接近真实标签。 Optimizer Optimizer是优化器的基类 12345class Optimizer(object): def __init__(self, params, defaults): self.defaults = defaults self.state = defaultdict(dict) self.param_groups = [] Optimizer 属性 defaults:存储的是优化器的超参数,例子如下: 1 ...
相关推荐
cover
2025-11-16
基本配置
常见的包123456import osimport numpy as npimport torchimport torch.nn as nnfrom torch.utils.data import Dataset, DataLoaderimport torch.optim as optimizer 超参数设置 batch size 初始学习率(初始) 训练次数(max_epochs) GPU 配置 12345batch_size = 16# 批次的大小lr = 1e-4# 优化器的学习率max_epochs = 100 除了直接将超参数设置在训练的代码里,我们也可以使用 yaml、...
cover
2025-11-16
优化器
优化器PyTorch 中的优化器是用于管理并更新模型中可学习参数的值,使得模型输出更加接近真实标签。 Optimizer Optimizer是优化器的基类 12345class Optimizer(object): def __init__(self, params, defaults): self.defaults = defaults self.state = defaultdict(dict) self.param_groups = [] Optimizer 属性 defaults:存储的是优化器的超参数,例子如下: 1 ...
cover
2025-11-16
损失函数
损失函数损失函数是衡量模型输出与真实标签之间的差异。我们还经常听到代价函数和目标函数,它们之间差异如下: 损失函数(Loss Function)是计算一个样本的模型输出与真实标签的差异 $Loss =f\left(y^{\wedge}, y\right)$ 代价函数(Cost Function)是计算整个样本集的模型输出与真实标签的差异,是所有样本损失函数的平均值 $\cos t=\frac{1}{N} \sum_{i}^{N} f\left(y{i}^{\wedge}, y_{i}\right)$ 目标函数(Objective Function)就是代价函数加上正...
cover
2025-11-16
DDP
Distributed Data Parallel,DDP使用 不过通过 DP 进行分布式多卡训练的方式容易造成负载不均衡,有可能第一块 GPU 显存占用更多,因为输出默认都会被 gather 到第一块 GPU 上。为此 Pytorch 也提供了torch.nn.parallel.DistributedDataParallel(DDP)方法来解决这个问题。 针对每个 GPU,启动一个进程,然后这些进程在最开始的时候会保持一致(模型的初始化参数也一致,每个进程拥有自己的优化器),同时在更新模型的时候,梯度传播也是完全一致的,这样就可以保证任何一个 GPU 上面的模型参数就是完全一致的,所...
cover
2025-11-16
分布式evaluation
分布式 evaluation all_reduce, barrier 等 API 是 distributed 中更为基础和底层的 API。这些 API 可以帮助我们控制进程之间的交互,控制 GPU 数据的传输。在自定义 GPU 协作逻辑,汇总 GPU 间少量的统计信息时,大有用处。熟练掌握这些 API 也可以帮助我们自己设计、优化分布式训练、测试流程。 到目前为止,Distributed Sampler 能够帮助我们分发数据,DistributedDataParallel、hvd.broadcast_parameters 能够帮助我们分发模型,并在框架的支持下解决梯度汇总和参数更新的问...
cover
2025-11-16
常见函数
torch.topk() 作用取一个 tensor 的 topk 元素,返回值为降序后的前 k 个大小的元素值及索引 使用方法 dim=0 表示按照列求 topn dim=1 表示按照行求 topn 默认情况下,dim=1 示例 12345>>> x = torch.arange(1., 6.)>>> xtensor([ 1., 2., 3., 4., 5.])>>> torch.topk(x, 3)torch.return_types.topk(values=tensor([5., 4....
avatar
Hongwei Zhao
AI Researcher & Developer
文章
480
标签
104
分类
109
Follow Me
公告
欢迎来到我的博客!这里分享 AI、机器学习和数学。
最新文章
智能体
智能体2025-11-16
Scaling Law
Scaling Law2025-11-16
temp
temp2025-11-16
ProximalGradientMethod
ProximalGradientMethod2025-11-16
ES6语法
ES6语法2025-11-16
© 2024 - 2026 By Hongwei Zhao