基本配置

发表于2025-11-16|更新于2026-03-01|AIPyTorch训练

|浏览量:

常见的包

import os
import numpy as np
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
import torch.optim as optimizer

超参数设置

batch size
初始学习率（初始）
训练次数（max_epochs）
GPU 配置

batch_size = 16
# 批次的大小
lr = 1e-4
# 优化器的学习率
max_epochs = 100

除了直接将超参数设置在训练的代码里，我们也可以使用 yaml、json，dict 等文件来存储超参数，这样可以方便后续的调试和修改，这种方式也是常见的深度学习库（mmdetection，Paddledetection，detectron2）和一些 AI Lab 里面比较常见的一种参数设置方式。

基本配置

我们的数据和模型如果没有经过显式指明设备，默认会存储在 CPU 上，为了加速模型的训练，我们需要显式调用 GPU，一般情况下 GPU 的设置有两种常见的方式：

导入包和版本查询

import torch
import torch.nn as nn
import torchvision
print(torch.__version__)
print(torch.version.cuda)
print(torch.backends.cudnn.version())
print(torch.cuda.get_device_name(0))

可复现性

在硬件设备（CPU、GPU）不同时，完全的可复现性无法保证，即使随机种子相同。但是，在同一个设备上，应该保证可复现性。具体做法是，在程序开始的时候固定 torch 的随机种子，同时也把 numpy 的随机种子固定。

np.random.seed(0)
torch.manual_seed(0)
torch.cuda.manual_seed_all(0)

torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

显卡设置

如果只需要一张显卡

1 2	`# Device configuration device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')`

如果需要指定多张显卡，比如 0，1 号显卡

PyTorch会在第一次导入时缓存CUDA状态
如果设置CUDA_VISIBLE_DEVICES在导入torch之后，设置会失效

1
2
3

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0,1'  # 必须在导入torch前设置！
import torch

也可以在命令行运行代码时设置显卡

1	`CUDA_VISIBLE_DEVICES=0,1 python train.py`

清除显存

1	`torch.cuda.empty_cache()`

也可以使用在命令行重置 GPU 的指令

1	`nvidia-smi --gpu-reset -i [gpu_id]`

文章作者: Hongwei Zhao

文章链接: https://geeks-z.github.io/Blog/2025/11/16/AI/30.PyTorch/05.%E8%AE%AD%E7%BB%83/01.%E5%9F%BA%E6%9C%AC%E9%85%8D%E7%BD%AE/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog！

AI PyTorch 训练

相关推荐

损失函数损失函数是衡量模型输出与真实标签之间的差异。我们还经常听到代价函数和目标函数，它们之间差异如下：损失函数(Loss Function)是计算一个样本的模型输出与真实标签的差异 $Loss =f\left(y^{\wedge}, y\right)$ 代价函数(Cost Function)是计算整个样本集的模型输出与真实标签的差异，是所有样本损失函数的平均值 $\cos t=\frac{1}{N} \sum_{i}^{N} f\left(y{i}^{\wedge}, y_{i}\right)$ 目标函数(Objective Function)就是代价函数加上正...

PyTorch计算图

优化器PyTorch 中的优化器是用于管理并更新模型中可学习参数的值，使得模型输出更加接近真实标签。 Optimizer Optimizer是优化器的基类 12345class Optimizer(object): def __init__(self, params, defaults): self.defaults = defaults self.state = defaultdict(dict) self.param_groups = [] Optimizer 属性 defaults：存储的是优化器的超参数，例子如下： 1...

基础数据增强

-使用 PyTorch 和 Albumentations 进行数据增强与损失函数 1. 基础数据增强方法随机裁剪（Random Crop）：从图像中随机裁剪一个子区域并调整大小。随机水平翻转（Random Horizontal Flip）：以一定的概率水平翻转图像。随机旋转（Random Rotation）：以一定的角度范围随机旋转图像。颜色抖动（Color Jitter）：随机改变图像的亮度、对比度、饱和度和色调。归一化（Normalization）：将图像像素值归一化到一定范围内。基础数据增强12345678910import torchvision.transfo...

timm使用教程

视觉神经网络模型优秀开源工作：timm 库使用方法和代码解读使用教程开始使用 timm安装库 (Python3, PyTorch version 1.4+)： 1pip install timm 加载你需要的预训练模型权重： 1234import timmm = timm.create_model('mobilenetv3_large_100', pretrained=True)m.eval() 加载所有的预训练模型列表 (pprint 是美化打印的标准库)： 12345678910111213141516import timmfrom pprint imp...

state_dict 在PyTorch中，state_dict是一个字典对象，用于存储模型或优化器的参数。这个字典将每一层或优化器的参数映射到对应的张量。state_dict的主要作用在于方便模型的保存和加载，以便在训练过程中恢复模型的状态或在其他任务中重用模型。对于模型（如torch.nn.Module的实例），state_dict包含模型的可学习参数（如权重和偏置）。只有包含可学习参数的层（如卷积层、线性层等）和已注册的缓冲区（如Batch Normalization层的运行均值和方差）才会在state_dict中有对应的条目。这些参数是在模型训练过程中被优化器更新的。对于...