激活函数

发表于2025-11-16|更新于2026-03-01|AI深度学习调参指南

|浏览量:

ReLu、Sigmoid、Softmax、Tanh是最常用的4个激活函数。
对于输出层，常用sigmoid和softMax激活函数，中间层常用ReLu激活函数，RNN常用Tanh激活函数。

文章作者: Hongwei Zhao

文章链接: https://geeks-z.github.io/Blog/2025/11/16/AI/999.%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E8%B0%83%E5%8F%82%E6%8C%87%E5%8D%97/09.%E6%BF%80%E6%B4%BB%E5%87%BD%E6%95%B0/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Hongwei Zhao's Blog！

AI 深度学习调参指南

相关推荐

深度学习调参指南

tuning_playbook_zh_cn 深度学习调参有哪些技巧？深度学习15条调参经验可调参数：Loss function、Learning rate、Batch size、Epoch number、Optimizer、Activation function、Weights initialization、使用Regularization、Validation、使用的GPU个数 Dropout虽然思想很简单，但效果出奇的好，首选0.5。 Batch normalization很好用。如果在train模型时，loss可以降到非常低，那么模型的学习能力是够的；如果tra...

学习率最好是从高到低2倍速度递减一般从0.01开始。如果使用微调，则learning rate设置为0.0001较好。learning rate设置上有很多trick，包括cosing learning rate等。最好的学习率衰减方案是什么这是一个开放性问题。目前尚不清楚如何构建一组严格的实验来自信地回答最佳的LR 衰减方案是什么。虽然我们不知道最好的方案是什么，但我们相信尝试一些（非恒定的）方案很重要并且调整它很重要。在优化过程中，不同的学习率在不同的时间效果最好。有某种衰减方案可以使模型更有可能达到良好的学习率。我应该使用哪种学习率衰减方案作为默认值？我们的偏好...

batch size不能太大，也不能太小；太小会浪费计算资源，太大则会浪费内存；一般设置为16的倍数。对于推荐来说32-64-128-512测试效果再高一般也不会正向了，再低训练太慢了。 Learning rate和batch size是两个重要的参数，而且二者也是相互影响的，在反向传播时直接影响梯度。一般情况下，先调batch size，再调learning rate。选择BatchSize总结： Batch Size决定训练速度，并且不应该被直接用于调整验证集性能。通常来说，可用硬件支持的最大Batch Size是较为理想的数值。 Batch Size是决定训练时间和计算资源...

选择优化器总结：从针对手头问题类型的最常用的优化器开始。没有一个优化器是适用于所有类型的机器学习问题和模型架构的‘最佳’优化器。即使只是比较优化器的性能也是一项艰巨的任务。我们建议坚持使用成熟、流行的优化器，尤其是在开始新项目时。理想情况下，选择用于同类问题的最常用优化器。做好关注选择的优化器的 *所有* 超参数的准备。具有更多超参数的优化器可能需要更多的调优工作才能找到最佳配置。当我们试图找到各种其他超参数（例如架构超参数）的最佳值时，将优化器超参数视为冗余参数是有意义的，这在项目的初始阶段尤其重要。在项目的初始阶段，从更简单的优化器开始会更可取（例...

数据量太大的情况下，可以先用1/10，1/100的数据先去估算一下训练或者推理时间，心里有个底。视觉问题一定要使用数据增强。一定要进行数据预处理，把数据分布分散到均值为0，方差为1的区间，利于训练模型。

预训练参数是最好的参数初始化方式，其次是Xavir。