当前位置: 首页 > news >正文

网站站外链接什么是sem

网站站外链接,什么是sem,一般做网站要多少钱,跨境独立站哪个平台好最近做剪枝学习,其中一种是基于BN层的γ作为缩放因子进行剪枝的,那么我想搞懂BN的工作原理更好的理解网络、剪枝等,所以有了该文。 首先先说BN的作用在详细拆解,理解。以知乎一条高赞评论说明BN层到底在干什么。 Batch Norm 为什…

最近做剪枝学习,其中一种是基于BN层的γ作为缩放因子进行剪枝的,那么我想搞懂BN的工作原理更好的理解网络、剪枝等,所以有了该文。

  • 首先先说BN的作用在详细拆解,理解。以知乎一条高赞评论说明BN层到底在干什么。
    在这里插入图片描述

Batch Norm 为什么有效

内部协变量偏移(Internal Covariate Shift)
  • 其反映的问题就是源域与目标域存在偏差。在深度神经网络的训练过程中,随着网络层数的增加,前一层输出的分布会发生变化,这种变化通常会使得下一层的输入分布发生偏移,导致训练过程中的梯度下降变得不稳定,从而影响模型的收敛速度和性能。这种现象被称为“内部协变量偏移”。

  • 内部协变量偏移,使得网络在训练时需要不断适应新的输入分布,这会消耗大量的计算资源并延长训练时间。而Batch Normalization(BN)层正是针对这一问题提出的解决方案。BN的核心思想是对每一层的输入进行归一化,使其均值为0,方差为1,从而减小输入数据的分布变化,使得网络在训练过程中能够更加稳定和高效地学习。

  • 这就是协变量偏移的问题 — 模型输入的数据与之前训练的数据分布非常不同 — 即使新数据仍然符合相同的目标函数。

损失和梯度平滑
  • 麻省理工学者质疑了解决协变量偏移是 Batch Norm 性能的原因的说法:论文
  • BN有效的本质原因在于其能够使优化空间optimization landscape变得平滑,其他的Normalization方法,例如L1,L2,L无穷大,也可以起到和BN一样的效果
  • 该论文提出,Batch Norm 所做的是通过改变网络权重的分布来大幅平滑损失情况。这意味着 gradient descent 可以自信地朝着某个方向迈出一步,因为它知道它不会在途中发现突然的中断。因此,它可以通过使用更大的学习率来采取更大的步骤。

Batch Normalization 的原理

BN 层的核心操作是在每一层的输入上进行归一化处理。具体来说,BN会对每一批次(mini-batch)的输入进行均值和方差的计算,然后使用这些统计量对输入进行归一化。归一化后的数据会被乘以一个可学习的缩放参数(gamma),并加上一个可学习的偏移参数(beta)。通过这种方式,BN不仅对输入进行了标准化处理,还通过学习到的参数对其进行了适当的尺度和位置调整,使得网络能够适应不同的数据分布。

数学上,BN操作可以表示为:
图片来自https://github.com/Captain1986/CaptainBlackboard/blob/master/D%230020-Batch-Normalization%E5%B1%82%E5%8E%9F%E7%90%86%E4%B8%8E%E5%88%86%E6%9E%90/D%230020.md
计算当前mini-batch所有样本的均值;计算当前mini-batch所有样本的方差;对当前mini-batch内每个样本用前面的均值和方差做归一化;对归一化后的样本,乘以一个缩放系数,再做一次平移;

  • 可学习缩放参数γ、可学习偏移参数β
    • 𝛾是一个缩放因子,它对标准化后的数据进行线性变换,控制了数据的尺度。通过学习网络能够自动调整每一层输出的方差大小,以适应不同的数据分布。𝛽这是一个偏移因子,它对标准化后的数据加上一个常数,控制了数据的均值。通过学习网络能够调整每一层输出的均值,使其更适合特定任务的需求
    • 参数由网络学习得到, 每个 Batch Norm 层都能够以最佳方式找到适合自己的最佳因子,因此可以移动和缩放归一化值以获得最佳预测
    • 对标准化后的数据进行缩放和偏移。这一步骤是在标准化之后进行的,目的是使得网络能够恢复标准化过程中可能丢失的特征,避免标准化导致模型表达能力的下降
    • 对一些重要的通道会学习到较大的γ值,不重要的通道会学到接近于0的γ值,我认为这可能是另一篇网络剪枝论文的理论基础。

Batch Norm 的作用

Batch Norm 帮助模型更快地收敛并加快训练速度。它使训练对权重的初始化方式和超参数的精确调整不太敏感。
Batch Norm 可以使用更高的学习率。如果没有 Batch Norm,学习率必须保持较小,以防止较大的异常值梯度影响梯度下降。Batch Norm 有助于减少这些异常值的影响。
Batch Norm还减少了梯度对初始权重值的依赖性。由于权重是随机初始化的,因此训练早期阶段的异常值权重值可能会扭曲梯度。因此,网络收敛需要更长的时间。Batch Norm 有助于抑制这些异常值的影响。
提高模型的泛化能力(正则化作用)在一定程度上起到了正则化的作用,减少了过拟合的风险。由于每一批次的统计量是基于当前批次数据计算的,这种变化引入了微小的噪声,有助于提高模型的泛化能力。
标准化输入数据,减少内部协方差偏移
BN通过使每一层的激活值在训练过程中保持稳定,避免了大幅度的梯度波动,从而提高了网络训练的稳定性。每一层的输入分布在训练过程中几乎不变,有助于减少训练过程中梯度的剧烈波动。

Batch Norm 何时不适用?

Batch Norm 不适用于较小的批量。这会导致每个小批量的均值和方差中出现过多的噪声。有人提出的Group Normalization等方法可以改善这些问题
Batch Norm 不用于循环网络。每个时间步之后的激活具有不同的分布,因此对其应用 Batch Norm 是不切实际的。但提出的Layer Normalization等方法也可以适用于循环网络

总结

本文主要参考了

  1. 部分内容翻译自Batch Norm Explained Visually — Why does it work?
  2. 部分图像来自BN原理分析
http://www.yidumall.com/news/73030.html

相关文章:

  • 做网站背景图片怎么放十大场景营销案例
  • 招聘网站做沙龙万网域名注册官网
  • 百度爱采购怎么免费入驻比较好的网络优化公司
  • 贡嘎网站建设口碑最好的it培训机构
  • 北京市规划网站百度网址大全官方网站
  • unity网站后台怎么做搜索引擎优化名词解释
  • 广州高端优秀网站改版设计公司广告宣传费用一般多少
  • 网上做服装批发网站无锡网站seo
  • 域名分析网站百度推广获客
  • 网站的建设模式是指什么时候开始百度seo 优化
  • 小网站模板品牌推广方案思维导图
  • 做网站是不是需要服务器关键词长尾词优化
  • 网站开发包含哪些百度推广登陆平台
  • 网站建设 提供源码百度一下你就知道手机版
  • 做外贸需要什么样的网站优就业seo
  • 上海网站建设品牌泰州seo公司
  • 手工木雕网站建设策划书如何自己创建网址
  • 江门找做公众号的网站广州seo学徒
  • 网站建设保密协议范本网站维护公司
  • 服务器托管怎么样网站seo推广员招聘
  • 网站点击量统计seo搜外
  • 台州网站开发建设网页设计模板网站
  • 可以看设计的网站有哪些百度搜索引擎推广
  • 自己做网站开发如何找客户南宁网站快速排名提升
  • 上海网站制作工具开发外包网站
  • 企业做网站大概多少钱创建网页步骤
  • wordpress 插件 上传图片个人如何做seo推广
  • WordPress如何屏蔽国内用户南召seo快速排名价格
  • 商务网站信息审核的重要性在于大一网页设计作业成品免费
  • 网站制作公司的流程软文广告是什么