96SEO 2026-02-20 01:46 6
在深度神经网络训练的过程中通常以输入网络的每一个mini-batch进行训练这样每个batch具有不同的分布使模型训练起来特别困难。

Internal
问题在训练的过程中激活函数会改变各层数据的分布随着网络的加深这种改变差异会越来越大使模型训练起来特别困难收敛速度很慢会出现梯度消失的问题。
针对每个神经元使数据在进入激活函数之前沿着通道计算每个batch的均值、方差‘强迫’数据保持均值为0方差为1的正态分布
避免发生梯度消失。
具体来说就是把第1个样本的第1个通道加上第2个样本第1个通道
的方差也是同理。
对所有通道都施加一遍这个操作就得到了所有通道的均值和方差。
沿着通道计算每个batch的均值沿着通道计算每个batch的方差做归一化加入缩放和平移变量
加入缩放和平移变量的原因是保证每一次数据经过归一化后还保留原有学习来的特征同时又能完成归一化操作加速训练。
允许较大的学习率减弱对初始化的强依赖性保持隐藏层中数值的均值、方差不变让数值更稳定为后面网络提供坚实的基础有轻微的正则化作用相当于给隐藏层加入噪声类似Dropout
size太小则计算的均值、方差不足以代表整个数据分布。
batch
会超过内存容量需要跑更多的epoch导致总训练时间变长会直接固定梯度下降的方向导致很难更新。
LayerNorm是大模型也是transformer结构中最常用的归一化操作简而言之它的作用是
\mathrm{y}\frac{\mathrm{x}-\mathrm{E}(\mathrm{x})}{\sqrt{\mathrm{V}
\operatorname{ar}(\mathrm{x})\epsilon}}
input若指定归一化的操作为第三个维度则会对第三个维度中的四个张量2,2,1各进行上述的一次计算.
\bar{a}_{i}\frac{a_{i}-\mu}{\sigma}
y_{i}f\left(\bar{a}_{i}b_{i}\right),
\sum_{i1}^{n}\left(a_{i}-\mu\right)^{2}}.
这里结合PyTorch的nn.LayerNorm算子来看比较明白
normalized_shape归一化的维度int最后一维listlist里面的维度还是以2,2,4为例如果输入是int则必须是4如果是list则可以是[4],
[2,2,4]即最后一维倒数两维和所有维度eps加在分母方差上的偏置项防止分母为0elementwise_affine是否使用可学习的参数
前者开始为1后者为0设置该变量为True则二者均可学习随着训练过程而变化
的一个优势是不需要批训练在单条数据内部就能归一化。
LN不依赖于batch
size为1和RNN中。
LN用于RNN效果比较明显但是在CNN上效果不如BN。
IN针对图像像素做normalization最初用于图像的风格化迁移。
在图像风格化中生成结果主要依赖于某个图像实例feature
的均值和方差会影响到最终生成图像的风格。
所以对整个batch归一化不适合图像风格化中因而对H、W做归一化。
可以加速模型收敛并且保持每个图像实例之间的独立。
xtijk−μtiμtiHW1l1∑Wm1∑Hxtilmσti2HW1l1∑Wm1∑H(xtilm−muti)2
的表现很差因为没办法通过几个样本的数据量来近似总体的均值和标准差。
GN
μng(x)(C/G)HW1cgC/G∑(g1)C/Gh1∑Hw1∑Wxnchw
σng(x)(C/G)HW1cgC/G∑(g1)C/Gh1∑Hw1∑W(xnchw−μng(x))2ϵ
\bar{a}_{i}\frac{a_{i}}{\operatorname{RMS}(\mathbf{a})}
\operatorname{RMS}(\mathbf{a})\sqrt{\frac{1}{n}
RMS具有线性特征所以提出可以用部分数据的RMSNorm来代替全部的计算pRMSNorm表示使用前p%的数据计算RMS值。
kn*p表示用于RMS计算的元素个数。
实测中使用6.25%的数据量可以收敛
\overline{\operatorname{RMS}}(\mathbf{a})\sqrt{\frac{1}{k}
的不稳定性部分来自于梯度消失以及太大的模型更新同时有以下几个理论分析
并没有缩小这部分参数模型倾向于累积每个子层的更新从而导致模型更新量呈爆炸式增长从而使早期优化变得不稳定使用Deep
Norm在训练深层transformer模型的时候具备近乎恒定的更新规模成功训练了1000层transformer的模型认为Deep
它们都是从激活函数的输入来考虑、做文章的以不同的方式对激活函数的输入进行
size即N个样本C表示通道数H、W分别表示特征图的高度、宽度。
这几个方法主要的区别就是在
size效果不好。
BN适用于固定深度的前向神经网络如CNN不适用于RNNLN在通道方向上对C、H、W归一化主要对RNN效果明显IN在图像像素上对H、W做归一化用在风格化迁移GN将channel分组然后再做归一化。
求均值时相当于把这些书按页码一一对应地加起来例如第1本书第36页第2本书第36页…再除以每个页码下的字符总数N×H×W因此可以把
看成求“平均书”的操作注意这个“平均书”每页只有一个字求标准差时也是同理。
LN
求均值时相当于把每一本书的所有字加起来再除以这本书的字符总数C×H×W即求整本书的“平均字”求标准差时也是同理。
IN
求均值时相当于把一页书中所有字加起来再除以该页的总字数H×W即求每页书的“平均字”求标准差时也是同理。
GN
左边是原版Transformer的Post-LN即将LN放在addition之后右边是改进之后的Pre-LN即把LN放在FFN和MHA之前。
一般认为Post-Norm在残差之后做归一化对参数正则化的效果更强进而模型的收敛性也会更好而Pre-Norm有一部分参数直接加在了后面没有对这部分参数进行正则化可以在反向时防止梯度爆炸或者梯度消失大模型的训练难度大因而使用Pre-Norm较多。
Norm更容易训练好理解因为它的恒等路径更突出但为什么它效果反而没那么好呢为什么Pre
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback