96SEO 2026-02-19 18:59 15
论文https://arxiv.org/pdf/2311.17493

代码https://github.com/huawei-noah/Efficient-Computing/tree/master/Pruning/RPG
虽然结构化剪枝可以带来较大的运行时加速收益但其性能远低于非结构化剪枝。
在高度稀疏的情况下作者观察到非结构化剪枝会退化成结构化剪枝。
当权重具有较大比例的零时极有可能出现一个结构化的模式其中整个通道或滤波器几乎被完全剪枝。
因此现有的权重剪枝方法在高稀疏度下会遇到性能急剧下降的情况。
作者通过比较两种剪枝方法受到启发提出在权重剪枝中减少结构模式。
结构化剪枝实际上是深度卷积网络中权重秩的降低因此可以采用秩作为平衡非结构化稀疏权重“结构化”程度的指标如果一个系数权重的秩较低则认为它是高度结构化的。
为了避免非结构化剪枝过于结构化希望在剪枝时保持高稀疏度下的权重秩。
基于秩改进的目标作者提出了一种基于对抗秩的剪枝方法Rank-based
首先通过最小化近似误差来找到权重的低秩近似。
通过奇异值分解找到最佳低秩逼近。
其次为了提高权重秩最大化权重与其低秩对应的权重之间的距离来提高权重秩。
这种基于对抗秩的优化目标将稀疏权重引导到一个高秩拓扑上。
所提出的方法以逐步修剪的方式进行以稳定训练过程中的秩变化。
通过在图像分类和下游任务上的大量实验评估了所提出的RPG方法的优势图1表明与基线相比本文方法获得了矩阵秩优势。
X\{x_i\}_{i1,…n},Y\{y_i\}_{i1,…n}
X{xi}i1,…n,Y{yi}i1,…n神经网络权重
非结构化剪枝和结构化剪枝是两种主要的剪枝方法。
在非结构化剪枝实践中CNN的权重张量以细粒度的方式被剪枝每个孤立的权重参数可以在网络内部关闭(即设为零)但整个权重张量结构保持不变。
相比之下结构化剪枝侧重于过滤器的剪枝过滤器作为剪枝过程中最小的可剪枝单元被截断。
通过比较相同稀疏度预算下的两种剪枝范式说明在相同的剪枝预算下非结构化剪枝比结构化剪枝的效果要好得多。
这一现象可以从矩阵秩的角度进行解释。
实际上结构化剪枝是对权重矩阵的直接降秩即过滤器剪枝本质上是低秩的权重剪枝。
矩阵的秩表示矩阵所包含信息量的上界。
一个强大的网络应该具有丰富的信息作者希望稀疏网络的特征具有较高的秩。
特征的秩与稀疏权重矩阵的秩密切相关因为式2.4描述了矩阵乘法中秩的关系
的秩进行过滤器剪枝时输出特征的秩也会降低从而导致信息丰富度急剧损失。
另一方面非结构化剪枝摆脱了过滤器剪枝的结构约束从而保留了更多的信息量。
当稀疏度较高时非结构化剪枝部分退化为结构化剪枝。
当权重被大比例的填充零时形成“准结构化”的稀疏权重模式。
图1中矩阵秩的基线评估说明了这一问题。
因此现有的权重剪枝方法在高稀疏度下通常会遇到性能急剧下降的情况。
受两类剪枝性质的启发作者提出在非结构化剪枝中减少结构化模式从而在高稀疏度下保持权重排序。
既然权重的秩在权重剪枝中很重要那么就需要一种方法来计算深度神经网络中的秩。
由于权重值总是离散的作为备选解作者收敛到一个近似的秩而不是计算一个精确的秩。
因此定义近似秩如下
在之前的工作中秩是通过奇异值分解计算奇异值来评估的。
作者利用SVD计算定义1中的
由于SVD可以得到更好的低秩逼近可以利用这个性质来求解定义1中的
保持它与最佳低秩逼近的距离就可以增加它的秩。
因此作者设计了一种对抗机制增加
归一化在给定固定误差容忍度的情况下根据定义1中秩的定义为秩提供了比较公平的准则。
V^T)\sum_{i1}^k\sigma_iu_iv_i^T
)中定义的对抗秩损失如果通过梯度下降来优化秩损失中的W那么W的秩将会增加。
附录有给出证明
针对某个任务如分类检测等减少损失已提高稀疏网络的性能2.通过减少秩损失来获得更高的权重秩。
给定复合超参
之前的工作已经提出了各种剪枝框架作者认为渐进式剪枝Gradual
Pruning,GP可以再适中的训练预算下达到更好的性能所以将其作为剪枝框架。
GP在每次训练过程中修剪掉一小部分权重试图通过迭代的“剪枝和训练”过程来保持稀疏的网络性能。
就执行更新二进制掩码M的剪枝-生成过程使得经过掩码更新后整个网络在当前迭代时达到目标稀疏度。
随着训练的进行目标稀疏度会逐渐增加这与GP相同。
其次对所有参数进行基于重要性的全局排序代码里使用L1范数并执行剪枝。
最后基于梯度进行参数生成。
对于其他训练步骤(指出了剪枝阶段的finetune阶段)掩码M保持不变对活跃的权重值进行更新。
具体见算法1。
self.backward_hook_objects[l].dense_grad
mask1是二值化掩膜形状和M一样权重的L1范数前α比例的位置为1其他位置为0
mask2是二值化掩膜形状和M一样score_grow_lifted前α比例的位置为1其他位置为0
Sparse是最近提出的一种CPU上的稀疏加速框架。
将ResNet50在Deep
对基于transformer的模型本文的方法虽然没有专门为注意力机制设计但在DeiT-S上也取得了很好地效果如表5。
RPG涉及昂贵的SVD计算。
然而作者进行了实验并说明在时间和FLOP方面SVD在剪枝过程中所占的成本开销非常小。
如表6所示SVD计算的总体时间和FLOPs仅占整个RPG剪枝成本的
%。
作者还比较了RPG与其他剪枝方法的FLOPs开销。
从表7可以观察到与基线相比本文方法是最具有成本效益的。
最重要的是秩损失计算带来的额外开销并不是一个值得关注的问题。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback