96SEO 2026-02-20 04:49 0
。

这种成本主要体现在两方面上#xff1a;一#xff0c;计算开销。
以大语言模型作为基座#xff0c;精调的显存占用和时间成本都成倍增加。
随着模型规模扩大到10B以上#xff0c;几乎…随着预训练语言模型规模的快速增长在下游任务上精调模型的成本也随之快速增加。
这种成本主要体现在两方面上一计算开销。
以大语言模型作为基座精调的显存占用和时间成本都成倍增加。
随着模型规模扩大到10B以上几乎不可能在消费级显卡或者单卡上进行训练二存储开销。
如果对于每一个下游任务我们都需要精调全量模型并存储相应的参数那么所需要的存储开销也是相当惊人的。
以GPT-3
175B为例为仅仅一个任务存储精调模型的全量参数就需要350/700GB取决于精度。
因此如何在兼顾精调的表现的同时提升效率是一个重要的研究问题。
tuning。
这类方法的核心思路是通过只训练少量参数并冻结其他模型参数逼近甚至达到全量参数精调的效果。
具体而言现有的主流方法可以总结为三类添加参数方法addition-based限制参数方法Specification-based和重参数化方法reparameterization-based。
al.[1]最早提出了adapter方法即在语言模型的每个transformer层中添加少量可学习的参数并冻结其余参数如图所示。
为了减少参数量作者采用了两层FFN作为adapter的网络结构进行降维-升维。
为了使得初始化结果等价于原始网络作者采用了残差连接并零初始化adapter结构。
实验表明在多项任务上仅使用0.5%-8%的训练参数就能逼近全量参数精调的效果并且训练速度能提升约60%。
需要注意的是由于引入了串行的额外模块模型的推理速度会略微下降4%-6%。
提示工程是语言模型随着规模增大而产生的新范式。
针对不同的任务提示工程会在输入文本中添加特定的token并预测[MASK]位置的单词然后将预测结果映射回任务的标签空间如图所示。
随着近几年的探索提示工程经历了手工设计-离散空间搜索-连续空间搜索的几个阶段。
为了使得prompt模板可以通过梯度下降学习在连续空间搜索这一方式中prompt直接作为固定长度的embedding添加到了输入层并且这部分参数是可学习的。
tuning的可学习参数也是相当少的。
但相对应的学习这部分参数的难度会较大即训练的收敛速度会比较慢而且它的效果对于prompt的长度、初始化方式等非常敏感。
此外在模型的规模比较小时prompt
tuning的表现和全量精调以及其余方法的差距都比较大。
随着模型规模的增长这个差距才会逐渐缩小。
tuning只在embedding层加入了可学习的参数但transformer在计算的过程中每层都会计算self-attention因此每层隐状态的输入长度都是PN的P为prompt长度N为原始文本长度。
Prefix
tuning的做法更进一步将每层模板对应位置都替换成了可学习参数而非通过attention从上一层聚合。
为了提升训练的稳定性作者同时使用了重参数化技巧降低embedding的维度并通过MLP将其升维到隐状态的语义空间中。
作者在文本生成任务上进行了实验。
令人惊讶的是在低资源少样本的训练条件下prefix
tuning的效果能超过全量精调。
这有可能是出于全量精调的过拟合问题影响了其泛化性能。
为了缩减训练的参数量一个自然的想法是我们直接冻结部分参数不变然后在剩余参数上进行梯度下降学习。
具体到选取哪些参数有些研究者提出了可学习的方法但出于简化考虑我们只介绍几种经验性选取的方式。
一个出于直觉的考虑是越靠近输入的层的语义空间编码的语义更通用越靠近输出的层的语义空间编码的语义更贴近具体的任务。
因此一个直观的做法是只精调最后一层或最后几层的参数维持其余参数不变。
除此之外Zaken
al.[4]发现只精调网络中所有的误差项bias维持矩阵乘法权重不变也能在下游任务上取得95%的表现。
语言模型的神奇之处在于只需要少量数百-数千条训练样本我们就能训练海量数亿-百亿的参数并且能取得良好的泛化效果。
关于这个现象Aghajanyan
什么是本征维度呢考虑精调的训练过程其实相当于在预训练初始化之上学习领域对应的参数
其中D为参数的维度。
那么假设能找到一个维数很低的子空间并通过投影等映射方式将其升维到原始空间
同时能达到和在原始空间中精调类似的效果那么我们就称这个子空间的最大维度为PLM的本征维度。
为了量化衡量“达到类似的效果”作者定义其为在具体的任务上达到原始的90%的表现分数。
因此这样定义的本征维度是特定于任务的。
由于使用简单的密集投影的计算复杂度和空间复杂度都是O(Dd)的考虑到D的范围在100M-100B之间因此这样子的计算代价是不可接受的。
作为替代作者使用了Fastfood[6]变换作为替代
在实验部分除了发现PLM的本征维度都很低以外作者还发现规模越大的模型本征维度反而会更小并且在较难的任务上本征维度会更大。
al.[6]提出了模型参数的低秩近似方法LoRA。
即对于所有参数矩阵的改变量都通过ΔWBA进行低秩分解。
其中为了保证零初始化矩阵B采用零初始化矩阵A则从正态分布中采样。
相比于adapter方法LoRA可以保证训练参数的收敛等价于原始网络adapter等价于MLP同时不会在推理阶段引起额外的延时。
此外LoRA能够极大地节省显存和存储占用并提升训练的速度约25%。
以GPT-3
175B为例LoRA的精调显存占用可以从1.2TB减小为350GB同时存储占用从350GB减为35MB。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback