96SEO 2026-02-19 16:56 11
。

目前在语音识别领域中#xff0c;Tranformer已经取代了传统ASR建模方式。
近几年关于ASR的研究工作很多都是基于Transformer的改进#xff0c;本文将介绍其中应…随着Transformer在人工智能领域掀起了一轮技术革命越来越多的领域开始使用基于Transformer的网络结构。
目前在语音识别领域中Tranformer已经取代了传统ASR建模方式。
近几年关于ASR的研究工作很多都是基于Transformer的改进本文将介绍其中应用较为广泛的几个former架构。
Transformer模型擅长获取基于内容的全局信息但是对高细粒度的局部特征效果不佳而CNN擅长获取局部特征信息对于全局信息则需要更多的层。
他们希望将CNN和Transformer优势结合起来对音频序列的局部和全局依赖关系进行建模。
Conformer也是编码器-解码器结构其中encoder由两个类似夹心饼干的前馈层组成多头自注意力模块和卷积模块夹在两个前馈神经网络中间紧接着Layernorm层。
在本篇论文中仅使用1层LSTM作为decoder。
conformer的卷积模块包含点向卷积GLU激活层1-D深度卷积Batchnorm然后是swish激活层其结构如下所示
前馈模块第一个线性层使用4的扩展因子第二个线性层将其投影回模型维度。
使用了swish激活和pre-norm残差单元。
在参数量相当的情况下Confomer可以达到比ContextNet更低的WER。
当Conformer参数量为30.7M时其WER甚至优于参数量为139M的Transformer结构。
受Conformer启发他们想提出了一种更灵活、可解释和可定制的encoder替代方案。
Branchformer具有并行分支可用于对端到端语音处理中的各种范围依赖关系进行建模。
在每个encoder层中一支使用self-attention来挖掘全局依赖关系另一支使用带有卷积门控(cgMLP)的MLP模块来提取局部关系。
如下图所示左边为encoder的总体结构。
右边为Branchformer的结构。
它由两个平行的分支组成。
一个分支利用注意力捕获全局信息而另一个分支利用带有卷积门控的MLP提取局部信息。
受Conformer启发他们想在有限的计算预算下降低Conformer体系结构的复杂性。
为了降低Conformer的复杂度EfficientConformer进行了如下的优化
提出了一种名为分组注意力的新型注意力机制。
增加grouped操作将自注意力模块的计算复杂度从O(n2d)降低为O(n2d/g)n为时间维度d为隐层维度g为group_size
EfficientConformer结构如下所示它将原始的Conformer
Block沿着时间维度进行下采样最后一步叠加N个Conformer
上面是Conformer的CNN模块下面是EfficientConformer的CNN模块。
序列下采样是使用跨行深度卷积执行的。
将DepthwiseConv的stride设置为大于1的值从而实现时间维度下采样。
因为下采样后输出的shape比输入的shape小因此残差模块需要增加Pointwise
d*g)其中g为group_size再进行attention计算最后将维度变换为原始的(n,
他们发现Conformer架构的设计选择并不是最优的它存在如下的一些问题
Conformer学习到的网络深层相邻语音帧的特征表示具有很高的时间冗余性。
马卡龙结构以及背靠背多头注意力(MHA)和卷积模块过于复杂。
这种复杂性使得很难在专用硬件平台上有效地部署模型进行推理而且对ASR效果是没必要的。
在重新研究了Conformer的宏观和微观结构(宏观是指整体结构、微观指一些小的组件)的设计选择后提出了Squeezeformer
U-Net下采样层将网络中间的采样率减半上采样层在最后恢复采样率以保持训练稳定性。
PostLN的方式代替单纯的PreLN或PostLNsubsampling中部分conv被替换为depthwise
Conformer结构(左)和Squeezeformer(右)结构包括用于采样率下采样和上采样的Temporal
U-Net结构仅使用层后归一化的标准transformer风格块结构以及深度可分离的子采样层。
test-o***r数据集上的WER和FLOPs。
对于每次改进都保持FLOPs差不多情况下对比Squeezeformer比Conformer模型降低1.40%的WER。
在LibriSpeech-960hr上进行实验。
最后三列中包括了单个NVIDIA
受Conformer、Squeezeformer启发他们想提出一种更快更高效的内存性能更好的Transformer。
类似u-net的编码器结构其中中间层以较低的帧速率运行不同层选择不同分辨率;
将LayerNorm改进为BiasNorm用以保留一些长度信息;
使用功能比Swish更好的SwooshR和SwooshL激活函数。
还提出了一个新的优化器称为ScaledAdam它按每个张量的当前规模缩放更新以保持相对变化大致相同并且还显式学习参数规模。
前面两个blocks用的是50Hz(20ms)这个比Squeezeformer要高后面的才变低。
就是说有更多的采样率种类。
MHSA通过两步学习全局信息:使用点积运算计算注意力权重并使用这些注意力权重聚合不同的帧信息。
这两步复杂度较高。
因此作者将MHSA分解为两个独立的模块:多头注意力权重(MHAW)和自我注意力(SA)。
通过使用一个MHAW模块和两个SA模块更有效地执行两次注意力计算。
此外还提出了一个新的模块非线性注意力(NLA)以充分利用已计算的注意力权重来学习全局信息。
自回归解码效率很低。
为加快推理速度设计了非自回归(NAR)方法以实现并行生成。
目前NAR存在以下问题
由于输出令牌的独立性假设单步NAR的性能不如AR模型特别是在大规模语料库中。
改进单步NAR存在两个挑战:一是准确预测输出令牌的数量并提取隐藏变量;
旨在改进单步NAR模型使其在大规模语料库上获得与AR模型相当的识别性能
为了解决上述问题Paraformer的作者提出了如下的解决方案
采用一个预测器Predictor来预测文字个数并通过Continuous
设计了一种生成负样本的策略来进行最小词错误率训练以进一步提高性能。
自回归与非自回归结构如下所示Transformer模型属于自回归模型也就是说后面的token的推断是基于前面的token的。
不能并行如果使用非自回归模型的话可以极大提升其速度。
依据输入的声学向量和目标向量生产含有语义的特征向量。
(推理时不用)
在Aishell-1上的实验结果表明Paraformer以牺牲一点点精度为代价的情况下将RTF提升了近10倍。
解决语音全局和局部信息的建模。
提出的方案是CNN学习局部信息Transformer学习全局信息使用夹心饼干的方式结合两者。
结果确实比transformer更好了。
Branchformer提出了另一个CNN和Transformer结合的结构Conformer是串行夹心饼干它则是并行结合。
EfficientConformerConformer在深层的时间尺度上下采样提升效率。
Squeezeformer从数据角度证实了时间维度上的冗余使用U-Net对中间层降采样从实验角度证明夹心饼干结构是次优。
Zipformer使用了更多种采样率对transformer进行降采样。
Paraformer使用非自回归方式建模。
用实验证实了Transformer中的全局信息用token数量和token之间的关系就可以代替。
去冗余的操作有利于语音识别中的效果和推理效率。
语音信号包含信息冗余除语义信息外其他信息生理、心理。
另一方面包含时间冗余短时不变性。
从信号中摒除冗余有助于关注到需要的语义相关信息。
就目前来说FBANKCNN简单有效地提取到语义局部信息降采样(从粗到细)可以降低时间维度上的冗余。
结合语言学知识或许有更简单有效的表征方式等待探索。
可以从ASR研究范式中学到什么。
早期ASR研究范式是专家知识驱动的。
语言学规律指导建模。
现在的ASR研究范式是数据驱动的使用大模型大数据以任务为导向学习。
前者依赖人的经验总结而人的经验必然有很多遗漏是粗糙的。
后者依赖数据仍未达到最优。
那应该如何逼近最优呢数据-原理-模型利用大数据大模型中间结果分析重新细化和更正语言学理论再利用规律重设计和精简网络。
understanding[C]//International
https://zhuanlan.zhihu.com/p/573133117
https://zhuanlan.zhihu.com/p/581923274
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback