96SEO 2026-02-19 11:57 11
。

具体应用如上图所示#xff0c;输入和输出的序列长度不固定#xff0c;由model自己决定。
语音翻译指的是#xff0c;直接输入一段语音信号#xff0c;例如英文#xff0c;输出的直接是翻译之后的中文。
transformer是什么呢是一个seq2seq的model。
具体应用如上图所示输入和输出的序列长度不固定由model自己决定。
语音翻译指的是直接输入一段语音信号例如英文输出的直接是翻译之后的中文。
seq2seq如今已经是一个应用非常广泛的模型可以应用于NLP的各种任务如语义分析语义分类聊天机器人等。
另外还有个值得说明的功能是做multi
classificatio是完全不一样的一个是多分类另一个是一个样本可以有多个标签。
但是多标签的问题可以用seq2seq模型来解决。
一般人可能会想到集成学习中对每个类别都输出一个概率然后例如说取一个threshold取得分最高的前3名就好了这样每个样本就都可以得到多个标签了。
这样做的一个问题在于有些样本可能是一个标签有些可能是3个这种threshold的方法不能从根本上解决问题。
使用的方法就是用seq2seq硬做可以输入一篇文章然后输出就是不同的类别输出类别的个数由model自己决定。
ok我们现在开始正式学习什么是seq2seq。
一个完整的seq2seq通常由一个encoder和一个decoder组成。
上图右侧即为一个transformer架构。
左半部分为encoder右半部分为decoder。
encoder要做的事情就在于输入一排向量输出另一排向量。
这个过程由RNN或CNNself-attention都可以做到。
但在transformer中使用的则是self
如上图所示一个encoder中由很多的block组成。
注意这里每个block并不是由一层的layer组成而是好几层的layer。
其中的一个block可能就如右侧所示由一个self
在原始的那篇transfomer文章中每个Block做的事情可能更为复杂。
在self-attention的基础上还加入了residual
connection的结构进去。
什么意思呢就是原本由self-attention每个输入可以得到一个输出这个输出是考虑了整个seq上下文信息的输出。
但这个时候我们在这个输出的基础上再把原始的input加进去这种思想就是residual
norm很简单就是输入一串序列[x1,x2,…,xk]输出另一串序列。
对输入做的处理是计算均值和标准差和zscore非常接近。
norm之后讲输出经过一个FC再和当前的值进行相加最后再经过一个norm层才是我们整个encoder最后的输出。
最左侧的图和最右侧的图可以结合起来看。
现在上述过程可以和前面那张较为复杂的图对应起来。
复杂图里面多了一个positional
注意上述只是按照transformer原始论文所讲述的encoder的架构其中一些模块的顺序也可以直接调换。
对于decoder主要有2种我们主要先讲autoregression,AT。
在经过encoder之后会得到一排中间向量将这些向量输入到decoder中用于产生输出。
这里注意在产生输出前我们会加上一个begin的标志在输出结束后还有一个end的标志。
这两个标志属于模型自己要学习的东西因此这样就可以做到模型自己决定输出的长度是多少了。
我们将encoder和decoder进行对比可以发现其实2者的区别还是很小的只有2部分不太一样一个是用马赛克盖住的部分另一个是masked
attention中我们由a1,a2,a3,a4生成b1,b2,b3,b4时例如说生成b2我们是考虑了a1,a2,a3,a4的所有信息的。
attention中我们要生成b2只能考虑a1,a2的信息不能考虑a3,a4的信息。
为什么要这样设计呢我们乡下decoder的运作方式输出是一个一个产生的所以只能考虑之前输出的信息。
我们下面来开始讲另一种decoderNon-autoregressive,
前面有讲到说AT是decoder一个一个生成输出的而NAT是一次性生成所有的输出的包括start和end。
这里就会有人有疑问不是说输出长度可能是不固定的吗但是NAT输出长度是固定的怎么办
有2种思路一种是另外再训练一个回归预测器预测输出的长度。
第二种是在输出的中间加入end在end之后的输出就不管他了当作没有输出一样。
ok我们现在来讲下encoder和decoder之间的信息传递也就是之前用马赛克盖住的那部分。
这个过程也叫做cross
attention。
上图中左边2个箭头来自于encoder右边1个来自于decoder。
具体来说呢左边经过encoder之后会得到一系列的a1,a2,a3等输出向量类似于self
attention过程产生k,v。
右侧decoder经过masked
attention之后得到一个输出向量q由q,k之间计算得到attention
α1′与对应的v1相乘之后得到总的输出v最后再进入FC层进行处理。
这个过程就叫做cross
ok讲完encoder和decoder之后我们需要讲下训练的部分。
这里在训练decoder时我们会讲正确的答案作为decoder的输入这个过程叫做teacher
这里就需要讲下之前所提到的那个问题decoder在训练时输入是正确的答案但是在测试时没有正确的答案给到进行输入。
那么decoder就很容易产生一步错步步错的问题。
这个问题也叫做exposure
sampling就是在训练decoder时偶尔喂给一些不正确的数据提升decoder的处理问题的能力就这么简单。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback