当前位置：首页 > SEO教程 >

深圳知名的网站设计公司正在招聘计算机网络技术人才，您了解这个岗位吗？

96SEO 2026-02-19 17:35 0

照读论文只读近两年的思路看那它无疑是过时的但可惜的是目前很多论文的核心依然是Transformer或者由其进行改进的故本文使用pytorch来搭建一下Transformer这个模型

全局分析

首先我们要从整个模型架构入手从大的层面看这块内容然后再开始编写代码。

欧克这里默认大家掌握了一些基础知识Transformer是由Google于2017年的Attention

All

Need论文上所提出来的。

如下图则是论文中所提出的整个框架可以很清晰的看出具体所使用的组件

总的来看两个模块编码器、解码器特别有自编码器的思想(换句话说Transformer借鉴了seq2sqe而seq2sqe天然就是自编码器的思想)下面引用了论文当中的话.

Encoder:

个相同层的堆叠组成。

每一层有两个子层。

第一个是多头自注意机制第二个是一个简单的位置全连接前馈网络。

我们在两个子层中的每一个周围使用残差连接随后进行层归一化。

也就是说每个子层的输出是

LayerNorm(x

是由子层本身实现的函数。

为了促进这些剩余连接模型中的所有子层以及嵌入层产生维度

512

个相同层的堆栈组成。

除了每个编码器层中的两个子层之外解码器还插入第三子层该第三子层对编码器堆栈的输出执行多头注意。

与编码器类似我们在每个子层周围使用残差连接然后进行层归一化。

我们还修改了解码器堆栈中的自注意子层以防止位置注意到后续位置。

该掩蔽与输出嵌入偏移一个位置的事实相结合确保了位置i的预测可以仅依赖于小于

好了我们了解了整个大的框架开始接触小的组件由上图我们可以进行拆分其整个框架是由嵌入层、位置编码层、掩码多头注意力层、前馈神经网络层、残差连接归一化层接下来我们分别实现这些神经网络块层并将其堆叠在一起其实就是Transformer了。

位置编码层

下面的就是位置编码。

在这里打个比方就比如机器翻译问题上我们需要将一句话翻译成另一句话即A

B那么A和B必然是长度随机的编码这里输入的就是想要翻译几句话几个单词每个单词的特征编码

1000

PE(pos,2i)sin(pos/100002i/dmodel)

1000

PE(pos,2i1)cos(pos/100002i/dmodel)

位置编码

PositionalEncoding(nn.Module):num_hiddens:

神经元数量嵌入维度数量dropout:

max_len1000):super(PositionalEncoding,

torch.zeros((1,

dtypetorch.float32).reshape(-1,

1)/

欧克接下来我们先来看一下简单理解的层。

残差连接可以理解为防止梯度消失问题以及加快收敛的一个有效的方法。

而归一化就是防止梯度爆炸的问题

残差连接

AddNorm(nn.Module):normalized_shape:

形状大小dropout:

PostionWiseFFN(nn.Module):num_input:

输入形状num_hiddens:

num_ouput):super(PostionWiseFFN,

nn.Linear(num_input,

self.liner2(self.relu(self.liner1(X)))点积注意力机制

Attention(Q,K,V)

softmax(\frac{QK^T}{\sqrt{d}})V

QKT)V

DotProductAttention(nn.Module):dropout:

init(self,

dropout):super(DotProductAttention,

sequence_mask(self,

dtypetorch.float32,deviceX.device)[None,

valid_lens[:,

valid_lens.repeat_interleave(valid_lens,

valid_lens)return

nn.functional.softmax(X.reshape(shape),

dim-1)def

点积获取注意力分数self.attention_weights

valid_lens)

torch.bmm(self.dropout(self.attention_weights),

注意力权重

值V到这里我们由此便可以提出自注意力机制而自注意力机制对上面做出了一个很简单的改变就是

QKV换句话说Q、K、V同源

所谓多头注意力机制就是有多个自注意力机制并行然后将输出进行拼接送到线性层进一步整合

MultiHead(Q,K,V)

Attention(QW_i^Q,KW_i^K,VW_i^V)

MultiHead(Q,K,V)Concat(head1,...,headh)WOwhere

headiAttention(QWiQ,KWiK,VWiV)

多头注意力

MultiHeadAttention(nn.Module):key_size:

K值形状大小query_size:

biasFalse):super(MultiHeadAttention,

num_hiddens

torch.repeat_interleave(valid_lens,

dim0)output

self.W_o(output_concat)这里我们通过transpose_qkv和transpose_output函数来将数据进行改造以此来进行并行操作

def

输入X的形状:(batch_size查询或者“键值”对的个数num_hiddens)#

输出X的形状:(batch_size查询或者“键值”对的个数num_headsnum_hiddens/num_heads)X

X.shape[1],

num_heads):逆转transpose_qkv函数的操作X

X.reshape(-1,

EncoderBlock(nn.Module):K_size,

Q_size,

self.ffn(Y))接下来我们需要将位置编码层、嵌入层、残差连接归一化层、前馈神经网络、编码器等封装起来

class

TransformerEncoder(nn.Module):vocab_size:

词典大小K_size,

biasFalse):super(TransformerEncoder,

self).__init__()self.num_hiddens

num_hiddens#

nn.Embedding(num_embeddingsvocab_size,

嵌入层self.pos_encoding

PositionalEncoding(num_hiddens,

dropout)

range(num_layers):self.blks.add_module(block

Q_size,

self.pos_encoding(self.embedding(X)

math.sqrt(self.num_hiddens))self.attention_weights

[None]

valid_lens)self.attention_weights[i]

blk.attention.attention.attention_weightsreturn

X解码器

[编码器输入编码器有效长度中间状态用于记录]enc_outputs,

enc_valid_lens

deviceX.device)else:dec_valid_lens

NoneX2

TransformerDecoder(nn.Module):vocab_size:

词典大小K_size,

dropout):super(TransformerDecoder,

self).__init__()self.num_hiddens

nn.Embedding(num_embeddingsvocab_size,

embedding_dimnum_hiddens)self.pos_encoding

PositionalEncoding(num_hiddens,

dropout)self.blks

range(num_layers):self.blks.add_module(block

Q_size,

self.pos_encoding(self.embedding(X)

math.sqrt(self.num_hiddens))self._attention_weights

[[None]

state)self._attention_weights[0][i]

blk.attention1.attention.attention_weightsself._attention_weights[1][i]

blk.attention2.attention.attention_weightsreturn

self.linear(X),

self._attention_weightspropertydef

self._attention_weightsTransformer

最后整合一下

EncoderDecoder(nn.Module):编码器-解码器架构的基类def

init(self,

**kwargs):super(EncoderDecoder,

self).__init__(**kwargs)self.encoder

encoderself.decoder

self.decoder.init_state(enc_outputs,

*args)return

dec_state)Transformer以三种不同的方式使用多头注意力(引自论文)

“encoder-decoder

V来自编码器的输出。

这使得解码器中的每个位置都能处理输入序列中的所有位置。

这模拟了序列到序列模型中的典型编码器-解码器注意机制。

编码器包含自我注意层。

在自关注层中所有的键、值和查询都来自同一个地方在这种情况下是编码器中前一层的输出。

编码器中的每个位置都可以处理编码器的前一层中的所有位置。

类似地解码器中的自关注层允许解码器中的每个位置关注解码器中的直到并且包括该位置的所有位置。

我们需要防止解码器中的冗余信息流以保持自回归特性。

我们通过屏蔽设置为

-\infty

标签： 深圳市建局官网网站内容建设需要进一步加强计算机网络技术招聘信息

上一篇：如何有效提高网站的点击率，同时考虑网络服务器租赁的成本？
下一篇：如何利用dedecms模板快速搭建网站？

为您推荐

SEO优化服务概述

作为专业的SEO优化服务提供商，我们致力于通过科学、系统的搜索引擎优化策略，帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。

百度官方合作伙伴白帽SEO技术数据驱动优化效果长期稳定

SEO优化核心服务

网站技术SEO

网站结构优化 - 提升网站爬虫可访问性
页面速度优化 - 缩短加载时间，提高用户体验
移动端适配 - 确保移动设备友好性
HTTPS安全协议 - 提升网站安全性与信任度
结构化数据标记 - 增强搜索结果显示效果

内容优化服务

关键词研究与布局 - 精准定位目标关键词
高质量内容创作 - 原创、专业、有价值的内容
Meta标签优化 - 提升点击率和相关性
内容更新策略 - 保持网站内容新鲜度
多媒体内容优化 - 图片、视频SEO优化

外链建设策略

高质量外链获取 - 权威网站链接建设
品牌提及监控 - 追踪品牌在线曝光
行业目录提交 - 提升网站基础权威
社交媒体整合 - 增强内容传播力
链接质量分析 - 避免低质量链接风险

SEO服务方案对比

服务项目	基础套餐	标准套餐	高级定制
关键词优化数量	10-20个核心词	30-50个核心词+长尾词	80-150个全方位覆盖
内容优化	基础页面优化	全站内容优化+每月5篇原创	个性化内容策略+每月15篇原创
技术SEO	基本技术检查	全面技术优化+移动适配	深度技术重构+性能优化
外链建设	每月5-10条	每月20-30条高质量外链	每月50+条多渠道外链
数据报告	月度基础报告	双周详细报告+分析	每周深度报告+策略调整
效果保障	3-6个月见效	2-4个月见效	1-3个月快速见效

SEO优化实施流程

我们的SEO优化服务遵循科学严谨的流程，确保每一步都基于数据分析和行业最佳实践：

网站诊断分析

全面检测网站技术问题、内容质量、竞争对手情况，制定个性化优化方案。

关键词策略制定

基于用户搜索意图和商业目标，制定全面的关键词矩阵和布局策略。

技术优化实施

解决网站技术问题，优化网站结构，提升页面速度和移动端体验。

内容优化建设

创作高质量原创内容，优化现有页面，建立内容更新机制。

外链建设推广

获取高质量外部链接，建立品牌在线影响力，提升网站权威度。

数据监控调整

持续监控排名、流量和转化数据，根据效果调整优化策略。

SEO优化常见问题

SEO优化一般需要多长时间才能看到效果？

SEO是一个渐进的过程，通常需要3-6个月才能看到明显效果。具体时间取决于网站现状、竞争程度和优化强度。我们的标准套餐一般在2-4个月内开始显现效果，高级定制方案可能在1-3个月内就能看到初步成果。

你们使用白帽SEO技术还是黑帽技术？

我们始终坚持使用白帽SEO技术，遵循搜索引擎的官方指南。我们的优化策略注重长期效果和可持续性，绝不使用任何可能导致网站被惩罚的违规手段。作为百度官方合作伙伴，我们承诺提供安全、合规的SEO服务。

SEO优化后效果能持续多久？

通过我们的白帽SEO策略获得的排名和流量具有长期稳定性。一旦网站达到理想排名，只需适当的维护和更新，效果可以持续数年。我们提供优化后维护服务，确保您的网站长期保持竞争优势。

你们提供SEO优化效果保障吗？

我们提供基于数据的SEO效果承诺。根据服务套餐不同，我们承诺在约定时间内将核心关键词优化到指定排名位置，或实现约定的自然流量增长目标。所有承诺都会在服务合同中明确约定，并提供详细的KPI衡量标准。

SEO优化效果数据

基于我们服务的客户数据统计，平均优化效果如下：

+85%

自然搜索流量提升

+120%

关键词排名数量

+60%

网站转化率提升

3-6月

平均见效周期

行业案例 - 制造业

优化前：日均自然流量120，核心词无排名
优化6个月后：日均自然流量950，15个核心词首页排名
效果提升：流量增长692%，询盘量增加320%

行业案例 - 电商

优化前：月均自然订单50单，转化率1.2%
优化4个月后：月均自然订单210单，转化率2.8%
效果提升：订单增长320%，转化率提升133%

行业案例 - 教育

优化前：月均咨询量35个，主要依赖付费广告
优化5个月后：月均咨询量180个，自然流量占比65%
效果提升：咨询量增长414%，营销成本降低57%

为什么选择我们的SEO服务

专业团队

10年以上SEO经验专家带队
百度、Google认证工程师
内容创作、技术开发、数据分析多领域团队
持续培训保持技术领先

数据驱动

自主研发SEO分析工具
实时排名监控系统
竞争对手深度分析
效果可视化报告

透明合作

清晰的服务内容和价格
定期进展汇报和沟通
效果数据实时可查
灵活的合同条款

我们的SEO服务理念

我们坚信，真正的SEO优化不仅仅是追求排名，而是通过提供优质内容、优化用户体验、建立网站权威，最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系，共同成长。

SEO教程

深圳知名的网站设计公司正在招聘计算机网络技术人才，您了解这个岗位吗？

全局分析

All

Encoder:

LayerNorm(x

512

位置编码层

1000

1000

位置编码

神经元数量嵌入维度数量dropout:

torch.zeros((1,

1)/

残差连接

形状大小dropout:

输入形状num_hiddens:

nn.Linear(num_input,

Attention(Q,K,V)

​QKT​)V

__init__(self,

sequence_mask(self,

valid_lens[:,

valid_lens)return

dim-1)def

valid_lens)

注意力权重

QKV换句话说Q、K、V同源

MultiHead(Q,K,V)

多头注意力

K值形状大小query_size:

num_hiddens

dim0)output

def

X.shape[1],

X.reshape(-1,

Q_size,

class

词典大小K_size,

num_hiddens#

嵌入层self.pos_encoding

dropout)

Q_size,

[None]

X解码器

enc_valid_lens

NoneX2

词典大小K_size,

dropout)self.blks

Q_size,

[[None]

self.linear(X),

最后整合一下

__init__(self,

encoderself.decoder

*args)return

“encoder-decoder

-\infty

为您推荐

SEO优化服务内容导航

SEO优化服务概述

SEO优化核心服务

网站技术SEO

内容优化服务

外链建设策略

SEO服务方案对比

SEO优化实施流程

网站诊断分析

关键词策略制定

技术优化实施

内容优化建设

外链建设推广

数据监控调整

SEO优化常见问题

SEO优化效果数据

行业案例 - 制造业

行业案例 - 电商

行业案例 - 教育

为什么选择我们的SEO服务

专业团队

QKT)V

init(self,

init(self,