96SEO 2026-02-23 12:22 11
2020年5月OpenAI在长达72页的论文《https://arxiv.org/pdf/2005.14165Language

Learners》中发布了GPT-3共有1750亿参数量需要700G的硬盘存储(GPT-2有15亿个参数)它比GPT-2有了极大的改进。
根据论文描述GPT-3非常强大给予任何文本提示GPT-3将返回一个文本试图匹配用户给它的模式。
用户可以给它
编程只需向它展示几个希望它做的例子它就会提供一篇完整的文章或故事。
GPT-3在许多NLP数据集上都取得了很强的性能包括翻译、问题回答和cloze任务以及一些需要即时推理或领域适应的任务如在句子中使用一个新词或执行3位数运算。
GPT-3可以生成人类评估人员难以区分的新闻文章样本。
OpenAI在发布GPT2后并没有引起业界太大的影响和关注究其原因并不是zero-shot这种想法不够吸引人而是GPT2表现出来的效果依然差强人意仍然属于“人工智障”的阶段然而OpenAI认为他们的方向没有问题不在特定领域上做太多的微调甚至不做微调这样就能避免1.人工标注数据和2.重新训练模型才是大规模语言模型的未来因此在不久之后他们又提出了GPT-3GPT-3也就是chatGPT的前生。
提出问题许多基于RNN或Transformer结构的语言模型通过“pre-train
fine-tune”在许多NLP任务和基准方面取得了实质性进展。
但这种方法必须拥有大量的下游任务fine-tune样本才能取得很好的性能。
相比之下人类通常只需要几个例子或简单的指令就能完成一项新的语言任务——这是当前NLP系统仍难以做到的。
GPT-3主要聚焦于更通用的NLP模型解决当前BERT类模型的两个缺点
1.对领域内有标签数据的过分依赖虽然有了预训练精调的两段式框架但还是少不了一定量的领域标注数据否则很难取得不错的效果而标注数据的成本又是很高的。
2.对于领域数据分布的过拟合在精调阶段因为领域数据有限模型只能拟合训练数据分布如果数据较少的话就可能造成过拟合致使模型的泛华能力下降更加无法应用到其他领域。
GPT-3这是一个具有1750亿个参数的自回归语言模型比之前的任何非稀疏语言模型大至少10倍并在few-shot设置下测试其性能。
对于所有任务GPT-3都是在没有任何梯度更新或微调的情况下应用的仅通过与模型的文本交互来指定任务。
GPT-3的主要目标是用更少的领域数据、且不经过精调步骤去解决问题。
主要贡献证明了通过增大参数量就能让语言模型显著提高下游任务在Few-shot仅给定任务说明和少量示例设置下的性能。
有时甚至达到了与现有最先进的微调方法相比的竞争力。
模型在训练阶段具备了一系列模式识别的能力和方法并通过在预测过程中利用这些能力和方法以快速适应一个下游任务。
最近的一些研究尝试通过称为in-context
learning的方法来实现上述过程然而效果距离期待的相差甚远。
Transformer语言模型参数的每一次增大都会让文本理解能力和其他的NLP下游任务的性能得到提升。
此外有研究指出描述许多下游任务性能的log损失能让模型的性能和参数之间服从一个平滑趋势。
考虑到in-context
learning会将学习到的知识和方法存在模型的参数中假设模型的情境学习能力也会随着参数规模的增长而增长。
learning是论文中介绍的一个重要概念要理解in-context
learning我们需要先理解meta-learning(元学习)。
对于一个少样本的任务来说模型的初始化值非常重要从一个好的初始化值作为起点模型能够尽快收敛使得到的结果非常快的逼近全局最优解。
元学习的核心思想在于通过少量的数据寻找一个合适的初始化范围使得模型能够在有限的数据集上快速拟合并获得不错的效果。
在语言模型的背景下这意味着该模型在训练时培养了广泛的技能和模式识别能力然后在推理时使用这些能力来快速适应或识别期望的任务
learning在训练时使用预先训练的语言模型的文本输入作为任务规范的形式该模型以自然语言指令和/或任务的一些演示为条件然后通过预测下一步将发生什么来完成任务。
尽管它已经显示出一些初步的希望但这种方法仍然取得了远不如微调的结果。
元学习显然需要大幅改进才能成为解决语言任务的实用方法。
Meta-Learning算法正常的监督学习是将一个批次的数据打包成一个batch进行学习。
但是元学习是将一个个任务打包成batch每个batch分为支持集support
对一个网络模型f其参数表示为θ它的初始化值被叫做meta-initialization。
MAML的目标则是学习一组meta-initialization能够快速应用到其它任务中。
MAML的迭代涉及两次参数更新分别是内循环inner
loop。
内循环是根据任务标签快速的对具体的任务进行学习和适应而外学习则是对meta-initialization进行更新。
直观的理解我用一组meta-initialization去学习多个任务如果每个任务都学得比较好则说明这组meta-initialization是一个不错的初始化值否则我们就去对这组值进行更新如图所示。
目前的实验结果表明元学习距离学习一个通用的词向量模型还是有很多工作要做的。
语言建模的另一个最新趋势可能提供了前进的方向。
近年来基于Transformer语言模型的容量大幅增加从1亿个参数[RNSS18]到3亿个参数[DCLT18]到15亿个参数/RWC19]到80亿个参数[SSP19]110亿个参数RSR19]最后是170亿个参数[Tur20]。
每一次增加都带来了文本生成以及下游NLP任务的改进有证据表明log
loss呈现平稳的改善趋势[KMH20]。
由于in-context
learning在模型的参数范围内吸收许多技能和任务因此in-context
learning能力可能会随着规模的增长而表现出同样强大的增益。
learning在被给定的几个任务示例或一个任务说明的情况下模型应该能通过简单预测以补全任务中其他的实例。
即情境学习要求预训练模型要对任务本身进行理解。
情境学习三种分类的定义和示例如下
示例向模型输入“这个任务要求将中文翻译为英文。
你好-hello再见-goodbye购买-purchase销售-”然后要求模型预测下一个输出应该是什么正确答案应为“sell”。
示例向模型输入“这个任务要求将中文翻译为英文。
你好-hello销售-”然后要求模型预测下一个输出应该是什么正确答案应为“sell”。
示例向模型输入“这个任务要求将中文翻译为英文。
销售-”然后要求模型预测下一个输出应该是什么正确答案应为“sell”。
laerning是提供1个示例和任务描述。
zero-shot则不提供示例只是在测试时提供任务相关的具体描述。
作者对这3种学习方式分别进行了实验实验结果表明三个学习方式的效果都会随着模型容量的上升而上升且few
Crawl高质量的WebText2Books1Books2和WikipediaGPT-3根据数据集的不同的质量赋予了不同的权值权值越高的在训练的时候越容易抽样到如表所示。
GPT-3沿用了GPT-2的结构但是在网络容量上做了很大的提升具体如下
在大量的语言模型数据集中GPT-3超过了绝大多数的zero-shot或者few-shot的state-of-***-art方法。
另外GPT-3在很多复杂的NLP任务中也超过了fine-tune之后的state-of-***-art方法例如闭卷问答模式解析机器翻译等。
除了这些传统的NLP任务GPT-3在一些其他的领域也取得了非常震惊的效果例如进行数学加法文章生成编写代码等。
GPT3整个模型的参数量达到了1750亿个且做few-shot时不改变模型而是在输入指定任务后再输入一些针对任务的样例如要求英语翻法语就在translate
French:后面加上一些翻译的样例最后再输入你的问题如cheese
其中也是提示词示意模型进行输出。
这是基于transformer架构的自注意力机制实现的。
但是每一次都要给样本因为模型没法存下样本的影响。
GPT系列从1到3通通采用的是transformer架构可以说模型结构并没有创新性的设计。
在微软的资金支持下这更像是一场赤裸裸的炫富1750亿的参数31个分工明确的作者超强算力的计算机
个GPU1200万的训练费用45TB的训练数据维基百科的全部数据只相当于其中的
。
甚至在训练GPT-3时出现了一个bugOpenAI自己也没有资金重新训练了。
GPT-3的本质还是通过海量的参数学习海量的数据然后依赖transformer强大的拟合能力使得模型能够收敛。
基于这个原因GPT-3学到的模型分布也很难摆脱这个数据集的分布情况。
得益于庞大的数据集GPT-3可以完成一些令人感到惊喜的任务但是GPT-3也不是万能的对于一些明显不在这个分布或者和这个分布有冲突的任务来说GPT-3还是无能为力的。
例如通过目前的测试来看GPT-3还有很多缺点的:
1.对于一些命题没有意义的问题GPT-3不会判断命题有效与否而是拟合一个没有意义的答案出来
2.由于40TB海量数据的存在很难保证GPT-3生成的文章不包含一些非常敏感的内容例如种族歧视性别歧视宗教偏见等
3.受限于transformer的建模能力GPT-3并不能保证生成的一篇长文章或者一本书籍的连贯性存在下文不停重复上文的问题。
4.难以生成长文本序列太长效果就会差。
由于采用的是解码器不能从后往前看在gpt里每个词都是同样重要的没有重点并且难以解释究竟是模型记住了样例还是模型学到了具体意义难以解释每个权重是做什么的可解释性差。
GPT-3如此强大性能的语言模型的提出为下游各种类型的NLP任务提供了非常优秀的词向量模型。
近年来硬件的性能在飞速发展而算法的研究似乎遇见了瓶颈GPT-3给冷清的AI领域注入了一剂强心剂告诉各大硬件厂商它们的工作还要加油只要算力足够强AI的性能还有不断提升的上界。
数据的规模的增长速度远远超过了数据的标注速度这也就导致了大量无标签数据的产生。
这些无标签的数据并非没有价值相反如果找到合适的“炼金术”将可以从这些海量的数据中获取意想不到的价值。
如何利用上这些无标签的数据来改善任务的表现变成了一个越来越无法轻视的问题。
深度神经网络的拟合能力非常的强大一个简单的神经网络模型就足以拟合任何函数。
但无奈使用越简单的网络结构完成同一个任务对数据量的要求也更高。
数据量越是上升数据质量越是提高往往对模型的要求就会越会降低。
数据量越大模型就越容易捕捉到符合真实世界分布的特征。
Word2Vec就是一个例子它所使用的目标函数非常的简单但是由于使用了大量的文本于是训练出的词向量中就包含了许多有趣的特性。
GPT、BERT、MT-DNN、GPT-2都使用了经过预训练的通用模型来继续进行下游的机器学习任务并不需要对模型本身再做太多的修改。
如果一个模型的表达能力足够的强训练时候使用的数据量足够的大那么模型的通用性就会更强就不需要针对特定的任务做太多的修改。
最极端的情况就像是GPT-2这个样子训练时甚至完全不需要知道后续的下游任务是什么就能够训练出一个通用的多任务模型。
GPT、BERT、MT-DNN、GPT-2虽然先后刷榜在成绩的提升中数据规模的提升占有比结构调整更大的比重。
随着模型的通用化和简单化为提升模型的性能今后更多的注意力将会从如何设计一个复杂、专用的模型转移到如何获取、清洗、精化出质量更加出众的、大量的数据上。
数据的处理方式调整的作用将会大于模型结构调整的作用。
1.https://www.zhihu.com/question/398114261/answer/1253942032
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback