当前位置：首页 > 百度SEO >

如何为无锡的企业定制专属的WordPress公司网站，并修改其管理员权限设置？

96SEO 2026-02-19 23:45 20

文章目录

Techgpt-2.0:解决知识图谱构建任务的大型语言模型项目

论文地址https://arxiv.org/abs/2310.03668

大型语言模型

与指令调优相结合在泛化到未见过的任务时取得了重大进展。

然而它们在信息提取IE方面不太成功落后于特定任务模型。

通常IE

任务的特点是复杂的注释指南这些指南描述任务并向人类提供示例。

以前利用此类信息的尝试都失败了即使是最大的模型也是如此因为它们无法遵循开箱即用的指南。

在本文中我们提出了

GoLLIEIE

大型语言模型指南该模型能够通过微调以符合注释指南从而改进未见过的

能够泛化并遵循看不见的准则优于之前零样本信息提取的尝试。

消融研究表明详细的指导方针是获得良好结果的关键。

代码、数据和模型将公开。

信息提取IE的任务非常具有挑战性。

这一挑战在详细的指南中显而易见其中包含精细的定义和大量的例外情况人类注释者必须遵循这些指南来执行任务。

当前

SoTA

模型的性能在很大程度上取决于人工注释数据的数量因为该模型从这些示例中学习指导。

然而在新的注释模式中进行测试时这种性能会显着下降。

在

中获得良好结果的常见做法是从头开始在每个新域和模式中手动注释因为几乎不存在跨应用程序域的传输。

不幸的是这在财务成本和人力方面都是不可行的。

大型语言模型

(LLM)的最新进展使得能够泛化到未见过的任务的模型的开发成为可能。

因此当前的零样本

系统利用LLM中编码的知识来注释新示例。

作为预训练过程的副产品模型现在可以强有力地代表个人或组织。

因此可以提示他们从文本中提取对这些类别的提及。

然而这有一个明显的限制并非每个注释模式*都以相同的方式定义“人”或任何其他标签。

例如ACE

将代词注释为人称而

目前的LLM已经接受过遵循说明的培训但他们未能遵循开箱即用的注释指南。

例如下图显示了特定领域的零样本命名实体识别的结果。

当提示指导方针时gpt-3.5-turbo

分数约为

20。

构建一个能够实现高性能零样本信息提取的系统减少对昂贵的人工注释的依赖仍然是一个开放的挑战。

在这项工作中我们提出了

大型语言模型这是一个经过微调的LLM旨在学习如何遵守一小部分众所周知的

在零样本信息提取方面优于

在开发可泛化到未见过的任务的系统方面取得了重大进展。

使用大量互联网数据训练了LLM发现给定自然语言任务描述的预训练模型可以在没有明确监督的情况下执行问答、机器翻译或总结等任务。

基于这一发现指令调优通常称为多任务微调已成为实现未知任务泛化的主要方法。

此过程涉及在大量未标记数据上预训练模型然后针对各种任务集合对其进行微调这些任务被表述为文本到文本问题。

向模型提供自然语言指令或提示以识别其应解决的任务。

研究已经证明增加语言模型的参数数量再加上指令调优数据集的大小和质量的改进可以增强泛化能力。

LLM在各种具有挑战性的任务中表现出了令人印象深刻的零样本泛化能力包括编码、常识推理和医学应用等。

mDEBERTA等仅编码器的语言模型仍然存在最有效的模型。

利用

LLM

之前间接监督方法通过利用从文本蕴涵和问答等任务中学到的知识来改进零样本

LSTM

将维基百科的标签描述编码为嵌入然后用于对输入进行评分。

利用外部知识的方法在细粒度零样本

NER

上也取得了成功。

引入了一种统一的文本到结构生成方法可以对不同的

任务转换为语义匹配问题使他们的方法能够推广到新领域并标记训练期间未见过的本体。

将

任务定义为自然语言描述性指令并在各种

任务中训练了LLM。

在对具有看不见的标签本体的任务的评估中他们的模型优于其他指令调整方法。

大多数针对

的指令调整尝试都有一个限制它们仅考虑提示中的标签名称例如“列出所有人员”。

这带来了两大挑战。

首先并非所有数据集都对“人”等标签具有相同的定义有些数据集不包括虚构人物或代词。

其次标签名称本身不足以描述复杂或不太常见的标签。

虽然有人尝试提示LLM使用指南但LLM有关任务标签的丰富先验知识阻止了模型遵守这些指南。

强制模型关注指南中的细节在训练期间未见过的模式上表现稳健。

在本节中我们深入探讨我们方法的细节描述输入和输出的表示方式以及用于强制模型遵循准则的正则化技术。

我们对模型的输入和输出采用了基于

Python

代码的表示。

这种方法不仅提供了清晰且人类可读的结构而且还解决了通常与自然语言指令相关的几个挑战。

它能够以统一的格式表示任何信息提取任务。

输入可以使用

Python

Black自动标准化。

输出结构良好解析它很简单。

此外当前大多数LLM都在其预训练数据集中包含代码这表明这些模型已经熟悉这种表示形式。

上图显示了该格式的三个主要部分模式定义、输入文本和输出注释。

模式定义形成输入的初始段。

本节包含有关表示为

Python

类的标签的信息指导方针明确表达为文档字符串以及以代码注释的形式呈现的代表性注释候选者。

类定义的数量对应于数据集中标签的数量。

课程很灵活并且针对每项任务而有所不同。

例如NER

数据集的类仅需要一个属性来指定与该类相对应的文本范围。

另一方面事件参数提取

(EAE)

等更复杂的任务需要更多类属性来对任务进行分类例如事件参与者列表请参阅附录

Python

result后模型开始生成。

注释是表示为模式定义部分上定义的类的实例列表。

解析输出很简单在

Python

中执行生成的代码会生成一个包含结果的列表。

这种易于解析输出的方式是我们模型的一个显着优势。

附录

指南增强表示这项工作的主要贡献是使用指南作为推理过程的一部分来改进零样本泛化。

下图显示了带有和不带有指导方针的类定义示例。

不同的数据集通常以多种不同的方式定义指导方针有些提供标签的复杂定义但有一些例外和特殊处理而另一些则仅给出一些有代表性的候选标签。

标签的填充物。

为了规范化输入格式我们将标签定义包含为类文档字符串并将候选者作为主要参数的注释通常是提及或跨度。

EAE

等复杂任务需要参数或槽的附加定义为此我们在每个类参数上添加了一些小定义作为注释。

在本文中我们将没有指南的模型称为

训练正则化我们希望确保模型遵循指导方针而不仅仅是学习识别特定的数据集并在它们上正确执行。

为此我们在训练期间引入各种噪声。

这会阻止模型识别特定数据集、回忆特定标签或仅关注标签名称而不是学习遵循指南中每个标签的实际描述。

我们应用了以下正则化。

类顺序打乱对于每个示例输入类的顺序被随机打乱。

这使得模型更难记住整个任务定义。

类丢失我们随机删除一些输入类。

通过从输入和输出中消除少数类我们迫使模型学习仅输出输入中定义的类的实例。

这不仅鼓励模型专注于模式定义而且还最大限度地减少了推理过程中出现幻觉的情况。

指南释义我们生成标签定义的变体以防止模型轻松记住它们。

我们还认为这将使该方法对于定义的不同变化更加稳健。

代表性候选者抽样与我们对释义所做的类似对于每个输入我们从每类

个固定池中抽样

PERSON。

这可以防止模型在训练期间利用标签名称并强制其参与并理解指南。

评估零样本能力需要将数据分为训练数据集和评估数据集。

然而许多信息提取基准都基于相同的域或共享其模式的一部分。

为了确保零样本评估不受类似数据的影响我们根据数据域划分了一组基准。

对于训练我们主要保留来自新闻和生物医学领域的数据集而对于评估我们使用来自不同领域的数据集。

这种方法有助于避免在评估过程中引入任何噪音。

在评估数据集中我们包括

CrossNER这是一个分为多个领域的数据集为了简单起见我们将每个领域称为一个单独的数据集人工智能、文学、音乐、政治和科学。

另外我们将

MIT

(SF)。

然而我们仅在感兴趣的三个主要任务上评估了模型NER、EE

EAE。

另外两个任务被添加到训练数据中以增加多样性并提高模型的灵活性。

为了提高模型的质量对两个数据集进行了少量修改。

首先Ontonotes

数据集从

SF以增加任务的复杂性。

这些修改使我们的系统无法与这些任务的现有技术相媲美。

然而我们感兴趣的焦点是零样本评估因此其好处比在监督设置上添加

CASIE

数据集中我们检测到注释的事件跨度不一致。

模型通常注释子字符串而不是整个范围。

因此我们根据预测的事件类别评估所有模型而不考虑确切的文本跨度。

对于参数我们使用部分匹配。

我们使用每个数据集作者发布的指南。

当此类指南未公开时我们会要求人类专家根据开发分会的注释来创建它们。

当可用时从指南中提取代表性候选者否则根据词频从列车分割中采样候选者或根据指南手动策划候选者。

使用

Vicuna

LLaMA、LLaMA-2因为我们的方法使用代码来表示输入和输出Code-LLaMA

模型在初步实验中效果更好。

为了进行公平比较本文开发的基线也基于

Code-LLama

架构的线性层中。

在初步实验中该设置在零样本任务上优于微调整个模型同时训练速度更快。

我们按照

Dettmers

Instruct-UIE因为它是最接近我们系统的方法但不使用指南。

考虑进行比较的另一个系统是

PromptNER它建议使用

NER。

与我们不同的是他们没有对模型进行微调以遵守指南。

为了公平比较我们只考虑了论文中报告的零样本结果。

此外当

Instruct-UIE

系统进行比较。

鉴于我们的系统是为零样本场景设计的监督实验旨在验证我们的系统不会降低其性能。

因此对于监督场景我们选择了

SoTA

点。

这是预期的因为基线模型隐式地学习了在微调期间根据数据分布注释数据集的指南。

此外尽管

GoLLIE

微调中引入了噪声以便根据准则进行概括但性能仍接近基线。

与其他系统相比我们的模型总体上取得了相似的结果。

关注我们的模型表现明显不佳的两个数据集

WNUT

NCBIDisease我们发现该任务仍需要具体技术。

例如使用外部知识来检测新兴和稀有实体。

在

NCBIDisisease

Flan-T5它在生物医学领域任务上非常熟练。

然而这些改进是对我们的建议的补充。

零样本评估零样本的结果如下表所示。

总体而言与基线相比在几乎每个数据集上使用指南时结果都有显着改善平均绝对差异为

点。

尽管根据领域划分评估基准但训练标签和评估基准之间总是存在一些重叠。

例如数据集

E3C

等数据集共享其模式的很大一部分。

这种现象反映在结果中。

GoLLIE

zeri-shot

相比主要区别在于骨干模型、训练数据量以及指南的使用与否。

Instruct-UIE

11B

T5。

在数据方面Instruct-UIE总共利用了来自不同领域的34个IE数据集将不同的任务计为数据集我们只利用了12个数据集。

与我们的方法相反他们不使用指南信息。

尽管如此我们的方法表现明显更好表明指南对结果有重要影响。

GPT-3.5进行比较。

尽管他们的方法也利用了指南但我们的方法在所有数据集上的表现明显更好这表明LLM即使使用

175B

参数很难遵循指南。

他们通过在上下文中添加示例来解决这个问题但在可比较的设置T5-XXL上仍然远远落后。

模型扩展最近的研究表明增加语言模型的参数数量可以提高泛化能力。

更高的参数数量可带来卓越的平均零样本性能。

然而一些数据集和任务可以从更大的LLM中受益匪浅而另一些则不然。

我们认为某些数据集并没有看到增加

LLM

节中讨论的指南问题的阻碍。

虽然一般来说较大的模型在监督和零样本设置中都能取得更好的结果但具有

GoLLIE

可见标签与不可见标签零样本数据集中并非所有标签都是不可见的训练数据集和零样本数据集中的标签之间存在重叠。

尽管这些标签可能有非常不同的注释准则但我们也会报告训练期间未接触到的标签集的结果以更好地了解

GoLLIE

分数。

所有模型在看不见的标签上表现出稍低的性能。

对于基线模型性能下降更为明显。

相比之下GoLLIE

消融研究

我们进行了消融以查看零样本评估中几个组件的贡献。

我们分析了的不同正则化技术。

此外我们将基线表示为“w/o

GoLLIE

值。

类顺序改组、指南释义和类名屏蔽似乎对最终结果没有显着贡献而类丢失虽然显着但改进很小。

损失仅根据结果标记进行计算从本质上限制了模型与准则过度拟合的可能性。

相反代表性注释项向模型发出了更强的信号。

我们看到指南中的定义和代表性候选者如何互补并有助于相互改进。

在本节中我们的目的是更好地理解通过指南提示LLM的效果。

我们专注于不同数据集上的特定标签结果如下表所示。

我们的分析涵盖了

GoLLIE

实体标记的成功和不成功案例。

对于后者我们还旨在确定模型未能正确标记这些实体的原因。

详细信息在指南中MEDIA、VULNERABILITYPATCH、TRAILER

TASK

等标签本质上是多义的因此很难仅根据标签名称来确定适当的分类。

因此由于信息不足基线很难有效地对这些标签下的项目进行分类。

相反GoLLIE

成功地遵循了这些指南强调了它们的实用性。

当注释不符合准则时对于

MultiNERD

实体。

根据注释指南这是正确的。

令人惊讶的是年份没有被标记为数据集中的实体。

在这种情况下GoLLIE

CrossNER

数据集使用的杂项类别是指未包含在数据集设置的预定义类别中的任何命名实体。

这个定义非常模糊并且是对不适合任何类型的各种元素的包罗万象。

预定义类别。

类似地电影数据集的

PLOT

类别用于标记各种元素。

例如电影中的事件例如谋杀、赛马、角色例如吸血鬼、僵尸和原籍国例如英国等。

这种缺乏特异性阻碍了标记此类元素的一致规则或指南的制定这对人类和机器来说都是一个问题。

因此GoLLIE

数据集为每个域中的人名引入了两个标签。

例如在科学领域中使用标签“SCIENTIST”和“PERSON”。

前者用于标记任何不是科学家的人。

类似地文学域包括标签“WRITER”和“PERSON”。

该指南帮助

GoLLIE

仍然将个人归类为“人”即使他们是科学家。

从技术上讲这并不是不正确的因为根据定义每个科学家也是一个人。

GoLLIE

的表现优于基线再次证明了为模型提供指导的实用性。

然而我们经常发现该模型将政党归类为组织。

如表

所列大多数预训练数据集源自新闻领域其中政党是一个常见实体。

然而没有一个微调数据集包含

POLITICAL

实体相反它们被归类为组织。

因此在推理过程中该模型始终将政党标记为组织。

我们相信这个问题可以通过扩大微调数据集的数量和多样性来解决。

总之我们预计

将在具有明确定义和明确界限的指导方针的标签上表现良好。

另一方面模糊的标签或非常粗糙的标签带来了挑战。

在这方面相信

GoLLIE

会受益于学习遵循“始终标记最具体的类”或“在没有其他特定类的情况下注释此类”等指令。

我们还预计

GoLLIE

GoLLIE这是一种经过专门微调以符合注释指南的LLM该指南旨在帮助人类注释数据集。

全面的零样本评估从经验上证明注释指南对于LLM来说非常有价值因为

GoLLIE

实现了更好的零样本结果后者不利用指南或使用未针对遵循指南进行微调的模型。

GoLLIE

GoLLIE。

我们还将通过扩展模型可以遵循的指令集来提高模型在模糊和粗糙标签上的性能。

标签： 广东商城网站建设报价化妆品网站制作需要修改wordpress的权限设置

上一篇：如何为泉州的电商企业打造一个高效的IT制作环境?
下一篇： Java编程中常见的八股个人总结方法是什么？

为您推荐

SEO优化服务概述

作为专业的SEO优化服务提供商，我们致力于通过科学、系统的搜索引擎优化策略，帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。

百度官方合作伙伴白帽SEO技术数据驱动优化效果长期稳定

SEO优化核心服务

网站技术SEO

网站结构优化 - 提升网站爬虫可访问性
页面速度优化 - 缩短加载时间，提高用户体验
移动端适配 - 确保移动设备友好性
HTTPS安全协议 - 提升网站安全性与信任度
结构化数据标记 - 增强搜索结果显示效果

内容优化服务

关键词研究与布局 - 精准定位目标关键词
高质量内容创作 - 原创、专业、有价值的内容
Meta标签优化 - 提升点击率和相关性
内容更新策略 - 保持网站内容新鲜度
多媒体内容优化 - 图片、视频SEO优化

外链建设策略

高质量外链获取 - 权威网站链接建设
品牌提及监控 - 追踪品牌在线曝光
行业目录提交 - 提升网站基础权威
社交媒体整合 - 增强内容传播力
链接质量分析 - 避免低质量链接风险

SEO服务方案对比

服务项目	基础套餐	标准套餐	高级定制
关键词优化数量	10-20个核心词	30-50个核心词+长尾词	80-150个全方位覆盖
内容优化	基础页面优化	全站内容优化+每月5篇原创	个性化内容策略+每月15篇原创
技术SEO	基本技术检查	全面技术优化+移动适配	深度技术重构+性能优化
外链建设	每月5-10条	每月20-30条高质量外链	每月50+条多渠道外链
数据报告	月度基础报告	双周详细报告+分析	每周深度报告+策略调整
效果保障	3-6个月见效	2-4个月见效	1-3个月快速见效

SEO优化实施流程

我们的SEO优化服务遵循科学严谨的流程，确保每一步都基于数据分析和行业最佳实践：

网站诊断分析

全面检测网站技术问题、内容质量、竞争对手情况，制定个性化优化方案。

关键词策略制定

基于用户搜索意图和商业目标，制定全面的关键词矩阵和布局策略。

技术优化实施

解决网站技术问题，优化网站结构，提升页面速度和移动端体验。

内容优化建设

创作高质量原创内容，优化现有页面，建立内容更新机制。

外链建设推广

获取高质量外部链接，建立品牌在线影响力，提升网站权威度。

数据监控调整

持续监控排名、流量和转化数据，根据效果调整优化策略。

SEO优化常见问题

SEO优化一般需要多长时间才能看到效果？

SEO是一个渐进的过程，通常需要3-6个月才能看到明显效果。具体时间取决于网站现状、竞争程度和优化强度。我们的标准套餐一般在2-4个月内开始显现效果，高级定制方案可能在1-3个月内就能看到初步成果。

你们使用白帽SEO技术还是黑帽技术？

我们始终坚持使用白帽SEO技术，遵循搜索引擎的官方指南。我们的优化策略注重长期效果和可持续性，绝不使用任何可能导致网站被惩罚的违规手段。作为百度官方合作伙伴，我们承诺提供安全、合规的SEO服务。

SEO优化后效果能持续多久？

通过我们的白帽SEO策略获得的排名和流量具有长期稳定性。一旦网站达到理想排名，只需适当的维护和更新，效果可以持续数年。我们提供优化后维护服务，确保您的网站长期保持竞争优势。

你们提供SEO优化效果保障吗？

我们提供基于数据的SEO效果承诺。根据服务套餐不同，我们承诺在约定时间内将核心关键词优化到指定排名位置，或实现约定的自然流量增长目标。所有承诺都会在服务合同中明确约定，并提供详细的KPI衡量标准。

SEO优化效果数据

基于我们服务的客户数据统计，平均优化效果如下：

+85%

自然搜索流量提升

+120%

关键词排名数量

+60%

网站转化率提升

3-6月

平均见效周期

行业案例 - 制造业

优化前：日均自然流量120，核心词无排名
优化6个月后：日均自然流量950，15个核心词首页排名
效果提升：流量增长692%，询盘量增加320%

行业案例 - 电商

优化前：月均自然订单50单，转化率1.2%
优化4个月后：月均自然订单210单，转化率2.8%
效果提升：订单增长320%，转化率提升133%

行业案例 - 教育

优化前：月均咨询量35个，主要依赖付费广告
优化5个月后：月均咨询量180个，自然流量占比65%
效果提升：咨询量增长414%，营销成本降低57%

为什么选择我们的SEO服务

专业团队

10年以上SEO经验专家带队
百度、Google认证工程师
内容创作、技术开发、数据分析多领域团队
持续培训保持技术领先

数据驱动

自主研发SEO分析工具
实时排名监控系统
竞争对手深度分析
效果可视化报告

透明合作

清晰的服务内容和价格
定期进展汇报和沟通
效果数据实时可查
灵活的合同条款

我们的SEO服务理念

我们坚信，真正的SEO优化不仅仅是追求排名，而是通过提供优质内容、优化用户体验、建立网站权威，最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系，共同成长。