96SEO 2026-02-19 23:45 15
Techgpt-2.0:解决知识图谱构建任务的大型语言模型项目

论文地址https://arxiv.org/abs/2310.03668
与指令调优相结合在泛化到未见过的任务时取得了重大进展。
然而它们在信息提取IE方面不太成功落后于特定任务模型。
通常IE
任务的特点是复杂的注释指南这些指南描述任务并向人类提供示例。
以前利用此类信息的尝试都失败了即使是最大的模型也是如此因为它们无法遵循开箱即用的指南。
在本文中我们提出了
大型语言模型指南该模型能够通过微调以符合注释指南从而改进未见过的
能够泛化并遵循看不见的准则优于之前零样本信息提取的尝试。
消融研究表明详细的指导方针是获得良好结果的关键。
代码、数据和模型将公开。
信息提取IE的任务非常具有挑战性。
这一挑战在详细的指南中显而易见其中包含精细的定义和大量的例外情况人类注释者必须遵循这些指南来执行任务。
当前
模型的性能在很大程度上取决于人工注释数据的数量因为该模型从这些示例中学习指导。
然而在新的注释模式中进行测试时这种性能会显着下降。
在
中获得良好结果的常见做法是从头开始在每个新域和模式中手动注释因为几乎不存在跨应用程序域的传输。
不幸的是这在财务成本和人力方面都是不可行的。
(LLM)的最新进展使得能够泛化到未见过的任务的模型的开发成为可能。
因此当前的零样本
系统利用LLM中编码的知识来注释新示例。
作为预训练过程的副产品模型现在可以强有力地代表个人或组织。
因此可以提示他们从文本中提取对这些类别的提及。
然而这有一个明显的限制并非每个注释模式*都以相同的方式定义“人”或任何其他标签。
例如ACE
目前的LLM已经接受过遵循说明的培训但他们未能遵循开箱即用的注释指南。
例如下图显示了特定领域的零样本命名实体识别的结果。
当提示指导方针时gpt-3.5-turbo
20。
构建一个能够实现高性能零样本信息提取的系统减少对昂贵的人工注释的依赖仍然是一个开放的挑战。
在这项工作中我们提出了
大型语言模型这是一个经过微调的LLM旨在学习如何遵守一小部分众所周知的
在开发可泛化到未见过的任务的系统方面取得了重大进展。
使用大量互联网数据训练了LLM发现给定自然语言任务描述的预训练模型可以在没有明确监督的情况下执行问答、机器翻译或总结等任务。
基于这一发现指令调优通常称为多任务微调已成为实现未知任务泛化的主要方法。
此过程涉及在大量未标记数据上预训练模型然后针对各种任务集合对其进行微调这些任务被表述为文本到文本问题。
向模型提供自然语言指令或提示以识别其应解决的任务。
研究已经证明增加语言模型的参数数量再加上指令调优数据集的大小和质量的改进可以增强泛化能力。
LLM在各种具有挑战性的任务中表现出了令人印象深刻的零样本泛化能力包括编码、常识推理和医学应用等。
mDEBERTA等仅编码器的语言模型仍然存在最有效的模型。
利用
之前间接监督方法通过利用从文本蕴涵和问答等任务中学到的知识来改进零样本
将维基百科的标签描述编码为嵌入然后用于对输入进行评分。
利用外部知识的方法在细粒度零样本
上也取得了成功。
引入了一种统一的文本到结构生成方法可以对不同的
任务转换为语义匹配问题使他们的方法能够推广到新领域并标记训练期间未见过的本体。
将
任务中训练了LLM。
在对具有看不见的标签本体的任务的评估中他们的模型优于其他指令调整方法。
的指令调整尝试都有一个限制它们仅考虑提示中的标签名称例如“列出所有人员”。
这带来了两大挑战。
首先并非所有数据集都对“人”等标签具有相同的定义有些数据集不包括虚构人物或代词。
其次标签名称本身不足以描述复杂或不太常见的标签。
虽然有人尝试提示LLM使用指南但LLM有关任务标签的丰富先验知识阻止了模型遵守这些指南。
强制模型关注指南中的细节在训练期间未见过的模式上表现稳健。
在本节中我们深入探讨我们方法的细节描述输入和输出的表示方式以及用于强制模型遵循准则的正则化技术。
我们对模型的输入和输出采用了基于
代码的表示。
这种方法不仅提供了清晰且人类可读的结构而且还解决了通常与自然语言指令相关的几个挑战。
它能够以统一的格式表示任何信息提取任务。
输入可以使用
Black自动标准化。
输出结构良好解析它很简单。
此外当前大多数LLM都在其预训练数据集中包含代码这表明这些模型已经熟悉这种表示形式。
上图显示了该格式的三个主要部分模式定义、输入文本和输出注释。
模式定义形成输入的初始段。
本节包含有关表示为
类的标签的信息指导方针明确表达为文档字符串以及以代码注释的形式呈现的代表性注释候选者。
类定义的数量对应于数据集中标签的数量。
课程很灵活并且针对每项任务而有所不同。
例如NER
数据集的类仅需要一个属性来指定与该类相对应的文本范围。
另一方面事件参数提取
等更复杂的任务需要更多类属性来对任务进行分类例如事件参与者列表请参阅附录
result后模型开始生成。
注释是表示为模式定义部分上定义的类的实例列表。
解析输出很简单在
中执行生成的代码会生成一个包含结果的列表。
这种易于解析输出的方式是我们模型的一个显着优势。
附录
指南增强表示这项工作的主要贡献是使用指南作为推理过程的一部分来改进零样本泛化。
下图显示了带有和不带有指导方针的类定义示例。
不同的数据集通常以多种不同的方式定义指导方针有些提供标签的复杂定义但有一些例外和特殊处理而另一些则仅给出一些有代表性的候选标签。
标签的填充物。
为了规范化输入格式我们将标签定义包含为类文档字符串并将候选者作为主要参数的注释通常是提及或跨度。
等复杂任务需要参数或槽的附加定义为此我们在每个类参数上添加了一些小定义作为注释。
在本文中我们将没有指南的模型称为
训练正则化我们希望确保模型遵循指导方针而不仅仅是学习识别特定的数据集并在它们上正确执行。
为此我们在训练期间引入各种噪声。
这会阻止模型识别特定数据集、回忆特定标签或仅关注标签名称而不是学习遵循指南中每个标签的实际描述。
我们应用了以下正则化。
类顺序打乱对于每个示例输入类的顺序被随机打乱。
这使得模型更难记住整个任务定义。
类丢失我们随机删除一些输入类。
通过从输入和输出中消除少数类我们迫使模型学习仅输出输入中定义的类的实例。
这不仅鼓励模型专注于模式定义而且还最大限度地减少了推理过程中出现幻觉的情况。
指南释义我们生成标签定义的变体以防止模型轻松记住它们。
我们还认为这将使该方法对于定义的不同变化更加稳健。
代表性候选者抽样与我们对释义所做的类似对于每个输入我们从每类
PERSON。
这可以防止模型在训练期间利用标签名称并强制其参与并理解指南。
评估零样本能力需要将数据分为训练数据集和评估数据集。
然而许多信息提取基准都基于相同的域或共享其模式的一部分。
为了确保零样本评估不受类似数据的影响我们根据数据域划分了一组基准。
对于训练我们主要保留来自新闻和生物医学领域的数据集而对于评估我们使用来自不同领域的数据集。
这种方法有助于避免在评估过程中引入任何噪音。
在评估数据集中我们包括
CrossNER这是一个分为多个领域的数据集为了简单起见我们将每个领域称为一个单独的数据集人工智能、文学、音乐、政治和科学。
另外我们将
(SF)。
然而我们仅在感兴趣的三个主要任务上评估了模型NER、EE
EAE。
另外两个任务被添加到训练数据中以增加多样性并提高模型的灵活性。
为了提高模型的质量对两个数据集进行了少量修改。
首先Ontonotes
SF以增加任务的复杂性。
这些修改使我们的系统无法与这些任务的现有技术相媲美。
然而我们感兴趣的焦点是零样本评估因此其好处比在监督设置上添加
数据集中我们检测到注释的事件跨度不一致。
模型通常注释子字符串而不是整个范围。
因此我们根据预测的事件类别评估所有模型而不考虑确切的文本跨度。
对于参数我们使用部分匹配。
我们使用每个数据集作者发布的指南。
当此类指南未公开时我们会要求人类专家根据开发分会的注释来创建它们。
当可用时从指南中提取代表性候选者否则根据词频从列车分割中采样候选者或根据指南手动策划候选者。
使用
LLaMA、LLaMA-2因为我们的方法使用代码来表示输入和输出Code-LLaMA
模型在初步实验中效果更好。
为了进行公平比较本文开发的基线也基于
架构的线性层中。
在初步实验中该设置在零样本任务上优于微调整个模型同时训练速度更快。
我们按照
Instruct-UIE因为它是最接近我们系统的方法但不使用指南。
考虑进行比较的另一个系统是
NER。
与我们不同的是他们没有对模型进行微调以遵守指南。
为了公平比较我们只考虑了论文中报告的零样本结果。
此外当
系统进行比较。
鉴于我们的系统是为零样本场景设计的监督实验旨在验证我们的系统不会降低其性能。
因此对于监督场景我们选择了
点。
这是预期的因为基线模型隐式地学习了在微调期间根据数据分布注释数据集的指南。
此外尽管
微调中引入了噪声以便根据准则进行概括但性能仍接近基线。
与其他系统相比我们的模型总体上取得了相似的结果。
关注我们的模型表现明显不佳的两个数据集
NCBIDisease我们发现该任务仍需要具体技术。
例如使用外部知识来检测新兴和稀有实体。
在
Flan-T5它在生物医学领域任务上非常熟练。
然而这些改进是对我们的建议的补充。
零样本评估零样本的结果如下表所示。
总体而言与基线相比在几乎每个数据集上使用指南时结果都有显着改善平均绝对差异为
点。
尽管根据领域划分评估基准但训练标签和评估基准之间总是存在一些重叠。
例如数据集
等数据集共享其模式的很大一部分。
这种现象反映在结果中。
GoLLIE
相比主要区别在于骨干模型、训练数据量以及指南的使用与否。
Instruct-UIE
T5。
在数据方面Instruct-UIE总共利用了来自不同领域的34个IE数据集将不同的任务计为数据集我们只利用了12个数据集。
与我们的方法相反他们不使用指南信息。
尽管如此我们的方法表现明显更好表明指南对结果有重要影响。
GPT-3.5进行比较。
尽管他们的方法也利用了指南但我们的方法在所有数据集上的表现明显更好这表明LLM即使使用
参数很难遵循指南。
他们通过在上下文中添加示例来解决这个问题但在可比较的设置T5-XXL上仍然远远落后。
模型扩展最近的研究表明增加语言模型的参数数量可以提高泛化能力。
更高的参数数量可带来卓越的平均零样本性能。
然而一些数据集和任务可以从更大的LLM中受益匪浅而另一些则不然。
我们认为某些数据集并没有看到增加
节中讨论的指南问题的阻碍。
虽然一般来说较大的模型在监督和零样本设置中都能取得更好的结果但具有
可见标签与不可见标签零样本数据集中并非所有标签都是不可见的训练数据集和零样本数据集中的标签之间存在重叠。
尽管这些标签可能有非常不同的注释准则但我们也会报告训练期间未接触到的标签集的结果以更好地了解
分数。
所有模型在看不见的标签上表现出稍低的性能。
对于基线模型性能下降更为明显。
相比之下GoLLIE
我们进行了消融以查看零样本评估中几个组件的贡献。
我们分析了的不同正则化技术。
此外我们将基线表示为“w/o
值。
类顺序改组、指南释义和类名屏蔽似乎对最终结果没有显着贡献而类丢失虽然显着但改进很小。
损失仅根据结果标记进行计算从本质上限制了模型与准则过度拟合的可能性。
相反代表性注释项向模型发出了更强的信号。
我们看到指南中的定义和代表性候选者如何互补并有助于相互改进。
在本节中我们的目的是更好地理解通过指南提示LLM的效果。
我们专注于不同数据集上的特定标签结果如下表所示。
我们的分析涵盖了
实体标记的成功和不成功案例。
对于后者我们还旨在确定模型未能正确标记这些实体的原因。
详细信息在指南中MEDIA、VULNERABILITYPATCH、TRAILER
等标签本质上是多义的因此很难仅根据标签名称来确定适当的分类。
因此由于信息不足基线很难有效地对这些标签下的项目进行分类。
相反GoLLIE
成功地遵循了这些指南强调了它们的实用性。
当注释不符合准则时对于
实体。
根据注释指南这是正确的。
令人惊讶的是年份没有被标记为数据集中的实体。
在这种情况下GoLLIE
数据集使用的杂项类别是指未包含在数据集设置的预定义类别中的任何命名实体。
这个定义非常模糊并且是对不适合任何类型的各种元素的包罗万象。
预定义类别。
类似地电影数据集的
类别用于标记各种元素。
例如电影中的事件例如谋杀、赛马、角色例如吸血鬼、僵尸和原籍国例如英国等。
这种缺乏特异性阻碍了标记此类元素的一致规则或指南的制定这对人类和机器来说都是一个问题。
因此GoLLIE
数据集为每个域中的人名引入了两个标签。
例如在科学领域中使用标签“SCIENTIST”和“PERSON”。
前者用于标记任何不是科学家的人。
类似地文学域包括标签“WRITER”和“PERSON”。
该指南帮助
仍然将个人归类为“人”即使他们是科学家。
从技术上讲这并不是不正确的因为根据定义每个科学家也是一个人。
的表现优于基线再次证明了为模型提供指导的实用性。
然而我们经常发现该模型将政党归类为组织。
如表
所列大多数预训练数据集源自新闻领域其中政党是一个常见实体。
然而没有一个微调数据集包含
实体相反它们被归类为组织。
因此在推理过程中该模型始终将政党标记为组织。
我们相信这个问题可以通过扩大微调数据集的数量和多样性来解决。
将在具有明确定义和明确界限的指导方针的标签上表现良好。
另一方面模糊的标签或非常粗糙的标签带来了挑战。
在这方面相信
会受益于学习遵循“始终标记最具体的类”或“在没有其他特定类的情况下注释此类”等指令。
我们还预计
GoLLIE这是一种经过专门微调以符合注释指南的LLM该指南旨在帮助人类注释数据集。
全面的零样本评估从经验上证明注释指南对于LLM来说非常有价值因为
实现了更好的零样本结果后者不利用指南或使用未针对遵循指南进行微调的模型。
GoLLIE
GoLLIE。
我们还将通过扩展模型可以遵循的指令集来提高模型在模糊和粗糙标签上的性能。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback