论文阅读：arxiv 2025 Jailbreaking Attacks vs. Content Safety Filters: How Close Are We to *** Future of LLM Security?

论文阅读：arxiv 2025 Jailbreaking Attacks vs. Content Safety Filters: How Close Are We to the Future of LLM Security?

xmlns="http://www.w3.org/2000/svg"

style="display:

大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

Jailbreaking

Attacks

Race?

https://arxiv.org/pdf/2512.24044

https://www.doubao.com/chat/38413601078654978

论文翻译：

/>https://whiffe.github.io/Paper_Translation/Safe/%E8%B6%8A%E7%8B%B1%E6%94%BB%E5%87%BB%E4%B8%8E%E5%86%85%E5%AE%B9%E5%AE%89%E5%85%A8%E8%BF%87%E6%BB%A4%E5%99%A8%EF%BC%9A%E6%88%91%E4%BB%AC%E5%9C%A8%20LLM%20%E5%AE%89%E5%85%A8%E5%86%9B%E5%A4%87%E7%AB%9E%E8%B5%9B%E4%B8%AD%E8%BF%9B%E5%B1%95%E5%A6%82%E4%BD%95%EF%BC%9F%20—%20Jailbreaking%20Attacks%20vs.%20Content%20Safety%20Filters_%20How%20Far%20Are%20We%20in%20***%20LLM%20Safety%20Arms%20Race_.html

速览

一段话总结

这篇研究首次系统性评估了越狱攻击针对大语言模型（LLM）安全对齐机制在完整推理流水线（含输入、输出过滤阶段）的有效性，构建了含417个有害提示及对应良性提示的数据集，测试了10类主流越狱攻击和6类内容安全过滤器在开源、商用LLM上的表现，发现几乎所有越狱技术都能被至少一种安全过滤器检测，此前研究高估了越狱攻击的实际成功率；同时安全过滤器虽检测有效，但在查全率与查准率平衡、降低误报率上仍有优化空间，且不同过滤器在检测性能、推理成本、延迟上差异显著，其中LlamaGuard和OpenAI

API兼具高效与高检测能力，O3检测精度最高但成本更高，而越狱攻击中注重语义隐蔽性的方法更难被检测，不过仍无法规避顶尖过滤器，研究还指出LLM安全攻防竞赛需持续优化过滤器精度并兼顾用户体验。

##

越狱攻击：分5类（优化/LLM辅助/混淆/工具/多轮），10种代表性方法

越狱防御：模型层（微调/对抗训练）+系统层（内容过滤，研究空白）

LLM安全基准：现有基准侧重攻击效果，缺乏防御评估

`研究方法`

问题形式化：定义越狱攻击、内容过滤及完整推理流水线判定公式

安全过滤器：6类（零样本检测器/微调分类器/梯度检测器）

`实验设置`

数据集：417有害+417良性提示，覆盖10类危害

评估指标：ASR/DR_I/DR_O/通过率/TP/FP/TN/FN

测试对象：10类越狱攻击+6类安全过滤器，GPT-4作为判定器

`实验结果`

过滤器有效性：几乎所有越狱攻击可被检测，通过率远低于原始ASR

攻击特征：无语义隐蔽性的攻击易被检测，隐蔽性方法仍难规避顶尖过滤器

检测器与LLM差异：O3检测最优，GradSafe表现较差；Llama2/3固有抗攻击能力强

检测器行为：多为高查全率设计，PromptGuard误报率极高，LlamaGuard平衡最佳

API成本低，O3精度高但成本高，GradSafe延迟最高

误报分析：物理伤害类误报最多，多因敏感词无语境区分

`研究结论`

内容过滤器大幅降低越狱攻击实际成功率，集成过滤是有效防御手段

过滤器需在高查全率基础上优化查准率，减少误报提升用户体验

LLM安全攻防需持续发展，攻击与防御策略需同步迭代

`研究局限与伦理`

局限：API查询预算有限，未评估工具增强型LLM

伦理：所用数据集和攻击方法均来自现有研究，无额外滥用风险

详细总结

本研究聚焦LLM安全攻防竞赛中越狱攻击与内容安全过滤器的对抗效果，首次系统性评估了越狱攻击在含输入、输出过滤的完整LLM推理流水线中的实际成功率，填补了现有研究仅关注模型层、忽略系统层过滤机制的空白，最终为LLM安全系统的优化提供了核心依据和方向。

一、研究背景与核心问题

LLM在各类应用中广泛部署，但其安全对齐机制易被越狱攻击（构造对抗提示绕过安全机制生成有害内容）突破，现有研究报告越狱攻击成功率较高；
实际部署的LLM流水线均包含内容安全过滤器（输入过滤阻断有害提示、输出过滤屏蔽有害结果），但此类过滤器对越狱攻击的实际防御效果尚未被系统性评估；
核心研究问题：内容安全过滤器能否有效抵御顶尖越狱攻击？过滤器在检测性能、成本、用户体验上的表现如何？LLM安全攻防的核心优化方向是什么？

二、相关工作梳理

越狱攻击：分为5大类别，研究测试了10种代表性方法，各类攻击通过不同策略隐藏有害意图，如优化类用算法精炼提示、混淆类用改写/嵌套场景隐蔽意图、多轮攻击通过渐进式对话诱导有害输出等；
越狱防御：分为模型层防御（微调、对抗训练、安全解码等，现有研究重点）和系统层防御（输入/输出过滤、输入净化等，研究空白），二者为互补关系；
LLM安全基准：现有基准（PromptBench、JailbreakBench等）仅侧重攻击效果对比，未对防御机制进行系统性评估，本研究为该方向补充了核心内容。

三、研究设计与实验设置

（一）问题形式化

明确定义越狱攻击、内容过滤器的数学表达，以及越狱攻击成功的判定标准：需同时绕过输入、输出过滤器，且生成的内容被判定为符合有害目标。

（二）测试对象

安全过滤器：6类主流方案，涵盖不同检测原理，具体如下：

过滤器类型	代表方案	核心特点
零样本检测器	GPT-4、O3	无任务适配，依托推理能力检测
微调分类器	LlamaGuard、PromptGuard、InjecGuard、OpenAI API	针对安全/对抗数据微调，适配特定风险
梯度检测器	GradSafe	分析模型梯度模式，仅检测输入

过滤器类型

代表方案

核心特点

零样本检测器

GPT-4、O3

无任务适配，依托推理能力检测

微调分类器

LlamaGuard、PromptGuard、InjecGuard、OpenAI

API

针对安全/对抗数据微调，适配特定风险

梯度检测器

GradSafe

分析模型梯度模式，仅检测输入

越狱攻击：10种顶尖方法，含AutoDAN、PAIR、TAP、Adaptive、Crescendo（多轮）等，覆盖5大攻击类别；
测试LLM：7款，含5款开源LLM（Llama-2-7B、Llama3.1-8B、Mistral-7B等）和2款商用LLM（GPT-4-Turbo、GPT-4o）；
评估数据集：整合现有基准并去重，最终得到417个distinct有害提示+417个话题匹配的良性提示，覆盖10类违反OpenAI使用政策的危害类别，可同时评估过滤器的检测能力和误报率。

（三）核心评估指标

定义多维度指标实现攻击与过滤器的全面评估，关键指标包括：

ASR(Ori)：原始攻击成功率（未加过滤器），作为基准；
DR_I/DR_O：输入/输出阶段检测率，衡量过滤器对有害提示/结果的识别能力；
通过率：有害样本同时绕过输入、输出过滤的比例，核心反映越狱攻击实际成功率；
TP/FP/TN/FN：精准率、查全率、F1值等，衡量过滤器的检测精度和误报情况。

（四）判定工具

使用GPT-4作为Judge，评估LLM生成内容是否符合有害目标，为越狱攻击是否成功提供客观判定。

四、核心实验结果

本研究通过大量实验得到6个核心结论，关键数据与特征如下：

内容安全过滤器整体有效：几乎所有越狱技术能被至少一种过滤器检测，过滤器使越狱攻击通过率大幅低于原始ASR（多数场景通过率降至5%以下），此前研究显著高估了越狱攻击的实际成功率；其中PromptGuard、O3在输入阶段即可阻断70%-100%的注入提示。
攻击的语义隐蔽性决定检测难度：无语义隐蔽性的攻击（如TAP、Adaptive，原始ASR超90%）易被过滤器检测；注重语义隐蔽性的攻击（如ReNeLLM）虽能保持相对较高的通过率，但仍无法规避PromptGuard、O3等顶尖过滤器；多轮攻击Crescendo虽通过渐进式对话隐蔽意图，但其最终对话仍能被过滤器有效检测。
检测器与LLM的性能存在系统性差异
- 检测器：O3推理能力强，检测效果最优、通过率最低；GradSafe因依赖固定提示格式，近半数场景表现较差；PromptGuard存在严重过检测，InjecGuard在其基础上优化了鲁棒性；LlamaGuard实现查全率与查准率的最佳平衡（准确率95%）。
- LLM：Llama2-7B、Llama3.1-8B固有抗攻击能力强，原始ASR均低于30%；但此类模型若被成功越狱，其生成内容的隐蔽性更高，对应过滤器通过率也更高。
过滤器多为高查全率设计，误报问题突出：对非越狱样本的检测显示，多数过滤器为保证有害内容识别率牺牲了查准率，其中PromptGuard的误报率（FPR）达100%，会严重降低用户体验；LlamaGuard是唯一实现高精度（95%）且低误报（6%）的过滤器，OpenAI
API准确率86%、误报率5%。

过滤器的推理成本与延迟差异显著：多数过滤器的额外开销可控，符合实际部署需求，核心数据如下：

过滤器	延迟（s/样本）	经济成本（$/样本）	核心特点
LlamaGuard	0.028	-	低延迟、低成本、高性能
OpenAI API	0.455	-	低延迟、适配大规模部署
O3	7.22	0.0096	高精度、高成本
GradSafe	40.67	-	延迟极高，无实时性

过滤器误报集中于特定类别，源于语境识别不足：误报最多的类别为物理伤害（12.2%），其次为隐私、性/成人内容，误报多因过滤器对“炸弹”“自杀”等敏感词仅做表面匹配，无法区分历史/学术讨论等无害语境。

五、研究结论与启示

内容安全过滤器是抵御LLM越狱攻击的有效手段，集成过滤器可大幅降低越狱攻击的实际成功率，且多数过滤器的额外延迟和成本可接受；
LLM安全系统的核心优化方向从提升检测率转向平衡查全率与查准率，需在保证有害内容识别的前提下，减少对良性提示的误判，提升用户体验；
LLM安全攻防竞赛是持续过程，攻击方为规避过滤器会不断提升语义隐蔽性，防御方需同步优化过滤器的语境感知能力，实现对有害意图的精准识别而非表面特征匹配；
实际部署建议：LlamaGuard/OpenAI
API适用于大规模常规场景，兼顾性能与效率；O3适用于高风险/审计场景，以成本换取高精度。

六、研究局限与伦理考量

研究局限：受API查询预算限制，未开展高吞吐量的攻击尝试；未将工具增强型LLM纳入评估，后续可补充该方向研究；
伦理考量：研究所用数据集、越狱攻击方法均来自现有公开文献，无新增LLM滥用风险，研究成果旨在推动LLM安全防御机制的优化，助力可信LLM应用开发。

关键问题

问题1：内容安全过滤器为何能大幅降低LLM越狱攻击的实际成功率？现有研究为何高估了越狱攻击的效果？

答案：一方面，几乎所有越狱攻击的提示/生成结果能被至少一种内容安全过滤器检测，尤其是PromptGuard、O3等顶尖过滤器在输入阶段即可阻断70%-100%的注入提示，使越狱攻击的实际通过率多数降至5%以下；另一方面，现有研究仅评估了越狱攻击对模型层安全对齐机制的突破能力，完全忽略了实际LLM部署中必备的系统层内容过滤流水线，因此显著高估了越狱攻击的实际成功效果。

问题2：在实际LLM部署中，不同类型的内容安全过滤器该如何选择？核心考量因素是什么？

答案：核心考量因素为检测性能、推理成本/延迟、应用场景风险等级，具体选择策略：1.

大规模常规场景优先选择LlamaGuard/OpenAI

API，二者兼具低延迟、低成本和高检测能力，LlamaGuard还实现了查全率与查准率的最佳平衡；2.

高风险/审计场景选择O3，其推理能力强、检测精度最高，是抵御高隐蔽性越狱攻击的最优选择；3.

避免使用GradSafe（延迟极高无实时性）和PromptGuard（误报率100%），若需使用PromptGuard可替换为其优化版本InjecGuard。

问题3：当前LLM内容安全过滤器的核心短板是什么？未来的主要优化方向有哪些？

答案：当前过滤器的核心短板：1.

多数为高查全率设计，牺牲了查准率，存在严重的误报问题，如PromptGuard误报率100%，会大幅降低用户体验；2.

对有害内容的识别依赖表面特征/敏感词匹配，缺乏语境感知能力，无法区分敏感词在历史/学术讨论等无害场景中的使用；3.

不同过滤器对不同类型越狱攻击的检测能力差异大，对高语义隐蔽性的攻击防御效果仍有提升空间。

/>未来优化方向：1.

在保证高查全率的基础上提升查准率，减少对良性提示的误判；2.

增强过滤器的语义理解和语境感知能力，实现对有害意图的精准识别，而非简单的表面特征匹配；3.

针对高隐蔽性越狱攻击（如ReNeLLM）和多轮攻击（如Crescendo）优化检测策略，适配攻击方的技术迭代；4.

平衡过滤器的检测性能与推理成本，开发轻量化、高精度的检测模型。

服务项目	基础套餐	标准套餐	高级定制
关键词优化数量	10-20个核心词	30-50个核心词+长尾词	80-150个全方位覆盖
内容优化	基础页面优化	全站内容优化+每月5篇原创	个性化内容策略+每月15篇原创
技术SEO	基本技术检查	全面技术优化+移动适配	深度技术重构+性能优化
外链建设	每月5-10条	每月20-30条高质量外链	每月50+条多渠道外链
数据报告	月度基础报告	双周详细报告+分析	每周深度报告+策略调整
效果保障	3-6个月见效	2-4个月见效	1-3个月快速见效

百度SEO

论文阅读：arxiv 2025 Jailbreaking Attacks vs. Content Safety Filters: How Close Are We to *** Future of LLM Security?

style="display:

Attacks

速览

一段话总结

/>##

**研究方法**

实验设置

**实验结果**

**研究结论**

**研究局限与伦理**

详细总结

一、研究背景与核心问题

二、相关工作梳理

三、研究设计与实验设置

（一）问题形式化

（二）测试对象

（三）核心评估指标

（四）判定工具

四、核心实验结果

五、研究结论与启示

六、研究局限与伦理考量

关键问题

问题1：内容安全过滤器为何能大幅降低LLM越狱攻击的实际成功率？现有研究为何高估了越狱攻击的效果？

问题2：在实际LLM部署中，不同类型的内容安全过滤器该如何选择？核心考量因素是什么？

问题3：当前LLM内容安全过滤器的核心短板是什么？未来的主要优化方向有哪些？

/>未来优化方向：1.

为您推荐

SEO优化服务内容导航

SEO优化服务概述

SEO优化核心服务

网站技术SEO

内容优化服务

外链建设策略

SEO服务方案对比

SEO优化实施流程

网站诊断分析

关键词策略制定

技术优化实施

内容优化建设

外链建设推广

数据监控调整

SEO优化常见问题

SEO优化效果数据

行业案例 - 制造业

行业案例 - 电商

行业案例 - 教育

为什么选择我们的SEO服务

专业团队

数据驱动

透明合作

我们的SEO服务理念

提交需求或反馈

产品中心

SEO基础

SEO技术

联系我们

QQ在线客服

关注微信

/>
`##`

`研究方法`

`实验设置`

`实验结果`

`研究结论`

`研究局限与伦理`