期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
VOTI:Jailbreaking Vision-Language Models via Visual Obfuscation and Task Induction
1
作者 ZHU Yifan CHU Zhixuan REN Kui 《ZTE Communications》 2025年第3期15-26,共12页
In recent years,large vision-language models(VLMs)have achieved significant breakthroughs in cross-modal understanding and generation.However,the safety issues arising from their multimodal interactions become promine... In recent years,large vision-language models(VLMs)have achieved significant breakthroughs in cross-modal understanding and generation.However,the safety issues arising from their multimodal interactions become prominent.VLMs are vulnerable to jailbreak attacks,where attackers craft carefully designed prompts to bypass safety mechanisms,leading them to generate harmful content.To address this,we investigate the alignment between visual inputs and task execution,uncovering locality defects and attention biases in VLMs.Based on these findings,we propose VOTI,a novel jailbreak framework leveraging visual obfuscation and task induction.VOTI subtly embeds malicious keywords within neutral image layouts to evade detection,and breaks down harmful queries into a sequence of subtasks.This approach disperses malicious intent across modalities,exploiting VLMs’over-reliance on local visual cues and their fragility in multi-step reasoning to bypass global safety mechanisms.Implemented as an automated framework,VOTI integrates large language models as red-team assistants to generate and iteratively optimize jailbreak strategies.Extensive experiments across seven mainstream VLMs demonstrate VOTI’s effectiveness,achieving a 73.46%attack success rate on GPT-4o-mini.These results reveal critical vulnerabilities in VLMs,highlighting the urgent need for improving robust defenses and multimodal alignment. 展开更多
关键词 large vision-language models jailbreak attacks red teaming security of large models safety alignment
在线阅读 下载PDF
面向优化的大语言模型黑盒越狱攻击研究综述
2
作者 陶佳玲 黄松 +4 位作者 高心怡 方勇 曲豫宾 李瑞阳 陆江涛 《四川大学学报(自然科学版)》 北大核心 2026年第2期241-258,共18页
大型语言模型(Large Language Models,LLMs)在自然语言处理领域展现出强大的能力,但其安全漏洞,尤其是越狱攻击已成为当前的核心挑战。越狱攻击利用精心构造的对抗性提示突破模型的安全对齐机制,揭示了基于人类反馈强化学习(Reinforceme... 大型语言模型(Large Language Models,LLMs)在自然语言处理领域展现出强大的能力,但其安全漏洞,尤其是越狱攻击已成为当前的核心挑战。越狱攻击利用精心构造的对抗性提示突破模型的安全对齐机制,揭示了基于人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)等对齐技术的局限性。当前基于模版或者手工设计的越狱方法因其成功率低且泛化性差,在持续迭代的LLMs安全机制下迅速失效。而基于优化的越狱方法凭借其自动生成对抗性提示的能力,在攻击成功率和隐蔽性方面表现显著,能够有效规避常规检测手段。针对白盒攻击对梯度信息的依赖与迁移性差等问题,本文聚焦黑盒优化范式,首次系统性地将现有越狱方法归纳为4类框架:基于遗传算法的优化、基于强化学习的优化、基于模糊测试的优化和基于LLMs对抗生成的优化。深入剖析各类方法的核心机制、技术优势与约束。本文的主要贡献在于提出一种新颖的分类体系与研究视角,明确指出现有防御手段在实时性、泛化性和攻防平衡方面的严重不足,并进一步倡导构建动态化防御架构与标准化评估基准,为探索LLMs在对抗环境中的安全性与性能平衡机制提供理论支持与实践指引。 展开更多
关键词 大语言模型 优化 越狱攻击 越狱防御
在线阅读 下载PDF
基于深度语义挖掘的大语言模型越狱检测方法研究
3
作者 刘会 朱正道 +2 位作者 王淞鹤 武永成 黄林荃 《信息网络安全》 北大核心 2025年第9期1377-1384,共8页
对用户提示词进行伪装是大语言模型(LLM)越狱攻击中常见的手段,常见形式包括语义编码和前缀注入等,旨在绕过LLM的安全审查机制,从而诱导其生成违反伦理规范的内容。为应对这一挑战,文章提出一种基于深度语义挖掘的LLM越狱检测方法,通过... 对用户提示词进行伪装是大语言模型(LLM)越狱攻击中常见的手段,常见形式包括语义编码和前缀注入等,旨在绕过LLM的安全审查机制,从而诱导其生成违反伦理规范的内容。为应对这一挑战,文章提出一种基于深度语义挖掘的LLM越狱检测方法,通过挖掘用户提示词的潜在真实意图,有效激活模型内置的安全审查机制,实现对越狱攻击的准确识别。文章针对3种典型的越狱攻击方式在3个主流LLM上开展了广泛实验。实验结果表明,文章所提方法的平均准确率达到了96.48%,将越狱攻击的平均攻击成功率从33.75%降至1.38%,相比于当前较优检测方法,该方法将防御能力提升了4%,展现出较强的越狱防护能力。 展开更多
关键词 大语言模型 深度语义挖掘 安全审查 越狱攻击
在线阅读 下载PDF
多模态大模型安全研究进展 被引量:5
4
作者 郭园方 余梓彤 +8 位作者 刘艾杉 周文柏 乔通 李斌 张卫明 康显桂 周琳娜 俞能海 黄继武 《中国图象图形学报》 北大核心 2025年第6期2051-2081,共31页
多模态大模型的安全性研究已成为当下人工智能领域的焦点。由于大模型以深度神经网络为核心构建,因此与深度神经网络类似,存在多种安全风险。此外,由于其特有的复杂性,以及广泛的应用场景,也使得大模型面临一些独特的安全风险。本文系... 多模态大模型的安全性研究已成为当下人工智能领域的焦点。由于大模型以深度神经网络为核心构建,因此与深度神经网络类似,存在多种安全风险。此外,由于其特有的复杂性,以及广泛的应用场景,也使得大模型面临一些独特的安全风险。本文系统地总结多模态大模型的安全风险,包括对抗攻击、越狱攻击、后门攻击、版权窃取、幻觉现象、泛化问题以及偏见问题等。具体来说,在对抗攻击中,攻击者通过构造微小但具有欺骗性的对抗样本,使大模型在面对带噪输入时产生严重的误判;越狱攻击利用大模型的复杂结构,绕过或破坏原有的安全约束和防御措施,使模型执行未授权的操作,甚至泄露敏感数据;后门攻击则通过在大模型的训练阶段植入隐秘的触发器,使模型在特定条件下做出攻击者预期的反应;未经授权的窃取者可能未经模型拥有者的同意随意分发或进行商业使用,将导致模型版权拥有者遭受损失;幻觉现象,即模型输出与输入不一致的问题;泛化问题即大模型当前应对部分新数据分布或风格的能力仍显不足;大模型在性别、种族、肤色和年龄等敏感问题上的偏向性可能引发伦理等问题。随后,针对这些安全风险分别介绍相应的解决方案。本文旨在为理解和应对多模态大模型的独特安全挑战提供一个独特的视角,促进多模态大模型安全技术的发展,引导未来相关安全技术的发展方向。 展开更多
关键词 多模态大模型 大模型安全 对抗样本(AE) 越狱攻击 后门攻击 版权窃取 模型幻觉 模型偏见
原文传递
大语言模型提示优化越狱攻击统一框架
5
作者 夏寒 王枭 +3 位作者 周玮康 熊立茂 顾滢双 桂韬 《计算机系统应用》 2025年第11期20-29,共10页
越狱攻击对于识别和缓解大型语言模型的安全漏洞至关重要.这些攻击旨在绕过安全防护机制,诱导模型产生被禁止的输出.然而,由于这些攻击通常在不同的数据样本和模型上进行评估,因此很难直接公平地比较它们.本文介绍了EasyJailbreak,这是... 越狱攻击对于识别和缓解大型语言模型的安全漏洞至关重要.这些攻击旨在绕过安全防护机制,诱导模型产生被禁止的输出.然而,由于这些攻击通常在不同的数据样本和模型上进行评估,因此很难直接公平地比较它们.本文介绍了EasyJailbreak,这是一个统一框架,简化了针对大语言模型的越狱攻击的构建和评估过程.它使用4个组件构建越狱攻击:选择器、变异器、约束条件和评估器.这种模块化设计使研究人员能够轻松组合现有组件或设计新组件,以构造多种攻击方法.为了展示该框架的实用性,本文进行了大规模的实证评估.目前已基于该框架实现了11种不同的越狱方法,并在大语言模型上进行了广泛的安全验证,涉及10种不同大语言模型的超过75万次推理查询,结果显示在各种越狱攻击下平均突破概率为60%.值得注意的是,即使是像GPT-3.5-turbo和GPT-4这样的高级模型,平均攻击成功率也分别达到57%和33%. 展开更多
关键词 大语言模型 越狱攻击 安全评估 对话任务 提示优化
在线阅读 下载PDF
面向大语言模型的越狱攻击综述 被引量:16
6
作者 李南 丁益东 +2 位作者 江浩宇 牛佳飞 易平 《计算机研究与发展》 EI CSCD 北大核心 2024年第5期1156-1181,共26页
近年来,大语言模型(large language model,LLM)在一系列下游任务中得到了广泛应用,并在多个领域表现出了卓越的文本理解、生成与推理能力.然而,越狱攻击正成为大语言模型的新兴威胁.越狱攻击能够绕过大语言模型的安全机制,削弱价值观对... 近年来,大语言模型(large language model,LLM)在一系列下游任务中得到了广泛应用,并在多个领域表现出了卓越的文本理解、生成与推理能力.然而,越狱攻击正成为大语言模型的新兴威胁.越狱攻击能够绕过大语言模型的安全机制,削弱价值观对齐的影响,诱使经过对齐的大语言模型产生有害输出.越狱攻击带来的滥用、劫持、泄露等问题已对基于大语言模型的对话系统与应用程序造成了严重威胁.对近年的越狱攻击研究进行了系统梳理,并基于攻击原理将其分为基于人工设计的攻击、基于模型生成的攻击与基于对抗性优化的攻击3类.详细总结了相关研究的基本原理、实施方法与研究结论,全面回顾了大语言模型越狱攻击的发展历程,为后续的研究提供了有效参考.对现有的安全措施进行了简略回顾,从内部防御与外部防御2个角度介绍了能够缓解越狱攻击并提高大语言模型生成内容安全性的相关技术,并对不同方法的利弊进行了罗列与比较.在上述工作的基础上,对大语言模型越狱攻击领域的现存问题与前沿方向进行探讨,并结合多模态、模型编辑、多智能体等方向进行研究展望. 展开更多
关键词 生成式人工智能 越狱攻击 大语言模型 自然语言处理 网络空间安全
在线阅读 下载PDF
面向大语言模型的越狱攻击与防御综述 被引量:3
7
作者 梁思源 何英哲 +3 位作者 刘艾杉 李京知 代朋纹 操晓春 《信息安全学报》 CSCD 2024年第5期56-86,共31页
大语言模型(LargeLanguageModels,LLMs)由于其出色的性能表现而在各个领域被广泛使用,但是它们在面对精心构建的越狱提示时,往往会输出不正确的内容,由此引发了人们对其伦理问题和道德安全的担忧。攻击者可以在没有了解模型内部结构及... 大语言模型(LargeLanguageModels,LLMs)由于其出色的性能表现而在各个领域被广泛使用,但是它们在面对精心构建的越狱提示时,往往会输出不正确的内容,由此引发了人们对其伦理问题和道德安全的担忧。攻击者可以在没有了解模型内部结构及安全机制的情况下,通过设计特定的提示语句引发模型生成不恰当的内容。相关领域的专业研究者在分析LLMs的潜在脆弱性后,甚至可以产生人类难以发现,并且越狱成功率极高的自动化越狱攻击方法。为了阻止LLMs的恶意越狱攻击,研究者们提出覆盖LLMs训练到部署全生命周期的防御方法以加强模型的安全性。然而,目前对于大语言模型的综述工作主要集中在越狱攻击方法,并且没有对这些技术手段的特性及关系进行详细分析。此外,对评测基准总结的忽视也限制了该领域的蓬勃发展。因此,本文拟对现有的越狱攻击与防御方法进行全面的回顾。具体而言,我们首先介绍了大语言模型与越狱攻击的相关概念及原理,解释了越狱攻击在模型安全领域的重要性和它对大型语言模型的潜在威胁。接着,从攻击的生成策略回顾了现有的越狱攻击方法,并分析了他们的优缺点,如这些攻击策略如何利用模型的漏洞来实现攻击目标。然后,本文总结了围绕LLMs各个阶段的防御策略,并提供了一个全面的评测基准,详细介绍了如何评估这些防御策略的有效性。最后结合当前面临的挑战,我们对LLMs越狱攻防的未来研究方向进行了总结和展望,指出了未来研究中需要关注的关键问题和潜在的研究方向,以促进大模型的安全与可靠性发展。 展开更多
关键词 越狱攻击 越狱防御 大语言模型 深度学习 可信人工智能
在线阅读 下载PDF
道德编程:ChatGPT对提问者道德心理的良性效应与潜在风险
8
作者 严玉 马玉洁 《燕山大学学报(哲学社会科学版)》 2024年第6期89-96,共8页
ChatGPT及类似的大型语言人工智能在各领域扮演日益重要的角色,其与人类的互动已成不可避免的现实,人们对其信任、依赖,情感投入逐渐增加,这也导致了对人类道德心理的影响。虽然ChatGPT在回答问题时坚持遵循道德原则,但其回答模板存在... ChatGPT及类似的大型语言人工智能在各领域扮演日益重要的角色,其与人类的互动已成不可避免的现实,人们对其信任、依赖,情感投入逐渐增加,这也导致了对人类道德心理的影响。虽然ChatGPT在回答问题时坚持遵循道德原则,但其回答模板存在明显不足,如缺乏人类情感理解能力、无法提供个性化建议,且容易在遭遇“越狱攻击”时产生道德漏洞。如果提问者将ChatGPT视为可信信息源,并根据其回答做出道德决策,则不道德或有偏见的回答可能导致错误的道德决策,需要采取相关防范措施以应对智能时代的道德困境,促进个体道德心理增强和社会稳定。 展开更多
关键词 ChatGPT 大语言模型 越狱攻击 道德心理 人机关系
在线阅读 下载PDF
生成式大模型越狱攻击安全性研究综述
9
作者 李燕 王钢 王浩 《计算机工程与应用》 2026年第6期27-50,共24页
近年来,生成式大模型广泛应用于文本生成、对话交互、内容创作等多个关键场景。然而,越狱攻击正成为生成式大模型的新威胁,越狱攻击能够绕过生成式大模型内置的安全机制,诱使经过其产生有害输出,带来伦理风险、隐私泄露以及模型滥用等... 近年来,生成式大模型广泛应用于文本生成、对话交互、内容创作等多个关键场景。然而,越狱攻击正成为生成式大模型的新威胁,越狱攻击能够绕过生成式大模型内置的安全机制,诱使经过其产生有害输出,带来伦理风险、隐私泄露以及模型滥用等安全挑战。针对这一威胁,全面综述了近年来大语言模型与多模态大模型这两类主流的生成式大模型的越狱攻击研究进展。从越狱攻击类型、防御策略、安全评估框架三个方面,详细总结了当前越狱攻击方法的基本原理、实施方法与研究结论,为后续的研究提供了有效参考。基于上述研究,进一步总结了当前两类主流生成式模型在越狱攻击安全性研究方面存在的不足,并提出了未来生成式大模型安全性研究所面临的主要挑战与发展机遇,为研究人员在生成式大模型的复杂应用和安全性研究领域提供指导建议。 展开更多
关键词 生成式大模型(GLMs) 越狱攻击 安全挑战 防御策略 安全性研究
在线阅读 下载PDF
大语言模型越狱攻击:模型、根因及其攻防演化 被引量:4
10
作者 李希陶 吴江 +5 位作者 郑庆华 王海军 范铭 胡帅 郭家琪 刘烃 《中国科学:信息科学》 北大核心 2025年第6期1372-1405,共34页
大语言模型在各种应用中表现突出,被广泛应用,成为打造新质生产力的重要引擎.然而,当恶意使用者利用特定技巧绕过模型的对齐等安全保护机制时,就可能导致越狱攻击,生成违反模型使用准则、道德或法律的内容,引发伦理问题.本文分析总结了... 大语言模型在各种应用中表现突出,被广泛应用,成为打造新质生产力的重要引擎.然而,当恶意使用者利用特定技巧绕过模型的对齐等安全保护机制时,就可能导致越狱攻击,生成违反模型使用准则、道德或法律的内容,引发伦理问题.本文分析总结了越狱攻击的起源及其攻防演变过程,首先根据方法、对象、目标三要素提出了越狱攻击的定义和形式化模型;从大语言模型的发展历程和对安全性认知的变化两个角度,分析了越狱攻击的发展历史,将越狱攻击存在的根因总结为大语言模型的服务属性与价值观的不匹配;最后,从攻防博弈的角度总结越狱攻防的演化过程,探讨了越狱攻击的新型威胁模式和防御方法发展方向. 展开更多
关键词 越狱攻击 大语言模型 自然语言处理 网络安全 人工智能伦理
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部