期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
VOTI:Jailbreaking Vision-Language Models via Visual Obfuscation and Task Induction
1
作者 ZHU Yifan CHU Zhixuan REN Kui 《ZTE Communications》 2025年第3期15-26,共12页
In recent years,large vision-language models(VLMs)have achieved significant breakthroughs in cross-modal understanding and generation.However,the safety issues arising from their multimodal interactions become promine... In recent years,large vision-language models(VLMs)have achieved significant breakthroughs in cross-modal understanding and generation.However,the safety issues arising from their multimodal interactions become prominent.VLMs are vulnerable to jailbreak attacks,where attackers craft carefully designed prompts to bypass safety mechanisms,leading them to generate harmful content.To address this,we investigate the alignment between visual inputs and task execution,uncovering locality defects and attention biases in VLMs.Based on these findings,we propose VOTI,a novel jailbreak framework leveraging visual obfuscation and task induction.VOTI subtly embeds malicious keywords within neutral image layouts to evade detection,and breaks down harmful queries into a sequence of subtasks.This approach disperses malicious intent across modalities,exploiting VLMs’over-reliance on local visual cues and their fragility in multi-step reasoning to bypass global safety mechanisms.Implemented as an automated framework,VOTI integrates large language models as red-team assistants to generate and iteratively optimize jailbreak strategies.Extensive experiments across seven mainstream VLMs demonstrate VOTI’s effectiveness,achieving a 73.46%attack success rate on GPT-4o-mini.These results reveal critical vulnerabilities in VLMs,highlighting the urgent need for improving robust defenses and multimodal alignment. 展开更多
关键词 large vision-language models jailbreak attacks red teaming security of large models safety alignment
在线阅读 下载PDF
Twin Sister Jailbreakers Nabbed
2
作者 郑健学 《当代外语研究》 2002年第1期12-13,共2页
这是一则来自拉丁美洲危地马拉的消息。一对美貌孪生女子在重兵 把守的监狱“救”出了数十名罪犯,令人发指!当笔者正在纳闷:是何故让两个美女冒死“劫狱”?本文的第三段便泄露了“天机”:to free their kidnapper boyfriends who were s... 这是一则来自拉丁美洲危地马拉的消息。一对美貌孪生女子在重兵 把守的监狱“救”出了数十名罪犯,令人发指!当笔者正在纳闷:是何故让两个美女冒死“劫狱”?本文的第三段便泄露了“天机”:to free their kidnapper boyfriends who were serving life sentences there. 展开更多
关键词 Twin Sister jailbreakers Nabbed 危地马拉
原文传递
多模态大语言模型的安全性研究综述 被引量:6
3
作者 陈晋音 席昌坤 +2 位作者 郑海斌 高铭 张甜馨 《计算机科学》 北大核心 2025年第7期315-341,共27页
随着大型语言模型的快速发展,多模态大语言模型因其在语言、图像等多种模态上的卓越表现而备受瞩目。其不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应用领域。与传统的大型语言模型相比,多模态大语言模... 随着大型语言模型的快速发展,多模态大语言模型因其在语言、图像等多种模态上的卓越表现而备受瞩目。其不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应用领域。与传统的大型语言模型相比,多模态大语言模型由于更接近于多资源的现实世界应用以及多模态处理的复杂性而具有巨大的潜力和挑战。然而,多模态大语言模型的脆弱性研究相对较少,这些模型在实际应用中面临着诸多安全性挑战。为此,对多模态大语言模型尤其是大型视觉-语言模型的安全性进行了全面调查。首先,概述了多模态大语言模型的基本结构和发展历程;其次,讨论了多模态大语言模型在使用全周期的安全风险成因,分析了模型结构与安全风险之间的关联性;再次,系统总结了当前在多模态大语言模型图像和文本安全性的评估方面所做的工作,包括模型幻觉、隐私安全、偏见和鲁棒性4个方面,并将针对多模态大语言模型的攻击分为越狱攻击、对抗攻击、后门攻击和中毒攻击;然后,综合概述了一系列针对多模态大语言模型幻觉、隐私泄露和偏见等威胁的可信增强方法以及针对模型恶意攻击的防御措施;最后,讨论了多模态大语言模型安全性研究的主要机遇与挑战,为研究人员在多模态大语言模型的复杂应用和研究领域提供了指导建议。 展开更多
关键词 模态大语言模型 安全 幻觉 对抗 越狱 防御
在线阅读 下载PDF
基于深度语义挖掘的大语言模型越狱检测方法研究
4
作者 刘会 朱正道 +2 位作者 王淞鹤 武永成 黄林荃 《信息网络安全》 北大核心 2025年第9期1377-1384,共8页
对用户提示词进行伪装是大语言模型(LLM)越狱攻击中常见的手段,常见形式包括语义编码和前缀注入等,旨在绕过LLM的安全审查机制,从而诱导其生成违反伦理规范的内容。为应对这一挑战,文章提出一种基于深度语义挖掘的LLM越狱检测方法,通过... 对用户提示词进行伪装是大语言模型(LLM)越狱攻击中常见的手段,常见形式包括语义编码和前缀注入等,旨在绕过LLM的安全审查机制,从而诱导其生成违反伦理规范的内容。为应对这一挑战,文章提出一种基于深度语义挖掘的LLM越狱检测方法,通过挖掘用户提示词的潜在真实意图,有效激活模型内置的安全审查机制,实现对越狱攻击的准确识别。文章针对3种典型的越狱攻击方式在3个主流LLM上开展了广泛实验。实验结果表明,文章所提方法的平均准确率达到了96.48%,将越狱攻击的平均攻击成功率从33.75%降至1.38%,相比于当前较优检测方法,该方法将防御能力提升了4%,展现出较强的越狱防护能力。 展开更多
关键词 大语言模型 深度语义挖掘 安全审查 越狱攻击
在线阅读 下载PDF
多模态大模型安全研究进展 被引量:5
5
作者 郭园方 余梓彤 +8 位作者 刘艾杉 周文柏 乔通 李斌 张卫明 康显桂 周琳娜 俞能海 黄继武 《中国图象图形学报》 北大核心 2025年第6期2051-2081,共31页
多模态大模型的安全性研究已成为当下人工智能领域的焦点。由于大模型以深度神经网络为核心构建,因此与深度神经网络类似,存在多种安全风险。此外,由于其特有的复杂性,以及广泛的应用场景,也使得大模型面临一些独特的安全风险。本文系... 多模态大模型的安全性研究已成为当下人工智能领域的焦点。由于大模型以深度神经网络为核心构建,因此与深度神经网络类似,存在多种安全风险。此外,由于其特有的复杂性,以及广泛的应用场景,也使得大模型面临一些独特的安全风险。本文系统地总结多模态大模型的安全风险,包括对抗攻击、越狱攻击、后门攻击、版权窃取、幻觉现象、泛化问题以及偏见问题等。具体来说,在对抗攻击中,攻击者通过构造微小但具有欺骗性的对抗样本,使大模型在面对带噪输入时产生严重的误判;越狱攻击利用大模型的复杂结构,绕过或破坏原有的安全约束和防御措施,使模型执行未授权的操作,甚至泄露敏感数据;后门攻击则通过在大模型的训练阶段植入隐秘的触发器,使模型在特定条件下做出攻击者预期的反应;未经授权的窃取者可能未经模型拥有者的同意随意分发或进行商业使用,将导致模型版权拥有者遭受损失;幻觉现象,即模型输出与输入不一致的问题;泛化问题即大模型当前应对部分新数据分布或风格的能力仍显不足;大模型在性别、种族、肤色和年龄等敏感问题上的偏向性可能引发伦理等问题。随后,针对这些安全风险分别介绍相应的解决方案。本文旨在为理解和应对多模态大模型的独特安全挑战提供一个独特的视角,促进多模态大模型安全技术的发展,引导未来相关安全技术的发展方向。 展开更多
关键词 多模态大模型 大模型安全 对抗样本(AE) 越狱攻击 后门攻击 版权窃取 模型幻觉 模型偏见
原文传递
大模型红队测试研究综述
6
作者 包泽芃 钱铁云 《计算机科学》 北大核心 2025年第1期34-41,共8页
大模型红队测试(Large Model Red Teaming)旨在让大语言模型(Large Language Model, LLM)接收对抗测试,从而诱使模型输出有害的测试用例,进而发现模型中的漏洞并提高其鲁棒性。大模型红队测试是大模型领域的前沿课题,近年来受到学术界... 大模型红队测试(Large Model Red Teaming)旨在让大语言模型(Large Language Model, LLM)接收对抗测试,从而诱使模型输出有害的测试用例,进而发现模型中的漏洞并提高其鲁棒性。大模型红队测试是大模型领域的前沿课题,近年来受到学术界和工业界的广泛关注。研究者们针对大模型红队测试提出了众多解决方案,并在模型对齐上取得了一定进展。然而,受限于大模型红队数据的短缺和评价标准的模糊,现有研究大多局限于针对特定的场景进行评估。文中首先从与大模型安全相关的定义出发,对其所涉及的各种风险进行阐述;其次,针对大模型红队测试的重要性及其主要类别进行了阐述,综述和分析了相关红队技术的发展历程,并介绍了已有的数据集和评价指标;最后,对大模型红队测试的未来发展趋势进行了展望和总结。 展开更多
关键词 红队 大模型安全 强化学习 语言模型 越狱
在线阅读 下载PDF
大语言模型提示优化越狱攻击统一框架
7
作者 夏寒 王枭 +3 位作者 周玮康 熊立茂 顾滢双 桂韬 《计算机系统应用》 2025年第11期20-29,共10页
越狱攻击对于识别和缓解大型语言模型的安全漏洞至关重要.这些攻击旨在绕过安全防护机制,诱导模型产生被禁止的输出.然而,由于这些攻击通常在不同的数据样本和模型上进行评估,因此很难直接公平地比较它们.本文介绍了EasyJailbreak,这是... 越狱攻击对于识别和缓解大型语言模型的安全漏洞至关重要.这些攻击旨在绕过安全防护机制,诱导模型产生被禁止的输出.然而,由于这些攻击通常在不同的数据样本和模型上进行评估,因此很难直接公平地比较它们.本文介绍了EasyJailbreak,这是一个统一框架,简化了针对大语言模型的越狱攻击的构建和评估过程.它使用4个组件构建越狱攻击:选择器、变异器、约束条件和评估器.这种模块化设计使研究人员能够轻松组合现有组件或设计新组件,以构造多种攻击方法.为了展示该框架的实用性,本文进行了大规模的实证评估.目前已基于该框架实现了11种不同的越狱方法,并在大语言模型上进行了广泛的安全验证,涉及10种不同大语言模型的超过75万次推理查询,结果显示在各种越狱攻击下平均突破概率为60%.值得注意的是,即使是像GPT-3.5-turbo和GPT-4这样的高级模型,平均攻击成功率也分别达到57%和33%. 展开更多
关键词 大语言模型 越狱攻击 安全评估 对话任务 提示优化
在线阅读 下载PDF
美国禁止规避技术措施例外制度评析(一)——移动通信设备越狱立法例考察 被引量:1
8
作者 覃斌武 刘聪 《图书馆论坛》 CSSCI 北大核心 2016年第6期10-18,共9页
技术措施能够保护版权,同时也被版权人用来实现垄断、下游控制和价格歧视,客观上影响到用户的选择权、使用权和隐私权。2010年美国国会图书馆首次将手机越狱确定为禁止规避技术措施的例外,并在2015年扩展到移动通信设备越狱。关于该例... 技术措施能够保护版权,同时也被版权人用来实现垄断、下游控制和价格歧视,客观上影响到用户的选择权、使用权和隐私权。2010年美国国会图书馆首次将手机越狱确定为禁止规避技术措施的例外,并在2015年扩展到移动通信设备越狱。关于该例外的博弈主要围绕美国国会图书馆的权限、是否构成合理使用以及如何界定移动通信设备等问题展开。移动通信设备越狱例外的确立及其规则的细化顺应了社会发展需求,但规则对规避主体和规避对象的界定不太明确,需要细化和明确。 展开更多
关键词 禁止规避技术措施 移动通信设备越狱 合理使用 国会图书馆 例外制度
在线阅读 下载PDF
呼市越狱案的定性探讨
9
作者 王志亮 张俊霞 《犯罪研究》 2010年第6期72-79,共8页
四名重刑犯杀害监狱警察,从监狱大门越狱脱逃,引起了社会各界的关注。中央领导高度重视,公安部发出通缉令,警方立即展开搜捕行动,并调动了一架小型飞机在空中搜索。经过67小时的搜捕将越狱罪犯捕获。本案非常典型、复杂,在预备、实施既... 四名重刑犯杀害监狱警察,从监狱大门越狱脱逃,引起了社会各界的关注。中央领导高度重视,公安部发出通缉令,警方立即展开搜捕行动,并调动了一架小型飞机在空中搜索。经过67小时的搜捕将越狱罪犯捕获。本案非常典型、复杂,在预备、实施既遂、后续逃跑过程中,四名越狱罪犯犯下了累累罪行。笔者认为,以本案脱逃越狱的性质为切入点,立足于本案共同犯罪的整体基础,从脱逃越狱犯罪的整个发展过程来看,本案应该定性为故意杀人罪、组织越狱罪及后续行为构成的诸多罪实行数罪并罚。以此案来审视我国现行《刑法》的相关规定,应设立越狱罪。 展开更多
关键词 监狱 刑罚 服刑罪犯 脱逃罪 组织越狱罪 越狱罪 暴动越狱罪
在线阅读 下载PDF
iPhone Security Analysis
10
作者 Vaibhav Ranchhoddas Pandya Mark Stamp 《Journal of Information Security》 2010年第2期74-87,共14页
The release of Apple’s iPhone was one of the most intensively publicized product releases in the history of mobile devices. While the iPhone wowed users with its exciting design and features, it also angered many for... The release of Apple’s iPhone was one of the most intensively publicized product releases in the history of mobile devices. While the iPhone wowed users with its exciting design and features, it also angered many for not allowing installation of third party applications and for working exclusively with AT & T wireless services (in the US). Besides the US, iPhone was only sold only in a few other selected countries. Software attacks were developed to overcome both limitations. The development of those attacks and further evaluation revealed several vulnerabilities in iPhone security. In this paper, we examine some of the attacks developed for the iPhone as a way of investigating the iPhone’s security structure. We also analyze the security holes that have been discovered and make suggestions for improving iPhone security. 展开更多
关键词 IPHONE WIRELESS MOBILE SMARTPHONE jailbreaking REVERSE Engineering
暂未订购
面向大语言模型的越狱攻击综述 被引量:15
11
作者 李南 丁益东 +2 位作者 江浩宇 牛佳飞 易平 《计算机研究与发展》 EI CSCD 北大核心 2024年第5期1156-1181,共26页
近年来,大语言模型(large language model,LLM)在一系列下游任务中得到了广泛应用,并在多个领域表现出了卓越的文本理解、生成与推理能力.然而,越狱攻击正成为大语言模型的新兴威胁.越狱攻击能够绕过大语言模型的安全机制,削弱价值观对... 近年来,大语言模型(large language model,LLM)在一系列下游任务中得到了广泛应用,并在多个领域表现出了卓越的文本理解、生成与推理能力.然而,越狱攻击正成为大语言模型的新兴威胁.越狱攻击能够绕过大语言模型的安全机制,削弱价值观对齐的影响,诱使经过对齐的大语言模型产生有害输出.越狱攻击带来的滥用、劫持、泄露等问题已对基于大语言模型的对话系统与应用程序造成了严重威胁.对近年的越狱攻击研究进行了系统梳理,并基于攻击原理将其分为基于人工设计的攻击、基于模型生成的攻击与基于对抗性优化的攻击3类.详细总结了相关研究的基本原理、实施方法与研究结论,全面回顾了大语言模型越狱攻击的发展历程,为后续的研究提供了有效参考.对现有的安全措施进行了简略回顾,从内部防御与外部防御2个角度介绍了能够缓解越狱攻击并提高大语言模型生成内容安全性的相关技术,并对不同方法的利弊进行了罗列与比较.在上述工作的基础上,对大语言模型越狱攻击领域的现存问题与前沿方向进行探讨,并结合多模态、模型编辑、多智能体等方向进行研究展望. 展开更多
关键词 生成式人工智能 越狱攻击 大语言模型 自然语言处理 网络空间安全
在线阅读 下载PDF
组织越狱罪研究
12
作者 吴占英 《孝感学院学报》 2003年第5期91-96,共6页
新刑法对旧刑法中的组织越狱罪进行了较大的修改。围绕该罪的沿革、概念、构成、适用等问题,学界及实务部门均存有较多争议。文章对这些争议进行了一一剖析,同时提出了作者自己的主张。
关键词 中国 刑法 组织越狱罪 犯罪行为 犯罪构成 法律适用 处罚对象
在线阅读 下载PDF
美国禁止规避技术措施例外制度评析(四)——智能电视越狱的立法例考察 被引量:2
13
作者 文禹衡 苏莹 《图书馆论坛》 CSSCI 北大核心 2016年第9期37-43,共7页
文章透视美国禁止规避技术措施例外制度如何衡平智能电视产业与消费者之间的利益冲突。在分析各利益方围绕非侵权性使用、不利影响和法定因素的博弈后,通过解读该条款的假定、行为模式、法律后果,可知智能电视越狱不被认定为版权法上的... 文章透视美国禁止规避技术措施例外制度如何衡平智能电视产业与消费者之间的利益冲突。在分析各利益方围绕非侵权性使用、不利影响和法定因素的博弈后,通过解读该条款的假定、行为模式、法律后果,可知智能电视越狱不被认定为版权法上的侵权应同时符合:规避主体只能是智能电视机主,且排除任何第三方主体代为或辅助其越狱;拟安装应用程序及其获取必须合法,被规避对象必须是固件技术措施,且越狱的目的只是为了上述应用程序与固件互操作。该新增条款旨在增进智能电视消费者的福利,倒逼智能电视商业模式作出相适调整。 展开更多
关键词 技术保护措施 临时例外 智能电视 越狱 数字技术 数据权利
在线阅读 下载PDF
iOS系统数据安全分析与加固 被引量:2
14
作者 贺宇轩 孟魁 +1 位作者 刘功申 徐林 《通信技术》 2014年第6期668-673,共6页
手机在如今的通讯手段中,占据举足轻重的地位,特别是随着社交网络、电子邮件、即时通讯等软件的频繁使用,越来越多的用户隐私信息也都被存储在手机之中。智能手机操作系统的数据安全,成为今日关注的焦点。文中深入研究了iOS系统的各项... 手机在如今的通讯手段中,占据举足轻重的地位,特别是随着社交网络、电子邮件、即时通讯等软件的频繁使用,越来越多的用户隐私信息也都被存储在手机之中。智能手机操作系统的数据安全,成为今日关注的焦点。文中深入研究了iOS系统的各项安全机制,分析在iOS系统越狱对安全机制的影响,以及敏感数据泄露的可能性。然后根据iOS系统越狱后暴露的安全性问题,分析研究了可能的植入方式。最后讨论了恶意程序检测手段,再针对越狱iOS系统出现的安全隐患,提出了安全加固的防范性措施。 展开更多
关键词 移动安全 iOS系统 iOS越狱 数据安全 安全加固
原文传递
基于知识编辑的大模型内容生成安全分析 被引量:7
15
作者 王梦如 姚云志 +4 位作者 习泽坤 张锦添 王鹏 徐子文 张宁豫 《计算机研究与发展》 EI CSCD 北大核心 2024年第5期1143-1155,共13页
大语言模型(large language models,LLMs)虽然取得了显著的成功,但在实际应用中依然面临着安全问题,容易在恶意诱导下生成有毒、有害内容.目前缓解LLMs不安全行为的方法通常需要高昂的数据收集成本以及大量的计算资源.大模型知识编辑可... 大语言模型(large language models,LLMs)虽然取得了显著的成功,但在实际应用中依然面临着安全问题,容易在恶意诱导下生成有毒、有害内容.目前缓解LLMs不安全行为的方法通常需要高昂的数据收集成本以及大量的计算资源.大模型知识编辑可以在不重新训练模型的基础上,根据特定的输入精确地改变模型对应的输出,在节约大量资源的条件下约束模型的行为;为优化大模型生成安全内容提供了一个新的可行思路.然而,目前学术界缺乏较为系统和全面的基于知识编辑的大模型内容安全生成分析数据集.具体地说,当前缓解LLMs不安全行为的数据集并未包括所有的不安全场景,且其有毒问题几乎无法绕过对齐后的LLMs安全防线,因此无法缓解对齐后LLMs存在的不安全问题.针对上述问题,设计了新的数据集SafeGen,并提出新的评价体系分析知识编辑在优化LLMs生成安全内容的潜力.大量的实验发现知识编辑可以提高LLMs内部的安全信念,在校正LLMs不安全行为领域展现了广阔的应用前景.但经过知识编辑的LLMs生成文本的流畅性却差强人意,这也表明了这项任务的潜在难度.该工作可以为大模型安全社区提供一些见解. 展开更多
关键词 大语言模型 安全 知识编辑 内容生成 越狱提示 防御 数据集
在线阅读 下载PDF
面向大语言模型的越狱攻击与防御综述 被引量:3
16
作者 梁思源 何英哲 +3 位作者 刘艾杉 李京知 代朋纹 操晓春 《信息安全学报》 CSCD 2024年第5期56-86,共31页
大语言模型(LargeLanguageModels,LLMs)由于其出色的性能表现而在各个领域被广泛使用,但是它们在面对精心构建的越狱提示时,往往会输出不正确的内容,由此引发了人们对其伦理问题和道德安全的担忧。攻击者可以在没有了解模型内部结构及... 大语言模型(LargeLanguageModels,LLMs)由于其出色的性能表现而在各个领域被广泛使用,但是它们在面对精心构建的越狱提示时,往往会输出不正确的内容,由此引发了人们对其伦理问题和道德安全的担忧。攻击者可以在没有了解模型内部结构及安全机制的情况下,通过设计特定的提示语句引发模型生成不恰当的内容。相关领域的专业研究者在分析LLMs的潜在脆弱性后,甚至可以产生人类难以发现,并且越狱成功率极高的自动化越狱攻击方法。为了阻止LLMs的恶意越狱攻击,研究者们提出覆盖LLMs训练到部署全生命周期的防御方法以加强模型的安全性。然而,目前对于大语言模型的综述工作主要集中在越狱攻击方法,并且没有对这些技术手段的特性及关系进行详细分析。此外,对评测基准总结的忽视也限制了该领域的蓬勃发展。因此,本文拟对现有的越狱攻击与防御方法进行全面的回顾。具体而言,我们首先介绍了大语言模型与越狱攻击的相关概念及原理,解释了越狱攻击在模型安全领域的重要性和它对大型语言模型的潜在威胁。接着,从攻击的生成策略回顾了现有的越狱攻击方法,并分析了他们的优缺点,如这些攻击策略如何利用模型的漏洞来实现攻击目标。然后,本文总结了围绕LLMs各个阶段的防御策略,并提供了一个全面的评测基准,详细介绍了如何评估这些防御策略的有效性。最后结合当前面临的挑战,我们对LLMs越狱攻防的未来研究方向进行了总结和展望,指出了未来研究中需要关注的关键问题和潜在的研究方向,以促进大模型的安全与可靠性发展。 展开更多
关键词 越狱攻击 越狱防御 大语言模型 深度学习 可信人工智能
在线阅读 下载PDF
iPhone手机安全技术分析 被引量:2
17
作者 邹荣兴 《信息网络安全》 2012年第2期44-46,共3页
随着iPhone手机的普及和各种iPhone"越狱"手段的合法化,iPhone手机安全问题也逐步显露。iPhone手机信息泄露、用户位置被追踪、手机被恶意扣费、信用卡账号被恶意消费等问题层出不穷。针对上述现象,文章主要研究了iPhone手机... 随着iPhone手机的普及和各种iPhone"越狱"手段的合法化,iPhone手机安全问题也逐步显露。iPhone手机信息泄露、用户位置被追踪、手机被恶意扣费、信用卡账号被恶意消费等问题层出不穷。针对上述现象,文章主要研究了iPhone手机上存在的安全漏洞以及可能遭受的恶意软件及其恶意行为,提出一些可行的防范措施及方法。 展开更多
关键词 智能手机 IPHONE 手机安全 越狱 恶意软件
在线阅读 下载PDF
道德编程:ChatGPT对提问者道德心理的良性效应与潜在风险
18
作者 严玉 马玉洁 《燕山大学学报(哲学社会科学版)》 2024年第6期89-96,共8页
ChatGPT及类似的大型语言人工智能在各领域扮演日益重要的角色,其与人类的互动已成不可避免的现实,人们对其信任、依赖,情感投入逐渐增加,这也导致了对人类道德心理的影响。虽然ChatGPT在回答问题时坚持遵循道德原则,但其回答模板存在... ChatGPT及类似的大型语言人工智能在各领域扮演日益重要的角色,其与人类的互动已成不可避免的现实,人们对其信任、依赖,情感投入逐渐增加,这也导致了对人类道德心理的影响。虽然ChatGPT在回答问题时坚持遵循道德原则,但其回答模板存在明显不足,如缺乏人类情感理解能力、无法提供个性化建议,且容易在遭遇“越狱攻击”时产生道德漏洞。如果提问者将ChatGPT视为可信信息源,并根据其回答做出道德决策,则不道德或有偏见的回答可能导致错误的道德决策,需要采取相关防范措施以应对智能时代的道德困境,促进个体道德心理增强和社会稳定。 展开更多
关键词 ChatGPT 大语言模型 越狱攻击 道德心理 人机关系
在线阅读 下载PDF
面向个人信息保护的iOS设备风险评估方法
19
作者 甄扬 《移动信息》 2023年第8期116-119,共4页
当前,面向iOS系统个人信息保护的研究主要集中在恶意APP分析与识别领域,缺少对iOS越狱和iOS系统漏洞的探讨。文中将三者融合,提出了一种针对iOS设备的风险评估方法。首先,定义了风险指标分值和风险要素权重值,然后根据预定义规则计算了... 当前,面向iOS系统个人信息保护的研究主要集中在恶意APP分析与识别领域,缺少对iOS越狱和iOS系统漏洞的探讨。文中将三者融合,提出了一种针对iOS设备的风险评估方法。首先,定义了风险指标分值和风险要素权重值,然后根据预定义规则计算了风险指标和风险要素得分,最后确定了设备风险级别,并给出了风险控制建议。基于该方法,构建了iOS设备风险管理系统。该系统采用客户端-服务器架构,客户端负责抓取并上传设备信息,服务器根据设备信息进行风险分析与评估,并反馈结果。运行结果表明,该系统能有效帮助用户发现iOS设备存在的各种风险。 展开更多
关键词 IOS 恶意软件 个人信息保护 风险评估 iOS越狱 风险管理
在线阅读 下载PDF
Enhancing Security in Large Language Models:A Comprehensive Review of Prompt Injection Attacks and Defenses
20
作者 Eleena Sarah Mathew 《Journal on Artificial Intelligence》 2025年第1期347-363,共17页
This review paper explores advanced methods to prompt Large LanguageModels(LLMs)into generating objectionable or unintended behaviors through adversarial prompt injection attacks.We examine a series of novel projects ... This review paper explores advanced methods to prompt Large LanguageModels(LLMs)into generating objectionable or unintended behaviors through adversarial prompt injection attacks.We examine a series of novel projects like HOUYI,Robustly Aligned LLM(RA-LLM),StruQ,and Virtual Prompt Injection that compel LLMs to produce affirmative responses to harmful queries.Several new benchmarks,such as PromptBench,AdvBench,AttackEval,INJECAGENT,and Robustness Suite,have been created to evaluate the performance and resilience of LLMs against these adversarial attacks.Results show significant success rates in misleading models like Vicuna-7B,LLaMA-2-7B-Chat,GPT-3.5,and GPT-4.The review highlights limitations in existing defense mechanisms and proposes future directions for enhancing LLM alignment and safety protocols,including the concept of LLM SELF DEFENSE.Our study emphasizes the need for improved robustness in LLMs,which will potentially shape the future of Artificial Intelligence(AI)driven applications and security protocols.Understanding the vulnerabilities of LLMs is crucial for developing effective defenses against adversarial prompt injection attacks.This paper proposes a systemic classification framework that discusses various types of prompt injection attacks and defenses.We also go through a broad spectrum of stateof-the-art attack methods(such as HouYi and Virtual Prompt Injection)alongside advanced defense mechanisms(like RA-LLM,StruQ,and LLM Self-Defense),providing critical insights into vulnerabilities and robustness.We also integrate and compare results from multiple recent benchmarks,including PromptBench,INJECENT,and BIPIA. 展开更多
关键词 Natural language processing prompt injection ChatGPT large language models(LLMs) adversarial exploitation jailbreak sensitive data leakage
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部