期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
Gradient-Guided Assembly Instruction Relocation for Adversarial Attacks Against Binary Code Similarity Detection
1
作者 Ran Wei Hui Shu 《Computers, Materials & Continua》 2026年第1期1372-1394,共23页
Transformer-based models have significantly advanced binary code similarity detection(BCSD)by leveraging their semantic encoding capabilities for efficient function matching across diverse compilation settings.Althoug... Transformer-based models have significantly advanced binary code similarity detection(BCSD)by leveraging their semantic encoding capabilities for efficient function matching across diverse compilation settings.Although adversarial examples can strategically undermine the accuracy of BCSD models and protect critical code,existing techniques predominantly depend on inserting artificial instructions,which incur high computational costs and offer limited diversity of perturbations.To address these limitations,we propose AIMA,a novel gradient-guided assembly instruction relocation method.Our method decouples the detection model into tokenization,embedding,and encoding layers to enable efficient gradient computation.Since token IDs of instructions are discrete and nondifferentiable,we compute gradients in the continuous embedding space to evaluate the influence of each token.The most critical tokens are identified by calculating the L2 norm of their embedding gradients.We then establish a mapping between instructions and their corresponding tokens to aggregate token-level importance into instructionlevel significance.To maximize adversarial impact,a sliding window algorithm selects the most influential contiguous segments for relocation,ensuring optimal perturbation with minimal length.This approach efficiently locates critical code regions without expensive search operations.The selected segments are relocated outside their original function boundaries via a jump mechanism,which preserves runtime control flow and functionality while introducing“deletion”effects in the static instruction sequence.Extensive experiments show that AIMA reduces similarity scores by up to 35.8%in state-of-the-art BCSD models.When incorporated into training data,it also enhances model robustness,achieving a 5.9%improvement in AUROC. 展开更多
关键词 Assembly instruction relocation adversary attack binary code similarity detection
在线阅读 下载PDF
Binary Code Similarity Detection:Retrospective Review and Future Directions
2
作者 Shengjia Chang Baojiang Cui Shaocong Feng 《Computers, Materials & Continua》 2025年第12期4345-4374,共30页
Binary Code Similarity Detection(BCSD)is vital for vulnerability discovery,malware detection,and software security,especially when source code is unavailable.Yet,it faces challenges from semantic loss,recompilation va... Binary Code Similarity Detection(BCSD)is vital for vulnerability discovery,malware detection,and software security,especially when source code is unavailable.Yet,it faces challenges from semantic loss,recompilation variations,and obfuscation.Recent advances in artificial intelligence—particularly natural language processing(NLP),graph representation learning(GRL),and large language models(LLMs)—have markedly improved accuracy,enabling better recognition of code variants and deeper semantic understanding.This paper presents a comprehensive review of 82 studies published between 1975 and 2025,systematically tracing the historical evolution of BCSD and analyzing the progressive incorporation of artificial intelligence(AI)techniques.Particular emphasis is placed on the role of LLMs,which have recently emerged as transformative tools in advancing semantic representation and enhancing detection performance.The review is organized around five central research questions:(1)the chronological development and milestones of BCSD;(2)the construction of AI-driven technical roadmaps that chart methodological transitions;(3)the design and implementation of general analytical workflows for binary code analysis;(4)the applicability,strengths,and limitations of LLMs in capturing semantic and structural features of binary code;and(5)the persistent challenges and promising directions for future investigation.By synthesizing insights across these dimensions,the study demonstrates how LLMs reshape the landscape of binary code analysis,offering unprecedented opportunities to improve accuracy,scalability,and adaptability in real-world scenarios.This review not only bridges a critical gap in the existing literature but also provides a forward-looking perspective,serving as a valuable reference for researchers and practitioners aiming to advance AI-powered BCSD methodologies and applications. 展开更多
关键词 binary code similarity detection semantic code representation graph-based modeling representation learning large language models
在线阅读 下载PDF
基于函数拆分对抗二进制代码相似性检测
3
作者 魏然 舒辉 《信息工程大学学报》 2026年第1期64-71,共8页
二进制代码相似性检测能够识别软件中的同源函数,进而定位关键模块。攻击者将其应用于逆向工程,给软件安全带来了风险。代码混淆可以增加软件的复杂程度,增强其抗检测能力。传统代码混淆主要在函数内部实现,存在空间开销和运行时开销大... 二进制代码相似性检测能够识别软件中的同源函数,进而定位关键模块。攻击者将其应用于逆向工程,给软件安全带来了风险。代码混淆可以增加软件的复杂程度,增强其抗检测能力。传统代码混淆主要在函数内部实现,存在空间开销和运行时开销大的问题。为此,提出了基于函数拆分的方法进行代码混淆,进而对抗二进制代码相似性检测。该方法在程序的中间表示层实现。首先,基于支配树将原函数的基本块集合划分为多个子集。其次,通过“定义—使用”链识别子集间的数据依赖关系。接着,引入控制变量以修复子集间的控制流。最后,通过代码重写生成子函数。实验结果表明,经过函数拆分混淆后的程序,使二进制相似性检测模型的召回率降至1.3%(函数池大小为1 024),代码膨胀率为原始模型的2.06倍。 展开更多
关键词 代码混淆 二进制代码相似性检测 函数拆分 支配树
在线阅读 下载PDF
联合语义和结构的跨架构二进制相似性检测工具
4
作者 汪小雨 金新懿 贾鹏 《通信技术》 2026年第1期104-114,共11页
二进制代码相似性检测技术在软件安全、漏洞挖掘、代码复用检测及知识产权保护等领域具有重要意义。由于不同硬件架构的指令集和编译环境差异显著,跨架构二进制代码相似性检测技术面临诸多挑战。研究设计了联合语义和结构特征的跨架构... 二进制代码相似性检测技术在软件安全、漏洞挖掘、代码复用检测及知识产权保护等领域具有重要意义。由于不同硬件架构的指令集和编译环境差异显著,跨架构二进制代码相似性检测技术面临诸多挑战。研究设计了联合语义和结构特征的跨架构二进制代码相似性检测工具。该工具以反汇编代码为输入,通过微调预训练语言模型构建面向汇编语义的BinBERT表示,并结合属性控制流图与图神经网络刻画函数级结构特征,在孪生网络框架下实现跨架构函数相似性度量。最终实验数据显示,所提工具在测试数据集上达到了98.98%的准确率、0.9899的F1得分、0.9872的ROC曲线下面积,充分证明了该工具在跨架构二进制代码相似性检测上的有效性和实用性。 展开更多
关键词 软件安全 二进制程序 跨架构分析 代码相似性检测
在线阅读 下载PDF
二进制代码相似性检测方法综述
5
作者 魏有缘 宋建华 张龑 《计算机科学》 北大核心 2025年第6期365-380,共16页
代码相似性检测按照研究对象可分为源代码相似性检测和二进制代码相似性检测两种,常用于恶意代码识别、漏洞搜索、版权保护等场景。基于目前国内的互联网环境,程序通常以二进制文件的形式发布,大多数程序都无法直接获得源代码,因此在软... 代码相似性检测按照研究对象可分为源代码相似性检测和二进制代码相似性检测两种,常用于恶意代码识别、漏洞搜索、版权保护等场景。基于目前国内的互联网环境,程序通常以二进制文件的形式发布,大多数程序都无法直接获得源代码,因此在软件安全领域的相关研究中,二进制代码相似性检测的应用范围相对更广。从二进制代码相似性检测的定义和实现流程出发,按照代码表征形式将其分为基于文本字符、基于代码嵌入、基于图嵌入三大类,对经典的二进制代码相似性检测方法和近5年的新方法共19篇文献进行了整理,并根据多架构、Baseline、基准数据集和检测性能对各类方法进行了分析和总结。最后,结合新方法的发展分析了当前存在的问题和未来可能的研究方向。 展开更多
关键词 二进制代码相似性检测 代码表征 软件安全 恶意代码识别 漏洞搜索
在线阅读 下载PDF
基于跨模态协同表示学习的二进制代码相似性检测方法
6
作者 杨宏宇 王云龙 +1 位作者 胡泽 成翔 《电子学报》 北大核心 2025年第4期1279-1292,共14页
二进制代码相似性检测(Binary Code Similarity Detection,BCSD)技术能够在无源代码的情况下检测二进制文件内在的安全威胁,在软件成分分析、漏洞挖掘等软件供应链安全领域中广泛应用.针对现有BCSD方法普遍忽略程序实际执行信息和局部... 二进制代码相似性检测(Binary Code Similarity Detection,BCSD)技术能够在无源代码的情况下检测二进制文件内在的安全威胁,在软件成分分析、漏洞挖掘等软件供应链安全领域中广泛应用.针对现有BCSD方法普遍忽略程序实际执行信息和局部语义信息,导致汇编指令语义表示学习效果不佳、特征提取模型的训练资源消耗过大以及相似性检测性能较差等问题,提出一种基于跨模态协同表示学习的二进制代码相似性检测方法(Cross-Modal coordinated Representation Learning for binary code similarity detection,CMRL).首先,提取汇编指令序列和编程语言片段语义间的对应关系并构建一个对比学习数据集,提出一种面向二进制代码的汇编指令-编程语言协同表示学习方法(Assembly code-Programming language Coordinated representations Learning method,APECL),将源代码的高层次语义作为监督信息,通过对比学习任务使汇编指令编码器APECL-Asm与编程语言编码器生成的特征表示在语义空间中对齐,提升APECL-Asm对汇编指令的语义表示学习效果.然后,设计一种基于图神经网络的二进制函数嵌入向量生成方法,通过语义结构感知网络对APECL-Asm提取到的语义信息和程序实际执行信息进行融合,生成函数嵌入向量.最后,通过计算函数嵌入向量之间的余弦距离对二进制代码进行相似性检测.实验结果表明,与现有方法相比,CMRL对二进制代码相似性检测的Recall@1指标提升8%~33%;针对代码混淆场景下的相似性检测任务,CMRL的Recall@1指标衰减幅度更小,具有更强的抗干扰能力. 展开更多
关键词 二进制代码相似性检测 跨模态 协同表示学习 语义结构感知网络 深度神经网络
在线阅读 下载PDF
基于二进制相似性分析的重现型漏洞检测方法综述 被引量:1
7
作者 王泰彦 李彦霖 +1 位作者 于璐 潘祖烈 《信息对抗技术》 2025年第2期18-43,共26页
在软件研发中,复用开源组件与代码模板已经成为主流,这大大降低了开发成本,但若对含有漏洞的代码进行复用,则会导致软件系统中出现重现型漏洞。随着代码复用愈发广泛,其带来的安全问题受到更多的关注,而现有商业软件如IoT固件程序等大... 在软件研发中,复用开源组件与代码模板已经成为主流,这大大降低了开发成本,但若对含有漏洞的代码进行复用,则会导致软件系统中出现重现型漏洞。随着代码复用愈发广泛,其带来的安全问题受到更多的关注,而现有商业软件如IoT固件程序等大多不公开源码与文档,因此需要在二进制层面进行安全研究与检测。近年来,研究人员将二进制相似性分析技术应用至漏洞检测领域,通过识别软件系统中是否存在已知漏洞的二进制代码,实现了对重现型漏洞的高效检测。为此,围绕重现型漏洞检测技术,首先梳理了现有基于二进制相似性分析的方法,并对相关技术进行系统分类与介绍,主要包括基于二进制本身信息进行分析的研究,以及结合相关源码/补丁辅助分析的研究;其次,对现有研究的实验评估数据集、可用工具与基线方法等进行分析总结;最后,在已有研究的基础上,对现存关键技术问题与未来研究方向进行总结与展望。 展开更多
关键词 代码复用 二进制相似性分析 重现型漏洞 漏洞检测
在线阅读 下载PDF
基于正交变换对齐的跨架构代码相似性检测方法
8
作者 田振洲 常辰昊 宫雨晨 《西安邮电大学学报》 2025年第3期77-83,共7页
为改善现有深度学习驱动的二进制代码相似性检测模型的跨架构检测能力,提出一种基于正交变换对齐的跨架构代码相似性检测方法。该方法针对不同架构的指令嵌入实施正交变换以消除其差异性,通过将对齐后的指令嵌入送入孪生对比学习模型,... 为改善现有深度学习驱动的二进制代码相似性检测模型的跨架构检测能力,提出一种基于正交变换对齐的跨架构代码相似性检测方法。该方法针对不同架构的指令嵌入实施正交变换以消除其差异性,通过将对齐后的指令嵌入送入孪生对比学习模型,降低模型的训练难度并增强跨架构的语义相似性检测能力。实验结果表明,所提方法在受试者工作特征曲线下面积、F1分数和准确率上相比采用未经指令嵌入对齐的检测模型分别提高10.3%、9.2%和9.6%,跨架构检测能力和对抗编译优化干扰的能力更强。 展开更多
关键词 跨架构二进制代码相似性检测 汇编指令嵌入 指令嵌入对齐 代码相似性 孪生对比学习
在线阅读 下载PDF
二进制代码相似性检测技术综述 被引量:12
9
作者 方磊 武泽慧 魏强 《计算机科学》 CSCD 北大核心 2021年第5期1-8,共8页
代码相似性检测常用于代码预测、知识产权保护和漏洞搜索等领域,可分为源代码相似性检测和二进制代码相似性检测。软件的源代码通常难以获得,因此针对二进制代码的相似性检测技术能够适用的场景更加广泛,学术界也先后提出了多种检测技术... 代码相似性检测常用于代码预测、知识产权保护和漏洞搜索等领域,可分为源代码相似性检测和二进制代码相似性检测。软件的源代码通常难以获得,因此针对二进制代码的相似性检测技术能够适用的场景更加广泛,学术界也先后提出了多种检测技术,文中对近年来该领域的研究进行了综述。首先总结代码相似性检测的基本流程和需要解决的难题(如跨编译器、跨编译器优化配置、跨指令架构检测);然后根据关注的代码信息的不同,将当前的二进制代码相似性检测技术分为4类,即基于文本的、基于属性度量的、基于程序逻辑的和基于语义的检测技术,并列举了部分代表性方法和工具(如Karta,discovRE,Ge-nius,Gemini,SAFE等);最后根据发展脉络和最新研究成果,对该领域的发展方向进行了分析和论述。 展开更多
关键词 软件安全 二进制程序 代码相似性检测
在线阅读 下载PDF
基于预训练汇编指令表征的二进制代码相似性检测方法 被引量:4
10
作者 王泰彦 潘祖烈 +1 位作者 于璐 宋景彬 《计算机科学》 CSCD 北大核心 2023年第4期288-297,共10页
二进制代码相似性检测技术近年来被广泛用于漏洞函数搜索、恶意代码检测与高级程序分析等领域,而由于程序代码与自然语言有一定程度的相似性,研究人员开始借助预训练等自然语言处理的相关技术来提高检测准确度。针对现有方法中未考虑程... 二进制代码相似性检测技术近年来被广泛用于漏洞函数搜索、恶意代码检测与高级程序分析等领域,而由于程序代码与自然语言有一定程度的相似性,研究人员开始借助预训练等自然语言处理的相关技术来提高检测准确度。针对现有方法中未考虑程序指令概率特征导致的准确率提升瓶颈,提出了一种基于预训练汇编指令表征技术的二进制代码相似性检测方法。设计了面向多架构汇编指令的分词方法,并在控制流与数据流关系基础上,考虑指令间顺序出现的概率与各个指令单元使用的频率等特征设计预训练任务,以实现对指令更好的向量化表征;结合预训练汇编指令表征方法,对二进制代码相似性检测下游任务进行改进,使用表征向量替换统计特征作为指令与基本块的表征,以提高检测准确率。实验结果表明,与现有方法相比,所提方法在指令表征能力方面最高提升23.7%,在基本块搜索准确度上最高提升33.97%,在二进制代码相似性检测的检出数量上最高增加4倍。 展开更多
关键词 二进制代码 相似性检测 指令表征 分词方法 预训练任务
在线阅读 下载PDF
基于Jump-SBERT的二进制代码相似性检测技术研究 被引量:1
11
作者 严尹彤 于璐 +2 位作者 王泰彦 李宇薇 潘祖烈 《计算机科学》 CSCD 北大核心 2024年第5期355-362,共8页
二进制代码相似性检测技术在不同的安全领域中有着重要的作用。针对现有的二进制代码相似性检测方法面临计算开销大且精度低、二进制函数语义信息识别不全面和评估数据集单一等问题,提出了一种基于Jump-SBERT的二进制代码相似性检测技术... 二进制代码相似性检测技术在不同的安全领域中有着重要的作用。针对现有的二进制代码相似性检测方法面临计算开销大且精度低、二进制函数语义信息识别不全面和评估数据集单一等问题,提出了一种基于Jump-SBERT的二进制代码相似性检测技术。Jump-SBERT有两个主要创新点,一是利用孪生网络构建SBERT网络结构,该网络结构能够在降低模型的计算开销的同时保持计算精度不变;二是引入了跳转识别机制,使Jump-SBERT可以学习到二进制函数的图结构信息,从而更加全面地捕获二进制函数的语义信息。实验结果表明,Jump-SBERT在小函数池(32个函数)中的识别准确率可达96.3%,在大函数池(10000个函数)中的识别准确率可达85.1%,比最先进(State-of-the-Art,SOTA)的方法高出36.13%,且Jump-SBERT在大规模二进制代码相似性检测中的表现更加稳定。消融实验表明,两个主要创新点对Jump-SBERT均有积极作用,其中,跳转识别机制的贡献最高可达9.11%。 展开更多
关键词 二进制代码 相似性检测 语义信息 SBERT网络结构 跳转识别机制
在线阅读 下载PDF
基于神经机器翻译的二进制函数相似性检测方法 被引量:6
12
作者 陈斌 刘胜利 +1 位作者 胡安祥 杨启超 《信息工程大学学报》 2021年第6期675-682,共8页
二进制函数相似性检测是检测软件中已知安全漏洞的一种重要手段,随着物联网设备急剧增长,越来越多的软件被编译到不同指令集架构的平台上运行,因此基于二进制的跨平台相似性检测方法更具通用性。针对目前基于深度神经网络的跨平台相似... 二进制函数相似性检测是检测软件中已知安全漏洞的一种重要手段,随着物联网设备急剧增长,越来越多的软件被编译到不同指令集架构的平台上运行,因此基于二进制的跨平台相似性检测方法更具通用性。针对目前基于深度神经网络的跨平台相似性检测方法只能在基本块粒度进行相似性比对的不足,基于神经机器翻译的思想,提出一个通用的跨指令集架构的二进制函数相似性检测框架BFS,在函数粒度上通过无监督学习的方法自动捕获二进制函数的语义信息,生成二进制函数的嵌入向量。实验结果表明,BFS的P@10评价指标在88.0%以上,相较于现有方法提升了10.6百分点,并且能够有效检测出路由器固件中的已知真实漏洞。充分说明BFS检测框架在对二进制函数进行嵌入时,不仅能够保留较多原始语义信息,同时能够消除不同指令集架构以及编译优化选项的影响。 展开更多
关键词 二进制代码 相似性检测 跨平台 漏洞搜索 神经机器翻译
在线阅读 下载PDF
融合注意力机制和Child-Sum Tree-LSTM的二进制代码相似性检测 被引量:1
13
作者 李涛 王金双 《网络安全与数据治理》 2023年第11期8-14,34,共8页
抽象语法树是一种代码的树型表示,它保留了代码中定义良好的语句组件、语句的显式顺序和执行逻辑。包含丰富语义信息的抽象语法树可以在二进制分析时通过反编译生成,并且已经作为代码特征应用于二进制代码相似度检测。抽象语法树中不同... 抽象语法树是一种代码的树型表示,它保留了代码中定义良好的语句组件、语句的显式顺序和执行逻辑。包含丰富语义信息的抽象语法树可以在二进制分析时通过反编译生成,并且已经作为代码特征应用于二进制代码相似度检测。抽象语法树中不同类别的节点承载着不同的语义信息,对整棵树的语义具有不同的贡献程度。然而现有的二进制代码相似度检测方法所用神经网络无法对抽象语法树节点进行重要性区分,影响了模型的训练效果。针对该问题,提出了一种融合注意力机制和Child-Sum Tree-LSTM神经网络的跨指令集、跨代码混淆二进制代码相似性检测方法。首先使用二进制分析工具IDA Pro对二进制代码反编译提取架构无关的抽象语法树特征,并利用随机采样构造训练样本对。然后使用抽象语法树训练样本对训练融合注意力机制和Child-Sum Tree-LSTM的神经网络模型。在公开数据集BINKIT上的实验表明,所提方法的AUC和Accuracy指标分别为94.1%、66.2%,优于Child-Sum Tree-LSTM算法。 展开更多
关键词 二进制代码 相似性检测 注意力机制 Child-Sum Tree-LSTM
在线阅读 下载PDF
基于角度边界的二进制函数对比学习模型
14
作者 孙瑞锦 郭世泽 +3 位作者 黎维 詹达之 王军 潘志松 《陆军工程大学学报》 2024年第4期42-50,共9页
现有代码相似性检测模型主要关注编码器的构建,对深度学习的损失函数研究较少。针对二进制函数嵌入向量评估被忽略的问题,提出了一种基于角度边界的二进制代码对比学习模型(angular marginbased binary code contrastive learning frame... 现有代码相似性检测模型主要关注编码器的构建,对深度学习的损失函数研究较少。针对二进制函数嵌入向量评估被忽略的问题,提出了一种基于角度边界的二进制代码对比学习模型(angular marginbased binary code contrastive learning framework,AngCLF)。通过优化对比学习的目标函数,提高了模型的准确性并加快了收敛速度。分析了模型产生效果的原因,并引入多个评估二进制代码向量空间的指标。通过实验验证了AngCLF的准确性,发现其在准确性上超越了包括jTrans模型在内的6个模型,并且收敛速度更快,对齐度和均匀性等指标也有明显优势。 展开更多
关键词 对比学习 角度边界 嵌入学习 二进制代码相似性检测
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部