期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于Simhash算法的题库查重系统的设计与实现
1
作者 熊良钰 邓伦丹 《科学技术创新》 2024年第9期91-94,共4页
Simhash算法是一种基于局部敏感哈希(LSH)的技术,以其快速的计算速度和高度的查重准确性而知名。该算法通过将文本特征转换为二进制码,进而通过计算这些二进制码之间的汉明距离来评估文本的相似度。在文本去重和重复文档检测等多个领域,... Simhash算法是一种基于局部敏感哈希(LSH)的技术,以其快速的计算速度和高度的查重准确性而知名。该算法通过将文本特征转换为二进制码,进而通过计算这些二进制码之间的汉明距离来评估文本的相似度。在文本去重和重复文档检测等多个领域,Simhash算法已经展现出了显著的效果。鉴于此,将Simhash算法应用于题库查重具有很高的可行性和实际应用价值。 展开更多
关键词 simhash算法 汉明距离 题库查重系统 文本相似度计算 哈希函数
在线阅读 下载PDF
Victimization Risk Identification Based on Fingerprint Features of Fraudulent Website
2
作者 Zhou Shengli Shen Xinyan +2 位作者 Xu Rui Wang Zhenbo Yang Chaoyi 《China Communications》 2025年第10期199-213,共15页
Fraudulent website is an important car-rier tool for telecom fraud.At present,criminals can use artificial intelligence generative content technol-ogy to quickly generate fraudulent website templates and build fraudul... Fraudulent website is an important car-rier tool for telecom fraud.At present,criminals can use artificial intelligence generative content technol-ogy to quickly generate fraudulent website templates and build fraudulent websites in batches.Accurate identification of fraudulent website will effectively re-duce the risk of public victimization.Therefore,this study developed a fraudulent website template iden-tification method based on DOM structure extraction of website fingerprint features,which solves the prob-lems of single-dimension identification,low accuracy,and the insufficient generalization ability of current fraudulent website templates.This method uses an im-proved SimHash algorithm to traverse the DOM tree of a webpage,extract website node features,calcu-late the weight of each node,and obtain the finger-print feature vector of the website through dimension-ality reduction.Finally,the random forest algorithm is used to optimize the training features for the best combination of parameters.This method automati-cally extracts fingerprint features from websites and identifies website template ownership based on these features.An experimental analysis showed that this method achieves a classification accuracy of 89.8%and demonstrates superior recognition. 展开更多
关键词 fraudulent website improved simhash algorithm multi-class classification victimization risk identification website fingerprinting
在线阅读 下载PDF
基于Simhash算法的重复数据删除技术的研究与改进 被引量:15
3
作者 陈春玲 陈琳 +1 位作者 熊晶 余瀚 《南京邮电大学学报(自然科学版)》 北大核心 2016年第3期85-91,共7页
为了在大规模文档去重中提高相似数据检测的精度,对基于Simhash算法的大规模文档去重技术进行深入研究。在原有算法的基础之上对Simhash签名值的计算过程作出改进,引入ICTCLAS分词技术,将TF-IDF技术作为计算权重的主要方法,同时将特征... 为了在大规模文档去重中提高相似数据检测的精度,对基于Simhash算法的大规模文档去重技术进行深入研究。在原有算法的基础之上对Simhash签名值的计算过程作出改进,引入ICTCLAS分词技术,将TF-IDF技术作为计算权重的主要方法,同时将特征值的词性与词长两大影响因素考虑其中。然后对产生的签名值进行汉明距离的比较,从而精确地判定出待比较者是否为相似数据。实验结果表明:改进的算法性能得到提高,并且总体优于Shingle算法和原Simhash算法。通过提高签名值的精度能够实现大规模文档中相似技术的精确检测,达到理想的去重效果。 展开更多
关键词 相似检测 simhash算法 TF-IDF技术 指纹计算 汉明距离
在线阅读 下载PDF
基于SimHash算法的主机网络嗅探攻击自主检测方法 被引量:1
4
作者 何珏 常安 +1 位作者 孙萌 黄怀霖 《电子设计工程》 2023年第13期79-82,88,共5页
目前提出的主机网络嗅探攻击自主检测方法转发包数据过高,导致嗅探攻击成本过低,难以在短时间内实现嗅探攻击检测。为了解决上述问题,以SimHash算法作为检测核心,提出了一种新的主机网络嗅探攻击自主检测方法。嗅探器在捕获主机网络系... 目前提出的主机网络嗅探攻击自主检测方法转发包数据过高,导致嗅探攻击成本过低,难以在短时间内实现嗅探攻击检测。为了解决上述问题,以SimHash算法作为检测核心,提出了一种新的主机网络嗅探攻击自主检测方法。嗅探器在捕获主机网络系统内通信信息时,利用通信链路的特点和算法,建立三个约束条件用于选择最佳通信链路的最佳路径,通过路径剔除确定主机内非法信息的通信路径,确保嗅探器获取通信链路信息的真实性。计算比特流向量序列,检测数据错误包,通过数据信息的切割提高嗅探攻击成本,实现了主机网络嗅探攻击自主检测。实验结果表明,基于SimHash算法的主机网络嗅探攻击自主检测方法能够提高嗅探攻击成本,在短时间内实现主机网络嗅探攻击自主检测。 展开更多
关键词 simhash算法 主机网络 嗅探攻击 自主检测
在线阅读 下载PDF
基于HBase和SimHash的大数据K-近邻算法 被引量:1
5
作者 王婷婷 翟俊海 +1 位作者 张明阳 郝璞 《山东大学学报(工学版)》 CAS 北大核心 2018年第3期54-59,共6页
针对大数据K-近邻(K-nearest neighbors,K-NN)计算复杂度高的问题,提出一种基于HBase和Sim Hash的大数据K-近邻分类算法。利用Sim Hash算法将大数据集从原空间映射到Hamming空间,得到哈希签名值集合;将样例的行键与值的二元对存储到HBas... 针对大数据K-近邻(K-nearest neighbors,K-NN)计算复杂度高的问题,提出一种基于HBase和Sim Hash的大数据K-近邻分类算法。利用Sim Hash算法将大数据集从原空间映射到Hamming空间,得到哈希签名值集合;将样例的行键与值的二元对存储到HBase数据库中,行健(rowkey)为样例的哈希签名值,值(value)为样例的类别;对于测试样例,以其哈希签名值作为健rowkey,从HBase数据库中获取所有样例的value,通过对这些values进行多数投票,即可以得到测试样例的类别。与基于MapReduce的K-NN和基于Spark的K-NN在运行时间和测试精度两方面进行试验比较。试验结果显示,在保持分类能力的前提下,提出的算法的运行时间远远低于其他两种方法。 展开更多
关键词 大数据 K-近邻 分类算法 HBASE simhash
原文传递
Simhash算法在试题查重中的应用 被引量:1
6
作者 冉崇善 邵春霞 《软件导刊》 2018年第2期151-153,157,共4页
随着在线教育平台的兴起,为了解决大量试题带来的存储开支问题,试题查重技术应运而生。提出将改进的Simhash算法应用到试题查重中,首先根据结巴分词技术将试题文本进行切分,然后根据TF-IDF技术并结合词语的词性及词长算出关键词权重,以... 随着在线教育平台的兴起,为了解决大量试题带来的存储开支问题,试题查重技术应运而生。提出将改进的Simhash算法应用到试题查重中,首先根据结巴分词技术将试题文本进行切分,然后根据TF-IDF技术并结合词语的词性及词长算出关键词权重,以期达到对Simhash签名值的精确计算,最后通过带有索引功能的海明距离检测出相似试题。实验结果验证了此方案的可行性。 展开更多
关键词 试题查重 simhash算法 海明距离 签名值
在线阅读 下载PDF
移动APP多核架构安全漏洞并行检测
7
作者 严文昊 王宏岩 +2 位作者 董蓓 曲艺 孙德艳 《计算机技术与发展》 2025年第2期79-85,共7页
移动APP多核架构的安全漏洞具有多样化、大规模特征,现有检测方法受限于参数选择适应性和特征提取的准确性,难以准确并行检测移动APP的多种漏洞。为了解决移动APP多核架构下大规模安全漏洞数据的准确检测问题,提出了一种基于SimHash算法... 移动APP多核架构的安全漏洞具有多样化、大规模特征,现有检测方法受限于参数选择适应性和特征提取的准确性,难以准确并行检测移动APP的多种漏洞。为了解决移动APP多核架构下大规模安全漏洞数据的准确检测问题,提出了一种基于SimHash算法和LightGBM的移动APP多核架构安全漏洞并行检测方法。该方法利用SimHash算法对漏洞数据进行特征提取和编码。利用TF-IDF算法融合Jaccard指数改进SimHash算法,优化特征词的权重分配计算,生成唯一特征哈希值。结合LightGBM算法构建二分类器,判断漏洞是否存在可利用的EXP(漏洞利用代码)。利用贝叶斯超参数优化LightGBM算法,通过多核架构的并行处理,实现对大量漏洞数据的准确检测。通过实验表明,该方法针对多种常见漏洞的MAE值、RMSE值、MAPE值、R^(2)值分别为0.032、1.017、0.124%、0.976,有效提升了漏洞检测的适应性、精度、稳定性和拟合能力,为移动APP的安全管理提供了有力支持。 展开更多
关键词 simhash算法 LightGBM 移动APP 多核架构 安全漏洞 并行检测
在线阅读 下载PDF
基于灰狼算法的Simhash冗余数据检测算法 被引量:4
8
作者 阮嘉琨 蔡延光 +1 位作者 蔡颢 张丽 《东莞理工学院学报》 2020年第5期38-43,共6页
高速公路智能交通数据记录量大且易产生冗余数据,使交通数据质量降低,不利于对交通数据分析和进一步应用。由于SNM算法过于依赖关键字的选取,计算的时间复杂度高,易造成计算的浪费导致对冗余数据检测效果不佳;而Simhash算法存在关键词... 高速公路智能交通数据记录量大且易产生冗余数据,使交通数据质量降低,不利于对交通数据分析和进一步应用。由于SNM算法过于依赖关键字的选取,计算的时间复杂度高,易造成计算的浪费导致对冗余数据检测效果不佳;而Simhash算法存在关键词对应的权重选取困难问题。因此,提出了基于灰狼算法改进的Simhash算法,对关键词对应的权重选择进行优化。使用SNM算法、Simhash算法以及改进后的Simhash算法对高速公路智能交通冗余数据样本集进行仿真实验。分析结果表明改进后的Simhash算法检测高速公路交通冗余数据记录的准确率、召回率以及F-Measure都有所提升,检测效果更好。 展开更多
关键词 智能交通 高速公路 冗余数据检测 灰狼算法 simhash算法
在线阅读 下载PDF
基于SimHash算法的案件辅助判决系统研究 被引量:1
9
作者 李锐 游景扬 +2 位作者 刘稳 王锦 陈建峡 《湖北工业大学学报》 2017年第5期67-72,共6页
为提高法院工作效率和判案的公正性,开发了案件辅助判决系统。将裁判文书分为刑事、民事、执行、赔偿、行政5大案件类型,便于对判决书的处理,存储和查询。系统采用SimHash算法,对用户提交的判决书提取关键信息,查找出数据库中同类型判... 为提高法院工作效率和判案的公正性,开发了案件辅助判决系统。将裁判文书分为刑事、民事、执行、赔偿、行政5大案件类型,便于对判决书的处理,存储和查询。系统采用SimHash算法,对用户提交的判决书提取关键信息,查找出数据库中同类型判决书中相似度最高的判决书推荐给用户。 展开更多
关键词 裁判文书 simhash算法 辅助判决系统
在线阅读 下载PDF
基于Simhash算法的海量文本相似性检测方法研究 被引量:3
10
作者 任民山 蔡红霞 《计量与测试技术》 2018年第4期78-80,共3页
为了在知识文档搜索中更加精确的为用户推荐更多语义内容相似的文档。本文对基于Simhash算法的文档相似性计算技术进行深入研究,引入ICT-CLAS分词技术,将TF-IDF技术作为计算权重的主要方法,对原有的Simhash算法作出改进,采用海明距离对S... 为了在知识文档搜索中更加精确的为用户推荐更多语义内容相似的文档。本文对基于Simhash算法的文档相似性计算技术进行深入研究,引入ICT-CLAS分词技术,将TF-IDF技术作为计算权重的主要方法,对原有的Simhash算法作出改进,采用海明距离对Simhash指纹值进行相似性度量计算。最后以民机研制领域的工序数据为实验数据进行相关实验,实验结果表明:改进的方案性能得到提高,并且总体优于Shingle算法和原Simhash算法,能够实现大规模文档中相似性的精确检测。 展开更多
关键词 相似性计算 simhash算法 TF-IDF技术 海明距离 指纹值
在线阅读 下载PDF
基于改进Simhash的虚拟机镜像去重方法 被引量:4
11
作者 张灿阳 刘晓洁 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第1期57-65,共9页
在云环境中,传统意义上的物理服务器正在逐渐被各式虚拟机所取代,云数据中心中托管的虚拟机镜像所占用的存储空间急剧增长,如何高效地管理这些镜像文件已成为云计算研究热点之一.由于虚拟机镜像内部存在大量空白重复数据块,这在一定程... 在云环境中,传统意义上的物理服务器正在逐渐被各式虚拟机所取代,云数据中心中托管的虚拟机镜像所占用的存储空间急剧增长,如何高效地管理这些镜像文件已成为云计算研究热点之一.由于虚拟机镜像内部存在大量空白重复数据块,这在一定程度上导致了镜像内部冗余率较高.其次,不同的虚拟机镜像可能运行了相同的操作系统和应用程序,使得镜像之间同样存在较多的重复数据.针对海量虚拟机镜像,传统的去重策略将产生巨大的时间开销,同时会消耗巨大的内存空间和CPU资源,影响数据中心的性能.提出一种基于改进Simhash算法的海量虚拟机镜像多级去重方法,将一个完整的镜像文件分割为操作系统镜像段和应用数据镜像段,同时提取各部分的特征值,利用DBSCAN(density-based spatial clustering of applications with noise)聚类算法完成对镜像段的分组,将相似度较高的镜像段聚为一类,从而将全局去重分解为规模较小且重复率较高的分组内部去重,实现了指纹索引数据完全存放于内存中的重复数据删除,大幅减少了磁盘I/O次数,达到缩短去重时间的目的. 展开更多
关键词 云计算 重复数据删除 改进simhash算法 虚拟机镜像
在线阅读 下载PDF
基于Simhash算法的自助胶片打印系统设计与实现
12
作者 周晟劼 袁骏毅 侯晋 《中国数字医学》 2018年第7期61-62,70,共3页
自助胶片打印系统是以RIS和PACS发布检查信息为数据源,以自助机为展示终端的应用系统。系统通过完整的缴费、打印、审核、分发闭环,实现患者的自助缴费、取片;并采用Simhash算法快速查找图像,确保系统和用户之间的流畅交互;程序的数据... 自助胶片打印系统是以RIS和PACS发布检查信息为数据源,以自助机为展示终端的应用系统。系统通过完整的缴费、打印、审核、分发闭环,实现患者的自助缴费、取片;并采用Simhash算法快速查找图像,确保系统和用户之间的流畅交互;程序的数据校验工作全自动完成,自助打印的过程中无需人为操作;异步通信的程序开发方式,支持多台自助机同时运行,操作简易。7*24小时不间断服务,减少工作量,加快操作效率,是门诊取片的理想方案。 展开更多
关键词 自助胶片打印系统 simhash算法 全自动 自引导式
在线阅读 下载PDF
基于SimHash算法的大数据网络安全态势的评估 被引量:3
13
作者 童伟传 《机械设计与制造工程》 2022年第5期125-129,共5页
在网络数据量日益增大及维度逐渐升高的背景下,为了更好地解决传统网络安全态势评估模型存储量小、执行率低的问题,构建了基于SimHash算法的安全态势评估模型。首先对大规模的网络进行划分,得到多个网络模块;然后预处理安全要素数据,将... 在网络数据量日益增大及维度逐渐升高的背景下,为了更好地解决传统网络安全态势评估模型存储量小、执行率低的问题,构建了基于SimHash算法的安全态势评估模型。首先对大规模的网络进行划分,得到多个网络模块;然后预处理安全要素数据,将处理结果存储在大数据平台中;最后利用SimHash算法进行节点安全态势评估,基于节点与模块权重获取模块和网络的实际安全态势数据信息。实验结果表明,算法可准确、实时评估网络安全态势,为大数据领域的网络安全态势评估提供了一种新的方法。 展开更多
关键词 simhash算法 大数据 网络安全
在线阅读 下载PDF
基于SimHash算法的Android恶意程序检测 被引量:1
14
作者 李红灵 詹翊 《计算机技术与发展》 2017年第10期121-125,共5页
针对当前Android应用程序良莠不齐,存在大量的恶意程序对个人隐私和信息安全构成严重威胁的现状,在分析基于MD5的传统特征代码检测技术的基础上,提出了利用SimHash算法,经过APK文件特征文本提取,特征文本数字指纹生成,数字指纹比对及比... 针对当前Android应用程序良莠不齐,存在大量的恶意程序对个人隐私和信息安全构成严重威胁的现状,在分析基于MD5的传统特征代码检测技术的基础上,提出了利用SimHash算法,经过APK文件特征文本提取,特征文本数字指纹生成,数字指纹比对及比对结果分析三个步骤,进行Android恶意程序检测的新方法。为实现APK文件特征文本化,引入恶意软件分析程序androlyze.py,同时,考虑到Android特征的有效性,经研究需要选取Android程序的权限及调用映射、广播接收器、服务等核心信息组合成对应APK文件的复合特征文本,将复合特征文本转换为字符串后利用程序进行海明距离计算,由海明距离判断待测试APK文件的安全性。通过实验进行实例分析,并将得到的检测效果与360杀毒软件做比较,发现基于SimHash算法的恶意程序检测方法,检测率高于360。 展开更多
关键词 simhash算法 Android恶意程序检测 复合特征文本 相似性比较
在线阅读 下载PDF
利用SimHash算法构建网络安全漏洞监测体系研究 被引量:9
15
作者 陈伟 李圆智 欧阳亨威 《网络空间安全》 2022年第5期87-91,共5页
[目的/意义]传统的网络安全防护技术,只能依据本身的数据规则库,将外部入侵操作、库内的数据特征比对,却难以阻止和应对不确定的入侵攻击、数据盗用行为.[方法/过程]利用大数据Hadoop分布式网络监测架构、SimHash算法,搜集和整合外部入... [目的/意义]传统的网络安全防护技术,只能依据本身的数据规则库,将外部入侵操作、库内的数据特征比对,却难以阻止和应对不确定的入侵攻击、数据盗用行为.[方法/过程]利用大数据Hadoop分布式网络监测架构、SimHash算法,搜集和整合外部入侵攻击的安全漏洞信息,建立不同网络安全漏洞指标的标准化关系矩阵、安全态势评估模型,对大规模网络的多个控制节点进行模块权重设置、安全态势评估,并在Spark集群数据服务平台做出模拟仿真实验.[结果/结论]客观、准确的网络安全漏洞检测和管理结果表明,大数据技术用于网络安全管理的效果更好. 展开更多
关键词 大数据 simhash算法 网络安全 应用研究 数据安全治理
在线阅读 下载PDF
文本相似度计算的Simhash算法的实现与改进 被引量:5
16
作者 顾志祥 谢龙恩 杜雨 《信息通信》 2020年第1期27-29,共3页
在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。因此,文章的主要研究内容是如何用Simhash算法来实现对文本相似度... 在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。因此,文章的主要研究内容是如何用Simhash算法来实现对文本相似度的计算;进而在已实现的基础上,通过阅读大量相关文献,对该算法步骤中的加权部分做了改进;最后,通过对改进前后算法进行大量的实验数据对比分析,从而验证了改进后算法的有效性和合理性。 展开更多
关键词 simhash算法 文本相似度 算法改进
在线阅读 下载PDF
基于多元级差优良化遗传算法的环境拓扑结构任务调度
17
作者 王佳 顾文俊 +4 位作者 鞠炜刚 李玉维 张云龙 米传民 周志鹏 《计算机与现代化》 2024年第10期65-73,79,共10页
在国家深入推进“东数西算”工程的背景下,算力网络中心的环境部署调度面临许多挑战,如环境的数量、大小、拓扑结构复杂度、依赖约束和网络传输量等不确定因素。为了应对这些限制因素,提出一种多元级差优良化的遗传算法(Diverse Hierarc... 在国家深入推进“东数西算”工程的背景下,算力网络中心的环境部署调度面临许多挑战,如环境的数量、大小、拓扑结构复杂度、依赖约束和网络传输量等不确定因素。为了应对这些限制因素,提出一种多元级差优良化的遗传算法(Diverse Hierarchical Difference Optimization Genetic Algorithm,DHDO-GA)。该算法以任务执行跨度makespan和资源利用率最优化为目标,同时考虑资源的负载均衡。为了更好地引导整个种群向全局最优解快速聚拢,该算法根据适应度值和相似度将染色体分布在不同的层级,并将其抽象聚类成精英种群。仿真实验表明,DHDO-GA算法优于传统遗传算法和几种改进的遗传算法,在搜索能力、算法稳定性以及结果质量和可靠性方面具有更大的优势。 展开更多
关键词 环境拓扑结构 任务调度 依赖约束 遗传算法 精英种群 simhash
在线阅读 下载PDF
区块链下社交网络用户抄袭识别方案
18
作者 李莉 杨春艳 +1 位作者 朱江文 胡荣磊 《计算机应用》 CSCD 北大核心 2024年第1期242-251,共10页
针对社交网络中用户抄袭难以识别的问题,为保障原创作者权益并对具有抄袭行为的用户进行追责,提出了区块链下社交网络用户抄袭识别方案。针对现有区块链缺少通用溯源模型的问题,设计基于区块链的溯源信息管理模型来记录用户操作信息,为... 针对社交网络中用户抄袭难以识别的问题,为保障原创作者权益并对具有抄袭行为的用户进行追责,提出了区块链下社交网络用户抄袭识别方案。针对现有区块链缺少通用溯源模型的问题,设计基于区块链的溯源信息管理模型来记录用户操作信息,为文本相似度检测提供依据。在Merkle树和布隆过滤器结构的基础上,设计了新的索引结构BHMerkle,减少了区块构建和查询时的计算开销,实现了对交易的快速定位。同时提出多特征权重Simhash算法,提高了词权计算的准确性并提高签名值匹配阶段的效率,从而对具有抄袭行为的恶意用户进行识别,并通过奖惩机制遏制恶意行为的发生。抄袭识别方案在不同主题的新闻数据集上的平均准确率为94.8%,平均召回率为88.3%,相较于多维度Simhash算法和基于信息熵加权的Simhash(E-Simhash)算法,平均准确率分别提升了6.19、4.01个百分点,平均召回率分别提升了3.12、2.92个百分点。实验结果表明,所提方案在抄袭文本的查询及检测效率方面均有所提升,且在抄袭识别方面具有较高的准确性。 展开更多
关键词 区块链 抄袭识别 simhash算法 相似度检测 社交网络
在线阅读 下载PDF
中文短文本去重方法研究 被引量:4
19
作者 高翔 李兵 《计算机工程与应用》 CSCD 2014年第16期192-197,共6页
针对中文短文本冗余问题,提出了有效的去重算法框架。考虑到短文本海量性和简短性的特点,以及中文与英文之间的区别,引入了Bloom Filter、Trie树以及SimHash算法。算法框架的第一阶段由Bloom Filter或Trie树进行完全去重,第二阶段由SimH... 针对中文短文本冗余问题,提出了有效的去重算法框架。考虑到短文本海量性和简短性的特点,以及中文与英文之间的区别,引入了Bloom Filter、Trie树以及SimHash算法。算法框架的第一阶段由Bloom Filter或Trie树进行完全去重,第二阶段由SimHash算法进行相似去重。设计了该算法框架的各项参数,并通过仿真实验证实了该算法框架的可行性及合理性。 展开更多
关键词 文本去重 中文短文本 TRIE树 simhash算法
在线阅读 下载PDF
Code Transform Model Producing High-Performance Program 被引量:1
20
作者 Bao Rong Chang Hsiu-Fen Tsai Po-Wen Su 《Computer Modeling in Engineering & Sciences》 SCIE EI 2021年第10期253-277,共25页
This paper introduces a novel transform method to produce the newly generated programs through code transform model called the second generation of Generative Pre-trained Transformer(GPT-2)reasonably,improving the pro... This paper introduces a novel transform method to produce the newly generated programs through code transform model called the second generation of Generative Pre-trained Transformer(GPT-2)reasonably,improving the program execution performance significantly.Besides,a theoretical estimation in statistics has given the minimum number of generated programs as required,which guarantees to find the best one within them.The proposed approach can help the voice assistant machine resolve the problem of inefficient execution of application code.In addition to GPT-2,this study develops the variational Simhash algorithm to check the code similarity between sample program and newly generated program,and conceives the piecewise longest common subsequence algorithm to examine the execution’s conformity from the two programs mentioned above.The code similarity check deducts the redundant generated programs,and the output conformity check finds the best-performing generative program.In addition to texts,the proposed approach can also prove the other media,including images,sounds,and movies.As a result,the newly generated program outperforms the sample program significantly because the number of code lines reduces 27.21%,and the program execution time shortens 24.62%. 展开更多
关键词 Newly generated programs GPT-2 predetermined generative programs variational simhash algorithm piecewise longest common subsequence
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部