期刊文献+
共找到195篇文章
< 1 2 10 >
每页显示 20 50 100
An Online Malicious Spam Email Detection System Using Resource Allocating Network with Locality Sensitive Hashing 被引量:1
1
作者 Siti-Hajar-Aminah Ali Seiichi Ozawa +2 位作者 Junji Nakazato Tao Ban Jumpei Shimamura 《Journal of Intelligent Learning Systems and Applications》 2015年第2期42-57,共16页
In this paper, we propose a new online system that can quickly detect malicious spam emails and adapt to the changes in the email contents and the Uniform Resource Locator (URL) links leading to malicious websites by ... In this paper, we propose a new online system that can quickly detect malicious spam emails and adapt to the changes in the email contents and the Uniform Resource Locator (URL) links leading to malicious websites by updating the system daily. We introduce an autonomous function for a server to generate training examples, in which double-bounce emails are automatically collected and their class labels are given by a crawler-type software to analyze the website maliciousness called SPIKE. In general, since spammers use botnets to spread numerous malicious emails within a short time, such distributed spam emails often have the same or similar contents. Therefore, it is not necessary for all spam emails to be learned. To adapt to new malicious campaigns quickly, only new types of spam emails should be selected for learning and this can be realized by introducing an active learning scheme into a classifier model. For this purpose, we adopt Resource Allocating Network with Locality Sensitive Hashing (RAN-LSH) as a classifier model with a data selection function. In RAN-LSH, the same or similar spam emails that have already been learned are quickly searched for a hash table in Locally Sensitive Hashing (LSH), in which the matched similar emails located in “well-learned” are discarded without being used as training data. To analyze email contents, we adopt the Bag of Words (BoW) approach and generate feature vectors whose attributes are transformed based on the normalized term frequency-inverse document frequency (TF-IDF). We use a data set of double-bounce spam emails collected at National Institute of Information and Communications Technology (NICT) in Japan from March 1st, 2013 until May 10th, 2013 to evaluate the performance of the proposed system. The results confirm that the proposed spam email detection system has capability of detecting with high detection rate. 展开更多
关键词 MALICIOUS SPAM EMAIL Detection System INCREMENTAL Learning Resource Allocating Network localITY sensitive hashing
在线阅读 下载PDF
Improved locality-sensitive hashing method for the approximate nearest neighbor problem
2
作者 陆颖华 马廷淮 +3 位作者 钟水明 曹杰 王新 Abdullah Al-Dhelaane 《Chinese Physics B》 SCIE EI CAS CSCD 2014年第8期217-225,共9页
In recent years, the nearest neighbor search (NNS) problem has been widely used in various interesting applications. Locality-sensitive hashing (LSH), a popular algorithm for the approximate nearest neighbor probl... In recent years, the nearest neighbor search (NNS) problem has been widely used in various interesting applications. Locality-sensitive hashing (LSH), a popular algorithm for the approximate nearest neighbor problem, is proved to be an efficient method to solve the NNS problem in the high-dimensional and large-scale databases. Based on the scheme of p-stable LSH, this paper introduces a novel improvement algorithm called randomness-based locality-sensitive hashing (RLSH) based on p-stable LSH. Our proposed algorithm modifies the query strategy that it randomly selects a certain hash table to project the query point instead of mapping the query point into all hash tables in the period of the nearest neighbor query and reconstructs the candidate points for finding the nearest neighbors. This improvement strategy ensures that RLSH spends less time searching for the nearest neighbors than the p-stable LSH algorithm to keep a high recall. Besides, this strategy is proved to promote the diversity of the candidate points even with fewer hash tables. Experiments are executed on the synthetic dataset and open dataset. The results show that our method can cost less time consumption and less space requirements than the p-stable LSH while balancing the same recall. 展开更多
关键词 approximate nearest neighbor problem locality-sensitive hashing
原文传递
基于邻居边界度的自主决策系统性能边界识别方法
3
作者 路辉 吕静茹 +1 位作者 王诗琪 孙泽斌 《北京航空航天大学学报》 北大核心 2026年第1期80-93,共14页
性能边界是度量自主决策系统鲁棒性的重要表征,可以反映自主决策系统对抗扰动的能力。针对性能边界数据多空间分布、增量生成等特点,提出一种基于邻居边界度的自主决策系统性能边界识别方法。面对性能边界搜索空间复杂、全空间尺度不统... 性能边界是度量自主决策系统鲁棒性的重要表征,可以反映自主决策系统对抗扰动的能力。针对性能边界数据多空间分布、增量生成等特点,提出一种基于邻居边界度的自主决策系统性能边界识别方法。面对性能边界搜索空间复杂、全空间尺度不统一的难点,设计邻居边界度指标解决绝对尺度度量问题,并提出基于邻居边界度的性能边界识别流程;考虑利用增量数据结合原有识别结果进一步精确刻画性能边界,提出基于邻居边界度的增量性能边界识别方法,实现对增量数据的高效处理;为解决增量过程中的近邻搜索和反向近邻搜索的效率问题,提出改进局部敏感哈希的近似近邻搜索优化方法;分别以标准测试函数、路径规划系统作为典型的自主决策系统,开展理论研究工作的验证和分析。实验结果表明:基于邻居边界度的性能边界识别方法具有很好的方法参数泛化能力,在路径规划系统上,该方法比对比方法识别准确度高出13.68%,运行时间减少91.57%。 展开更多
关键词 自主决策系统 鲁棒性测试 性能边界识别 增量识别 局部敏感哈希
原文传递
基于LSH的时间子序列查询算法 被引量:6
4
作者 汤春蕾 董家麒 《计算机学报》 EI CSCD 北大核心 2012年第11期2228-2236,共9页
子序列的相似性查询是时间序列数据集中的一种重要操作,包括范围查询和k近邻查询.现有的大多算法是基于欧几里德距离或者DTW距离的,缺点在于查询效率低下.文中提出了一种新的基于LSH的距离度量方法,可以在保证查询结果质量的前提下,极... 子序列的相似性查询是时间序列数据集中的一种重要操作,包括范围查询和k近邻查询.现有的大多算法是基于欧几里德距离或者DTW距离的,缺点在于查询效率低下.文中提出了一种新的基于LSH的距离度量方法,可以在保证查询结果质量的前提下,极大提高相似性查询的效率;在此基础上,给出一种DS-Index索引结构,利用距离下界进行剪枝,进而还提出了两种优化的OLSH-Range和OLSH-kNN算法.实验是在真实的股票序列集上进行的,数据结果表明算法能快速精确地找出相似性查询结果. 展开更多
关键词 相似性查询 时间序列数据库 子序列 lsh 索引
在线阅读 下载PDF
一种新的基于地震波形指纹的特定地区核爆炸事件快速检测方法
5
作者 弓妮 商杰 +5 位作者 唐伟 刘哲函 王海军 黄立洪 韩守诚 江宇 《地球科学》 北大核心 2026年第1期130-145,共16页
核爆炸监测是禁核试核查的关键技术.为监测全球可能发生的核试验,全面禁止核试验条约规定了一套严格的核查机制.其中国际监测系统(International Monitoring System,IMS)的波形数据实时传输至国际数据中心(International Data Centre,I... 核爆炸监测是禁核试核查的关键技术.为监测全球可能发生的核试验,全面禁止核试验条约规定了一套严格的核查机制.其中国际监测系统(International Monitoring System,IMS)的波形数据实时传输至国际数据中心(International Data Centre,IDC)进行处理和分析,分别在大约1 h、4 h和6 h给出三个不同阶段的自动处理结果.对于特定地区的核爆监测,直接依赖IDC结果存在响应滞后和误检率高的问题.本文提出了一种基于地震波形指纹的快速检测方法Seisprint.该方法借鉴音频指纹识别思想,将历史核爆波形作为模板,利用滑动窗口与特征提取将连续波形压缩为多个二进制指纹,通过快速相似性匹配与聚类实现核爆事件自动检测并实时报警.采用朝鲜周边两个IMS地震台站和我国东北地区4个地震台站记录的朝鲜6次地下核试验以及历史天然地震事件数据对Seisprint进行测试.Seisprint生成的指纹可以有效区分核爆与非核爆信号,且具有较强的抗噪性;可在数分钟内完成多个地震台站24小时连续波形数据的处理,实现核爆事件的快速准确检出.结果表明,Seisprint可提高特定地区核爆事件监测的时效性和准确性. 展开更多
关键词 CTBT 核爆炸监测 地震波形指纹 局部敏感哈希 自动处理 地震学
原文传递
基于LSH的中文文本快速检索 被引量:13
6
作者 蔡衡 李舟军 +1 位作者 孙健 李洋 《计算机科学》 CSCD 北大核心 2009年第8期201-204,230,共5页
目前,高维数据的快速检索问题已经受到越来越多的关注。当向量空间的维度高于10时,R-tree,Kd-tree,SR-tree的检索效率反而不如线性检索,而位置敏感的哈希(Locality Sensitive Hashing,缩写为LSH)算法成功地解决了高维近邻数据的快速检... 目前,高维数据的快速检索问题已经受到越来越多的关注。当向量空间的维度高于10时,R-tree,Kd-tree,SR-tree的检索效率反而不如线性检索,而位置敏感的哈希(Locality Sensitive Hashing,缩写为LSH)算法成功地解决了高维近邻数据的快速检索问题,因而受到国内外学术界的高度关注。首先介绍了LSH算法的基本原理和方法,然后使用多重探测的方法对二进制向量的LSH算法做了进一步改进。最后实现了这两种LSH算法,并通过详细的实验验证表明:在改进后的算法中,通过增加偏移量可以提高检索的召回率,而在不提高时间复杂度的情况下则可降低空间复杂度。 展开更多
关键词 高维数据 相似性检索 位置敏感的哈希 近邻 多重探测
在线阅读 下载PDF
基于p-stable LSH的多点地质统计建模算法 被引量:6
7
作者 喻思羽 李少华 +3 位作者 王端平 王军 张以根 于金彪 《石油学报》 EI CAS CSCD 北大核心 2017年第12期1425-1433,共9页
SIMPAT将图像重建思想引进储层地质建模领域,借助于弱化概率的相似性判别指标,用最相似地质模式替换待估点处的数据事件完成预测。当模型较大且数据样式较多时,海量的数据样式相似度计算使得SIMPAT的计算效率较低。为了有效平衡多点地... SIMPAT将图像重建思想引进储层地质建模领域,借助于弱化概率的相似性判别指标,用最相似地质模式替换待估点处的数据事件完成预测。当模型较大且数据样式较多时,海量的数据样式相似度计算使得SIMPAT的计算效率较低。为了有效平衡多点地质统计建模算法效率和内存的矛盾,基于SIMPAT算法,提出基于p-stable局部敏感哈希的多点地质统计建模算法LSHSIM,该方法使用局部敏感哈希将数据样式的特征向量映射到哈希表。建模时从哈希表里取出与数据事件的特征向量具有相同哈希值的数据样式,用最相似的数据样式替换覆盖待估区的数据事件完成建模。利用实例对比新算法与SIMPAT等现有方法的结果表明,LSHSIM算法计算效率高,并节省了内存空间,对算法的关键参数进行了敏感性分析、非条件和条件模拟,能较好再现训练图像的先验地质模式。 展开更多
关键词 储层建模 局部敏感哈希 SIMPAT 多点地质统计学 训练图像
在线阅读 下载PDF
云环境下基于LSH的分布式数据流聚类算法 被引量:3
8
作者 曲武 王莉军 韩晓光 《计算机科学》 CSCD 北大核心 2014年第11期195-202,共8页
近年来,随着计算机技术、信息处理技术在工业生产、信息处理等领域的广泛应用,会连续不断地产生大量随时间演变的序列型数据,构成时间序列数据流,如互联网新闻语料分析、网络入侵检测、股市行情分析和传感器网络数据分析等。实时数据流... 近年来,随着计算机技术、信息处理技术在工业生产、信息处理等领域的广泛应用,会连续不断地产生大量随时间演变的序列型数据,构成时间序列数据流,如互联网新闻语料分析、网络入侵检测、股市行情分析和传感器网络数据分析等。实时数据流聚类分析是当前数据流挖掘研究的热点问题。单遍扫描算法虽然满足数据流高速、数据规模较大和实时分析的需求,但因缺乏有效的聚类算法来识别和区分模式而限制了其有效性和可扩展性。为了解决以上问题,提出云环境下基于LSH的分布式数据流聚类算法DLCStream,通过引入Map-Reduce框架和位置敏感哈希机制,DLCStream算法能够快速找到数据流中的聚类模式。通过详细的理论分析和实验验证表明,与传统的数据流聚类框架CluStream算法相比,DLCStream算法在高效并行处理、可扩展性和聚类结果质量方面更有优势。 展开更多
关键词 数据流聚类 位置敏感哈希方法 Map-Reduce框架 DLCStream算法
在线阅读 下载PDF
基于E^2LSH-MKL的视觉语义概念检测 被引量:3
9
作者 张瑞杰 郭志刚 +1 位作者 李弼程 高毫林 《自动化学报》 EI CSCD 北大核心 2012年第10期1671-1678,共8页
多核学习方法(Multiple kernel learning,MKL)在视觉语义概念检测中有广泛应用,但传统多核学习大都采用线性平稳的核组合方式而无法准确刻画复杂的数据分布.本文将精确欧氏空间位置敏感哈希(Exact Euclidean locality sensitivehashing,... 多核学习方法(Multiple kernel learning,MKL)在视觉语义概念检测中有广泛应用,但传统多核学习大都采用线性平稳的核组合方式而无法准确刻画复杂的数据分布.本文将精确欧氏空间位置敏感哈希(Exact Euclidean locality sensitivehashing,E2LSH)算法用于聚类,结合非线性多核组合方法的优势,提出一种非线性非平稳的多核组合方法-E2LSH-MKL.该方法利用Hadamard内积实现对不同核函数的非线性加权,充分利用了不同核函数之间交互得到的信息;同时利用基于E2LSH哈希原理的聚类算法,先将原始图像数据集哈希聚类为若干图像子集,再根据不同核函数对各图像子集的相对贡献大小赋予各自不同的核权重,从而实现多核的非平稳加权以提高学习器性能;最后,把E2LSH-MKL应用于视觉语义概念检测.在Caltech-256和TRECVID2005数据集上的实验结果表明,新方法性能优于现有的几种多核学习方法. 展开更多
关键词 视觉语义概念 多核学习 精确欧氏空间位置敏感哈希算法 Hadamard内积
在线阅读 下载PDF
基于Multi-probe LSH的菊花花型相似性计算 被引量:2
10
作者 袁培森 翟肇裕 +1 位作者 钱淑韵 徐焕良 《农业机械学报》 EI CAS CSCD 北大核心 2019年第7期208-215,共8页
针对海量高维菊花图像相似性计算带来的挑战,研究了基于多探测局部位置敏感哈希技术的菊花表型相似性计算方法。针对菊花图像,采用SIFT技术提取菊花图像特征,并采用BoVW模型进行建模。由于图像特征的高维性质,海量的菊花表型相似性计算... 针对海量高维菊花图像相似性计算带来的挑战,研究了基于多探测局部位置敏感哈希技术的菊花表型相似性计算方法。针对菊花图像,采用SIFT技术提取菊花图像特征,并采用BoVW模型进行建模。由于图像特征的高维性质,海量的菊花表型相似性计算效率不高,为了提高计算效率,提出采用近似相似性技术中的多探测局部位置敏感哈希技术,用此方法构建菊花图像数据的哈希数据结构,在菊花相似性查询方面提高了计算效率,并确保了计算结果的质量。在菊花数据集上进行了计算效率和查询质量两方面的测试,并与典型的方法进行了试验对比和分析。结果表明,相比线性式扫描,平均查询成功概率达到0.90以上,平均加速比为3.3~19.8。本文方法能够在查询质量和计算效率两方面通过参数设置提供灵活的优化选择,并对参数的选择提供了参考范围,可为海量菊花花型相似性计算提供参考。 展开更多
关键词 菊花 花型 花型相似性 多探测 局部位置敏感哈希
在线阅读 下载PDF
实时红外图像拼接中的LSH快速配准算法 被引量:1
11
作者 王雨曦 亓洪兴 +1 位作者 葛明峰 舒嵘 《激光与红外》 CAS CSCD 北大核心 2015年第8期994-998,共5页
为了提高画幅式摆扫红外遥感图像拼接的实时性,将LSH(locality sensitive hash)算法应用于图像快速配准,比较了常用的基于Hamming距离、欧式距离和余弦距离的三种LSH方案的性能,实验结果表明,基于Hamming距离的LSH方法在红外图像配准中... 为了提高画幅式摆扫红外遥感图像拼接的实时性,将LSH(locality sensitive hash)算法应用于图像快速配准,比较了常用的基于Hamming距离、欧式距离和余弦距离的三种LSH方案的性能,实验结果表明,基于Hamming距离的LSH方法在红外图像配准中具有更好的实时性和准确性。通过对Hamming距离的LSH实现及改进,并利用遥感图像进行了图像配准的性能测试,构建了基于Hamming距离LSH算法的快速拼接系统。 展开更多
关键词 局部敏感哈希 汉明距离 余弦距离 欧氏距离 图像配准
在线阅读 下载PDF
基于弱监督E2LSH和显著图加权的目标分类方法 被引量:3
12
作者 赵永威 李弼程 柯圣财 《电子与信息学报》 EI CSCD 北大核心 2016年第1期38-46,共9页
在目标分类领域,当前主流的目标分类方法是基于视觉词典模型,而时间效率低、视觉单词同义性和歧义性及单词空间信息的缺失等问题严重制约了其分类性能。针对这些问题,该文提出一种基于弱监督的精确位置敏感哈希(E2LSH)和显著图加权的目... 在目标分类领域,当前主流的目标分类方法是基于视觉词典模型,而时间效率低、视觉单词同义性和歧义性及单词空间信息的缺失等问题严重制约了其分类性能。针对这些问题,该文提出一种基于弱监督的精确位置敏感哈希(E2LSH)和显著图加权的目标分类方法。首先,引入E2LSH算法对训练图像集的特征点聚类生成一组视觉词典,并提出一种弱监督策略对E2LSH中哈希函数的选取进行监督,以降低其随机性,提高视觉词典的区分性。然后,利用GBVS(Graph-Based Visual Saliency)显著度检测算法对图像进行显著度检测,并依据单词所处区域的显著度值为其分配权重;最后,利用显著图加权的视觉语言模型完成目标分类。在数据集Caltech-256和Pascal VOC2007上的实验结果表明,所提方法能够较好地提高词典生成效率,提高目标表达的分辨能力,其目标分类性能优于当前主流方法。 展开更多
关键词 目标分类 视觉词典模型 精确位置敏感哈希 视觉显著图 视觉语言模型
在线阅读 下载PDF
基于LSH方法的珊瑚礁鱼类竞争压力查询和资源分配方法 被引量:1
13
作者 赵丹枫 黄洲 +1 位作者 许强 黄冬梅 《热带海洋学报》 CAS CSCD 北大核心 2020年第2期118-126,共9页
基于海洋大数据查询技术的珊瑚礁鱼类保护策略是海洋科学研究的重要课题,其中鱼群竞争状况对鱼类保护具有重要意义。研究鱼群竞争状况就必须模型化鱼群与珊瑚礁的依赖关系。作为一个简单有效的大数据模型,图模型是表达这个关系的实用模... 基于海洋大数据查询技术的珊瑚礁鱼类保护策略是海洋科学研究的重要课题,其中鱼群竞争状况对鱼类保护具有重要意义。研究鱼群竞争状况就必须模型化鱼群与珊瑚礁的依赖关系。作为一个简单有效的大数据模型,图模型是表达这个关系的实用模型。文章提出表达珊瑚礁鱼类种群和珊瑚礁资源依赖关系的竞争图建模方法,并提出基于局部敏感哈希(Local Sensitive Hashing,LSH)的鱼类种群竞争压力竞争图查询方法,得到鱼类种群的实时竞争压力状况;然后根据LSH查询结果,分析出需要优先保护的鱼类种群;最后对这些需要优先保护的鱼类种群设计了基于构建人工礁的资源分配方法,使得区域内珊瑚礁鱼类总体竞争状况改善。 展开更多
关键词 珊瑚礁鱼群 竞争图 局部敏感哈希方法 资源分配 总体竞争状况
在线阅读 下载PDF
基于多模态特征融合的Android恶意软件检测模型研究
14
作者 张志 尹昱凯 +2 位作者 孙奕灵 孟雯锦 彭畅 《计算机工程》 北大核心 2026年第3期243-254,共12页
针对Android恶意软件种类和结构繁杂不一、单一静态特征难以区分良性和恶意软件的问题,在深入研究Android软件的权限、API、字节码、操作码等特征的基础上,提出一种基于多模态特征融合的构建方法。将字节码转换为RGB图像,通过预训练模型... 针对Android恶意软件种类和结构繁杂不一、单一静态特征难以区分良性和恶意软件的问题,在深入研究Android软件的权限、API、字节码、操作码等特征的基础上,提出一种基于多模态特征融合的构建方法。将字节码转换为RGB图像,通过预训练模型EfficientNetV2B3提取字节码图像特征,以表征Android应用的整体特性。利用局部敏感哈希(LSH)算法提取操作码序列特征,以表征Android应用的细节特性。采用多模态分解双线性池化(MFB)融合算法对字节码图像特征和操作码序列特征进行融合,实现2种特征数据的异质互补,以得到更具区分度的静态特征。在此基础上,提出一种基于Transformer的Android恶意软件检测模型(TEAAD)。实验结果表明,基于融合特征的TEAAD模型优于其他深度模型,检测准确率达到96.87%,MFB特征融合方法相较于其他方法具有更高的恶意软件识别能力。 展开更多
关键词 Android恶意软件 预训练模型 局部敏感哈希 特征融合 深度学习
在线阅读 下载PDF
基于近邻参考集与E2LSH加速的姿态敏感器故障检测
15
作者 王婵 王慧泉 +1 位作者 金仲和 杜超禹 《传感技术学报》 CAS CSCD 北大核心 2017年第9期1359-1363,共5页
为满足高维、多状态姿控敏感器遥测数据的实时故障检测,提出了一种基于局部敏感哈希和子空间异常因子的故障检测算法。算法通过局部敏感哈希索引的建立和使用,检测全局故障点;通过子空间异常因子的计算,检测子空间故障点。提出了近似邻... 为满足高维、多状态姿控敏感器遥测数据的实时故障检测,提出了一种基于局部敏感哈希和子空间异常因子的故障检测算法。算法通过局部敏感哈希索引的建立和使用,检测全局故障点;通过子空间异常因子的计算,检测子空间故障点。提出了近似邻近参考集与缓存桶的概念,降低算法的时间复杂度。ZDPS-2卫星的姿控敏感器数据分析结果表明,该方法故障查准率89.3%,查全率100%,且泛化性能优于原始的子空间异常程度算法。该算法解决了原始的子空间异常程度算法实时性低、检测全局故障困难问题,可以满足姿控敏感器实时故障检测需求。 展开更多
关键词 姿态敏感器 故障检测 近邻参考集 局部敏感哈希
在线阅读 下载PDF
基于可编程数据面加速分布式检索系统
16
作者 张鹏豪 《北京大学学报(自然科学版)》 北大核心 2026年第1期57-68,共12页
为提高分布式应用系统的网络性能,提出一种基于可编程数据面的加速分布式检索系统NetDSH。该系统能够优化可编程数据面的存储和数据处理能力,通过自定义协议、Top-K插入方法和T更新策略,高效准确地剔除潜在的低质量候选答案,从而提高网... 为提高分布式应用系统的网络性能,提出一种基于可编程数据面的加速分布式检索系统NetDSH。该系统能够优化可编程数据面的存储和数据处理能力,通过自定义协议、Top-K插入方法和T更新策略,高效准确地剔除潜在的低质量候选答案,从而提高网络传输性能。在搭建的测试平台上,基于4种类型的数据集(SIF1M,SIF1B,SPACE1B和Random)对NetDSH进行评估。结果表明,与传统的基于局部敏感哈希的分布式检索系统TLSH和NetSHa相比,NetDSH可以将传输的数据包数目减少至原来的1/3,同时,系统检索性能得到3.2倍的提升。 展开更多
关键词 可编程数据面 分布式系统 近似最近邻检索 局部敏感哈希算法
在线阅读 下载PDF
基于稀疏矩阵变换和有界随机扰动的K-Means聚类外包方案
17
作者 赵韦 谭静文 +3 位作者 王焕然 韩帅 杨武 赖明珠 《通信学报》 北大核心 2026年第1期74-90,共17页
针对现有K-Means聚类安全外包方案计算和通信开销高,难以满足实际应用对高效率需求的问题,提出一种基于稀疏矩阵变换和有界随机扰动的隐私保护K-Means聚类外包方案。首先,利用Gram-Schmidt正交化构造稀疏密钥矩阵,实现对明文数据的高效... 针对现有K-Means聚类安全外包方案计算和通信开销高,难以满足实际应用对高效率需求的问题,提出一种基于稀疏矩阵变换和有界随机扰动的隐私保护K-Means聚类外包方案。首先,利用Gram-Schmidt正交化构造稀疏密钥矩阵,实现对明文数据的高效正交变换,有效隐藏明文数据的数值特征;其次,引入服从高斯分布的有界随机扰动,保护明文数据点之间的距离信息,增强用户数据的安全性;最后,结合局部敏感哈希设计近似距离估计方法,在保证聚类准确的前提下降低外包方案的计算开销。理论分析表明,所提方案实现了正确性、安全性和高效性的设计目标。在多个真实数据集上的实验结果表明,相较于现有基于同态加密的K-Means聚类外包方案,所提方案在保持聚类准确的同时,显著降低了计算与通信开销。 展开更多
关键词 K-MEANS聚类 矩阵变换 随机扰动 局部敏感哈希 外包计算 隐私保护
在线阅读 下载PDF
M2LSH:基于LSH的高维数据近似最近邻查找算法 被引量:5
18
作者 李灿 钱江波 +1 位作者 董一鸿 陈华辉 《电子学报》 EI CAS CSCD 北大核心 2017年第6期1431-1442,共12页
在许多应用中,LSH(Locality Sensitive Hashing)以及各种变体,是解决近似最近邻问题的有效算法之一.虽然这些算法能够很好地处理分布比较均匀的高维数据,但从设计方案来看,都没有针对数据分布不均匀的情况做相应的优化.针对这一问题,本... 在许多应用中,LSH(Locality Sensitive Hashing)以及各种变体,是解决近似最近邻问题的有效算法之一.虽然这些算法能够很好地处理分布比较均匀的高维数据,但从设计方案来看,都没有针对数据分布不均匀的情况做相应的优化.针对这一问题,本文提出了一种新的基于LSH的解决方案(M2LSH,2 Layers Merging LSH),对于数据分布不均匀的情况依然能得到一个比较好的查询效果.首先,将数据存放到具有计数功能的组合哈希向量表示的哈希桶中,然后通过二次哈希将这些桶号投影到一维空间,在此空间根据各个桶中存放的数据个数合并相邻哈希桶,使得新哈希桶中的数据量能够大致均衡.查询时仅访问有限个哈希桶,就能找到较优结果.本文给出了详细的理论分析,并通过实验验证了M2LSH的性能,不仅能减少访问时间,也可提高结果的正确率. 展开更多
关键词 近似最近邻 KNN查询 局部敏感哈希 高维数据
在线阅读 下载PDF
基于LSH的隐私保护POI推荐算法 被引量:4
19
作者 沈鑫娣 翟东君 +1 位作者 张得天 刘安 《计算机工程》 CAS CSCD 北大核心 2019年第1期96-102,共7页
基于位置的社交网络利用用户的签到数据进行兴趣点(POI)推荐,但是出于对数据隐私的考虑,各种社交平台之间不愿意直接共享数据。为综合各个社交平台的数据从而提供更好的POI推荐服务,提出一种基于局部敏感哈希(LSH)的隐私保护POI推荐算... 基于位置的社交网络利用用户的签到数据进行兴趣点(POI)推荐,但是出于对数据隐私的考虑,各种社交平台之间不愿意直接共享数据。为综合各个社交平台的数据从而提供更好的POI推荐服务,提出一种基于局部敏感哈希(LSH)的隐私保护POI推荐算法。通过LSH选取相似用户集合,极大地减少计算量,满足用户的快速响应需求。利用LSH和Paillier同态加密技术,在计算过程中保护数据隐私不被泄露。真实数据集上的实验结果表明,在响应时间和预测准确度上,该算法优于传统基于用户的协同过滤推荐算法。 展开更多
关键词 局部敏感哈希 隐私保护 推荐算法 兴趣点 同态加密
在线阅读 下载PDF
一种基于LSH的时间子序列匹配查询算法 被引量:1
20
作者 刘根平 陈叶芳 +1 位作者 杜呈透 钱江波 《电信科学》 北大核心 2015年第8期63-71,共9页
提出了一种基于LSH(locality sensitive hashing,局部敏感散列)算法处理时间子序列匹配问题的方法LSHSM。不同于FRM和Dual Match方法 ,该方法不需要对时间序列做DFT、DWT等特征变换,而是直接把序列看成高维数据点,利用LSH能处理高维数... 提出了一种基于LSH(locality sensitive hashing,局部敏感散列)算法处理时间子序列匹配问题的方法LSHSM。不同于FRM和Dual Match方法 ,该方法不需要对时间序列做DFT、DWT等特征变换,而是直接把序列看成高维数据点,利用LSH能处理高维数据的特性来查找相似时间子序列。实验采用3种不同的时间序列数据集,通过与线性扫描算法比较,验证了算法的有效性,性能有很大的提高。 展开更多
关键词 时间子序列 lsh 匹配查询
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部