基于改进随机森林的海量高维数据最近邻检索被引量：3

Nearest Neighbor Retrieval of Massive High-dimensional Data Based on Improved Random Forest

下载PDF

导出

摘要针对高维大样本数据分类的不足,导致传统海量高维数据最近邻检索存在的召回率低和开销大的问题,提出基于改进随机森林的海量高维数据最近邻检索。收集高维数据并利用局部线性嵌入法对数据进行降维处理。创建最近邻检索索引,利用改进随机森林算法确定高维数据类型,实现海量高维数据最近邻检索。为了测试设计最近邻检索的功能,设计对比实验,经过与传统检索方法的对比得出结论:设计的最近邻检索平均召回率提升了1.2%,内存开销和时间开销均有所降低。 In order to solve the problems of low recall rate and high cost in the traditional nearest neighbor retrieval of massive high-dimen-sional data due to the lack of classification of high-dimensional and large sample data,an improved random forest based nearest neighbor retrieval of massive high-dimensional data is proposed.High-dimensional data is collected and dimensionality reduction is carried out by local linear embedding method.The nearest neighbor retrieval index is created,and the high-dimensional data type is determined by the improved random forest algorithm,and the nearest neighbor retrieval of massive high-dimensional data is realized.In order to test the function of the designed nearest neighbor retrieval,a comparative experiment is designed.By com-paring with the traditional retrieval method,the conclusion is drawn that the average recall rate of the designed nearest neighbor retrieval is increased by 1.2%,and both memory and time cost are reduced.

作者孙昊 SUN Hao(Urumqi Vocational University,Urumqi 830002 China)

机构地区乌鲁木齐职业大学

出处《自动化技术与应用》 2022年第11期73-76,共4页 Techniques of Automation and Applications

基金乌鲁木齐职业大学2019年度校级重点科研项目(2018XZ001)。

关键词改进随机森林算法海量高维数据数据检索最近邻检索 improved random forest algorithm massive high-dimensional data data retrieval nearest neighbor retrieval

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1邓理睿,包涵,陈靓,全成斌,赵有健.高维空间近邻检索的双层组合量化GPU加速算法[J].小型微型计算机系统,2019,40(2):390-394. 被引量：5
2钱江波,胡伟,陈华辉,董一鸿.基于学习型哈希的在线近邻查找算法[J].控制与决策,2019,34(12):2567-2575. 被引量：4
3刘淑伟,陈威,赵伟,陈进才,卢萍.基于簇内乘积量化的最近邻检索方法[J].计算机学报,2020,43(2):303-314. 被引量：6
4黄开启,刘小荣,黄茂云.基于改进YOLOv3的小目标检测方法研究[J].传感器与微系统,2022,41(4):52-55. 被引量：14
5张楚涵,张家侨,冯剑琳.AKNN-Qalsh:PostgreSQL系统高维空间近似最近邻检索插件[J].中山大学学报（自然科学版）,2019,58(3):79-85. 被引量：2
6刘润涛,梁建创.基于新型索引结构的反最近邻查询[J].计算机研究与发展,2020,57(6):1335-1346. 被引量：8
7杨冠仪,於志勇,郭文忠,黄昉菀.基于稀疏表示的时间序列最近邻分类[J].福州大学学报（自然科学版）,2020,48(2):152-159. 被引量：3
8翁丽贞.基于共享模式的物流集装箱空箱利用率问题研究[J].森林工程,2021,37(2):117-122. 被引量：5
9梁萌.基于数据拟合的城市轨道交通客流量时间序列模型优化分析[J].自动化技术与应用,2021,40(11):183-186. 被引量：5
10田浩楠,周晖.基于BSO-OS算法的两阶高维数据特征选择[J].计算机工程与设计,2020,41(3):695-700. 被引量：4

二级参考文献43

1郝忠孝,刘永山.空间对象的反最近邻查询[J].计算机科学,2005,32(11):115-118. 被引量：12
2李松,郝忠孝.移动对象的动态反向最近邻查询技术[J].计算机工程,2008,34(10):40-42. 被引量：17
3赵道致,黄健.基于海陆运整体成本的集装箱空箱调运优化研究[J].北京交通大学学报（社会科学版）,2008,7(4):48-52. 被引量：14
4王淼,郝忠孝.基于Delaunay图的反向最近邻查询[J].计算机工程,2010,36(5):59-61. 被引量：5
5刘润涛,郝忠孝.基于多序的空间数据索引结构——MOIS-树[J].计算机研究与发展,2010,47(5):849-857. 被引量：2
6曾庆成,杨忠振,陈超.Robust Optimization Model for Resource Allocation of Container Shipping Lines[J].Tsinghua Science and Technology,2010,15(5):586-594. 被引量：4
7杨洋.基于班轮公司合作的海运空箱调运优化模型[J].上海交通大学学报,2011,45(1):120-124. 被引量：19
8王斌.集装箱码头运营商的类别及特点[J].集装箱化,2011,22(11):17-18. 被引量：2
9张建朋,陈福才,李邵梅,刘力雄.基于密度与近邻传播的数据流聚类算法[J].自动化学报,2014,40(2):277-288. 被引量：28
10喻金平,郑杰,梅宏标.基于改进人工蜂群算法的K均值聚类算法[J].计算机应用,2014,34(4):1065-1069. 被引量：50

共引文献45

1尹刚,汪涛.基于GPU的天基预警雷达信号自适应检测仿真[J].计算机仿真,2020,37(6):8-12.
2苗昕存,刘乃丽.标准图像比对技术在线上监考系统中的应用研究[J].信息与电脑,2021,33(2):87-89. 被引量：2
3郭一村,陈华辉.在线哈希算法研究综述[J].计算机应用,2021,41(4):1106-1112. 被引量：5
4宋涛,曹利波,赵明富,刘帅,罗宇航,杨鑫.三维点云中关键点的配准与优化算法[J].激光与光电子学进展,2021,58(4):367-375. 被引量：19
5杨海亮.基于安全散列算法的电子数据存证方法设计[J].电子设计工程,2021,29(13):104-108.
6孟祥福,王丹丹,张峰.空间关键字查询综述[J].计算机工程与应用,2021,57(20):13-24. 被引量：4
7周永英.基于改进K-SVD的英文语料库分词特征提取模型构建[J].自动化技术与应用,2021,40(11):127-130. 被引量：2
8孙丽萍,崔哲魁.我国木结构建筑产业发展的SWOT分析[J].林业机械与木工设备,2021,49(11):66-69. 被引量：3
9李盼盼,赵浩,林慧恩.基于相似树查询的隐私大数据定向检索算法[J].计算机仿真,2021,38(11):429-432. 被引量：3
10王海燕,鲁岳,刘新雨.基于时间序列的气象要素日变化进程数值模拟研究[J].自动化技术与应用,2022,41(2):33-37.

同被引文献35

1吴丹,樊舒,李秀园.中国情境下图书馆学研究方法的识别、分类及应用[J].中国图书馆学报,2021,47(5):33-47. 被引量：17
2杨月.数字图书馆交互式信息分类检索模型设计[J].科技通报,2021,37(12):112-116. 被引量：3
3钟坤华,陈芋文,秦小林.基于子网融合的贝叶斯网络结构学习算法[J].计算机科学,2022,49(S02):64-70. 被引量：7
4王雪冬,张超彪,王翠,朱永东,王海鹏.基于Logistic回归与随机森林的和龙市地质灾害易发性评价[J].吉林大学学报（地球科学版）,2022,52(6):1957-1970. 被引量：46
5王月.基于TRS信息检索的文献资源均衡配置算法设计[J].计算机仿真,2020,37(12):440-444. 被引量：2
6刘路.智慧图书馆读者人群识别分类方法[J].四川图书馆学报,2021(1):45-47. 被引量：5
7赵会群,曲艺.面向组合投资预测的大数据生成算法[J].计算机工程与设计,2021,42(2):388-395. 被引量：1
8华一雄,张执南.基于文本相似度和入出比的改进PageRank科研文献搜索方法[J].机械设计与研究,2021,37(1):6-9. 被引量：9
9孔洁.基于深度学习与《中国图书馆分类法》的文献自动分类系统研究[J].新世纪图书馆,2021(5):51-56. 被引量：10
10焦隆,徐慧铭,程海.基于深度监督的跨模态图文检索方法研究[J].黑龙江大学自然科学学报,2021,38(2):246-252. 被引量：1

引证文献3

1李小燕,员立亭.基于随机森林算法的图书馆文献自动分类方法研究[J].自动化与仪器仪表,2023(8):205-208. 被引量：1
2王瑞,李爽.考虑用户行为的图书馆文献个性化检索算法设计[J].自动化技术与应用,2024,43(11):128-131. 被引量：2
3孙琳,金玉琴,王天一.基于贝叶斯网络的图书馆文献精准检索算法[J].自动化技术与应用,2025,44(4):57-60. 被引量：1

二级引证文献3

1赵莹.图书馆算法治理的价值、内涵与实现机制[J].图书馆工作与研究,2024(9):17-25. 被引量：1
2刘方林,张怡然.基于文化自信的中国品牌视觉资源库建构及App设计研究[J].天工,2025(5):66-68.
3冯志伟.计算机文献检索平台研究[J].新潮电子,2025(17):190-192.

自动化技术与应用

2022年第11期

浏览历史

内容加载中请稍等...

基于改进随机森林的海量高维数据最近邻检索被引量：3

参考文献10

二级参考文献43

共引文献45

同被引文献35

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于改进随机森林的海量高维数据最近邻检索 被引量：3

参考文献10

二级参考文献43

共引文献45

同被引文献35

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于改进随机森林的海量高维数据最近邻检索被引量：3