SCBT-index:基于谱编码的子图索引算法被引量：1

SCBT-index:Subgraph Indexing Algorithm Based on Spectral Coding

下载PDF

导出

摘要随着图模型规模的扩大,单机算法难以适应大规模数据集下的子图查询.而现有的分布式算法基于无索引的简单遍历,join过程容易出现内存溢出,而且查询图分布异常时易出现负载不均衡.提出了一种基于谱编码的二叉索引树(SCBT-index),首先对数据图中的顶点谱编码,根据编码信息构建二叉索引树.然后对查询图使用最小查询计划进行分解,最后join过程使用3个剪枝策略:基于拓扑结构的预剪枝、序列化join和基于分布式下的join优化.实验结果表明,SCBT-index在图集下的综合性能优于现有主流算法,单图下的查询时间为现有算法的1/2到1/4. With the expansion of graph scale,single-machine algorithms can hardly adapt to the sub-graph queries in large-scale data sets.As existing distributed algorithms are based on simple traversal without index,the join process is prone to memory overflow in the distributed algorithms and load imbalance occurs when the query graph distribution is abnormal.Therefore,a binary index tree based on spectral coding named SCBT-index is proposed.Firstly,for vertex spectrum coding in the data graph,a binary index tree is constructed according to the coding information.Then,the query graph is decomposed using the minimum query plan.Finally,three pruning strategies are used in the join process:structure matching based on topological structure,serialized join and the distributed join optimization.The experimental results show the comprehensive performance of SCBT-index under the graph set is better than that of the popular algorithms.In addition,the query time under the single graph is 1/2 to 1/4 of that of the existing algorithms.

作者施炜杰董一鸿钱江波陈华辉辛宇 SHI Wei-jie;DONG Yi-hong;QIAN Jiang-bo;CHEN Hua-hui;XIN Yu(Faculty of Electrical Engineering and Computer Science,Ningbo University,Ningbo,Zhejiang 315211,China)

机构地区宁波大学信息科学与工程学院

出处《电子学报》 EI CAS CSCD 北大核心 2020年第1期110-117,共8页 Acta Electronica Sinica

基金国家自然科学基金(No.61572266,No.61602133) 浙江省自然科学基金(No.LY20F020009,No.LZ20F020001)

关键词谱编码 GINI系数子图查询子图索引 spectral coding Gini subgraph query subgraph index

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1严玉良,董一鸿,何贤芒,汪卫.FSMBUS:一种基于Spark的大规模频繁子图挖掘算法[J].计算机研究与发展,2015,52(8):1768-1783. 被引量：21

二级参考文献28

1汪卫,周皓峰,袁晴晴,楼宇波,施伯乐.基于图论的频繁模式挖掘[J].计算机研究与发展,2005,42(2):230-235. 被引量：17
2李先通,李建中,高宏.一种高效频繁子图挖掘算法[J].软件学报,2007,18(10):2469-2480. 被引量：34
3Borgelt C, Berthold M R, Patterson D E. Molecular fragment mining for drug discovery [G] //Symbolic and Quantitative Approaches to Reasoning with Uncertainty. Berlin: Springer, 2005 : 1002-1013.
4Guralnik V, Karypis G. A scalable algorithm for clustering sequential data [C] //Proc of the 1st IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE, 2001:179-186.
5Yan X, Yu P S, Han J. Graph indexing: A frequent structure-based approach [C] //Proc of the 17th ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2004: 335-346.
6Liu Y, Jiang X, Chen H, et al. Mapreduce-based pattern finding algorithm applied in motif detection for prescription compatibility network [G] //Advanced Parallel Processing Technologies. Berlin: Springer, 2009: 341-355.
7Shahrivari S, Jalili S. Distributed discovery of /requent subgraphs of a network using MapReduce [OL]. [2015-03- 25]. http://link, springer, corn/article/10. 1007/s00607-015 0446 9.
8Elseidy M, Abdelhamid E, Skiadopoulos S, et al. GRAMI: Frequent subgraph and pattern mining in a single large graph [C] //Proc of the 40th Int Conf on Very Large Data Bases. Berlin: Springer, 2014:517-528.
9Bhuiyan M A, A1 Hasan M. An iterative MapReduce based frequent subgraph mining algorithm [J]. IEEE Trans on Knowledge and Data Engineering, 2013, 27(3): 608-620.
10Lu W, Chen G, Tung A K H, et al. Efficiently extracting frequent subgraphs using mapreduce [C] //Proc of the 1st IEEE Int Conf on Big Data. Piscataway, NJ: IEEE, 2013: 639-647.

共引文献20

1岑凯伦,于红岩,杨腾霄.大数据下基于Spark的电商实时推荐系统的设计与实现[J].现代计算机,2016,22(16):61-69. 被引量：22
2王丽娜,余荣威,付楠,鞠瑞,徐鹏志.基于大数据分析的APT防御方法[J].信息安全研究,2015,1(3):230-237. 被引量：8
3杨枢,邱昱炎,石波.区域心电监护物联网云计算平台关键技术研究[J].中国医疗器械杂志,2016,40(5):341-343. 被引量：2
4廖彬,张陶,于炯,国冰磊,刘继.基于二维划分的杰卡德相似系数批量计算效率优化[J].计算机科学,2017,44(1):219-225. 被引量：2
5郑诗敏,秦小麟,刘亮,周倩.云环境下的突发关键字查询算法[J].计算机科学,2017,44(3):10-15.
6黄林昊,郭昆.基于并行决策树的微博互动数预测[J].福建工程学院学报,2017,15(3):294-300.
7张鹏,段磊,秦攀,左劼,唐常杰,元昌安,彭舰.基于Spark的Top-k对比序列模式挖掘[J].计算机研究与发展,2017,54(7):1452-1464. 被引量：7
8李龙洋,董一鸿,严玉良,陈华辉,钱江波.Spark环境下基于频繁边的大规模单图采样算法[J].计算机研究与发展,2017,54(9):1966-1978. 被引量：3
9崔景洋.图数据挖掘研究[J].太原师范学院学报（自然科学版）,2018,17(1):38-40. 被引量：3
10张陶,于炯,廖彬,国冰磊,卞琛,王跃飞,刘炎.基于GraphX的传球网络构建及分析研究[J].计算机研究与发展,2016,53(12):2729-2752. 被引量：9

同被引文献18

1李丞曜,夏登友,臧娜,胡人元.基于案例推理的危险化学品运输事故辅助决策方法[J].消防科学与技术,2019,38(5):703-706. 被引量：10
2杜涛.多用户网络高风险连锁故障区域预警方法仿真[J].计算机仿真,2019,36(7):328-330. 被引量：3
3邓丹苹,秦小麟,李博涵,郑伟,刘亮,李雪.一种基于改进网格多维TTI索引的动态Top-k查询算法[J].计算机学报,2019,42(8):1827-1844. 被引量：2
4陈伟伟,吕盼,纪凤坤,边家瑜,任娟,吴伟丽.基于多维度检测与Petri网的变电站接地故障风险评估[J].电力系统保护与控制,2019,47(23):152-159. 被引量：22
5钱晓明,王鑫豪,楼佩煌.基于聚类与改进最小二乘法支持向量机算法的汽车总装输送装备故障预警方法[J].计算机集成制造系统,2019,25(12):3220-3225. 被引量：8
6赵慧慧,赵凡,陈仁海,冯志勇.基于地理空间大数据的高效索引与检索算法[J].计算机研究与发展,2020,57(2):333-345. 被引量：26
7郑耿峰.基于直觉模糊层次分析的特种设备事故应急预案评价[J].计算机科学,2020,47(S01):616-621. 被引量：11
8马波,苏方健,赵祎,蔡伟东.基于无限学生t混合模型聚类的机械故障预警方法[J].北京化工大学学报（自然科学版）,2020,47(4):74-80. 被引量：9
9李刚,仇晨光,曹帅,郑建勇,周卫庆.基于稳健状态估计的设备状态预警研究[J].热力发电,2020,49(11):1-7. 被引量：10
10刘慧舟,胡瑾秋,张来斌,张彪.基于红外热成像与CNN的压裂装备故障精准识别及预警[J].中国石油大学学报（自然科学版）,2021,45(1):158-166. 被引量：18

引证文献1

1李鹏,林显,曾旭川.基于智能索引算法的集控设备事故辅助预警方法研究[J].电子设计工程,2024,32(5):131-135.

1程结晶,李秀霞.基于Gini系数的学术期刊关键词聚散度分析[J].信息资源管理学报,2019,9(4):31-36. 被引量：1
2陈彦光.空间和规模分布差异的组间不均衡指数[J].北京大学学报（自然科学版）,2019,55(6):1097-1102. 被引量：3
3孙小虎,宋慧娟,代安琪,许刚.基于预测的输变电工程元数据分级索引算法[J].计算机工程与设计,2019,40(11):3192-3199. 被引量：6
4刘文杰,刘文龙.基于桌面式眼动仪的高校人因工程教学案例设计[J].中国多媒体与网络教学学报（电子版）,2019(1S):12-14. 被引量：2
5蒋锋.AVC、NCS系统运行可靠性及稳定性优化[J].中小企业管理与科技,2019,0(32):176-177. 被引量：1
6饶佳冬,赵绿草.JavaScript的内存溢出与内存泄漏[J].锋绘,2019,0(11):153-153.
7无.化工大数据图说甲醇[J].广州化工,2020,48(1):13-13. 被引量：2
8王旭,张幸,赵文仓.基于改进群组归一化的目标检测与实例分割[J].青岛科技大学学报（自然科学版）,2019,40(6):99-105. 被引量：2
9章华静.探究高中政治“活动型学科课程”的教学设计——以“中国共产党领导的多党合作和政治协商制度”为例[J].中学课程辅导（上旬刊）,2019(24):101-102. 被引量：1
10盛琴凤.“我悦读我最美”——课程视野下儿童课外阅读能力的培养[J].小学教学研究,2019(31):37-39.

电子学报

2020年第1期

浏览历史

内容加载中请稍等...

SCBT-index:基于谱编码的子图索引算法被引量：1

参考文献1

二级参考文献28

共引文献20

同被引文献18

引证文献1

相关作者

相关机构

相关主题

浏览历史

SCBT-index:基于谱编码的子图索引算法 被引量：1

参考文献1

二级参考文献28

共引文献20

同被引文献18

引证文献1

相关作者

相关机构

相关主题

浏览历史

SCBT-index:基于谱编码的子图索引算法被引量：1