期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Counting Bloom Filter的海量网页快速去重研究 被引量:1
1
作者 吴家奇 刘年国 +2 位作者 李雪 谢翔 王涛 《电力大数据》 2018年第12期37-42,共6页
网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,可以有效地减少检索和存储的压力。其中基于同源网页的URL去重方法、基于网页结构和特征的抽取指纹方法和基于网页内容的聚类方法的研... 网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,可以有效地减少检索和存储的压力。其中基于同源网页的URL去重方法、基于网页结构和特征的抽取指纹方法和基于网页内容的聚类方法的研究都已经取得了很大的发展,但是针对海量网页去重问题,上述三种方法,目前还是很难解决网页去重的时间和空间问题,本文在基于MD5指纹库网页去重算法的基础上,结合Counting Bloom filter算法的特性,提出一个节省空间的大规模数据表示和快速去重策略,实现了一种快速去重算法IMP-CM Filter,大大降低了网页去重算法的时间复杂度和空间复杂度。该算法通过减少I/0频繁操作,来提高海量网页去重的效率。最后通过实验表明,IMP-CM Filter算法的有效性。 展开更多
关键词 网页去重 MD5指纹库 COUNTING BLOOM filter imp-cm Filter算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部