使用分类器自动发现特定领域的深度网入口(英文) 被引量：14

Using Classifiers to Find Domain-Specific Online Databases Automatically

下载PDF

导出

摘要在深度网研究领域,通用搜索引擎(比如Google和Yahoo)具有许多不足之处:它们各自所能覆盖的数据量与整个深度网数据总量的比值小于1/3;与表层网中的情况不同,几个搜索引擎相结合所能覆盖的数据量基本没有发生变化.许多深度网站点能够提供大量高质量的信息,并且,深度网正在逐渐成为一个最重要的信息资源.提出了一个三分类器的框架,用于自动识别特定领域的深度网入口.查询接口得到以后,可以将它们进行集成,然后将一个统一的接口提交给用户以方便他们查询信息.通过8组大规模的实验,验证了所提出的方法可以准确高效地发现特定领域的深度网入口. In hidden Web domain, general-purpose shortcomings. They cover less than one-third of the data combined, they cover roughly the same data. Hidden Web search engines （i.e., Google and Yahoo） have their stored in document databases. Unlike the surface Web, if is a highly important information source since the content provided by many hidden Web sites is often of very high quality. This paper proposes a three-step framework to automatically identify domain-specific hidden Web entries. With those obtained query interfaces, they can be integrated to obtain a unified interface which is given to users to query. Eight large-scale experiments demonstrate that the technique can find domain-specific hidden Web entries accurately and efficiently.

作者王辉刘艳威左万利

机构地区吉林大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2008年第2期246-256,共11页 Journal of Software

基金 Supported by the National Natural Science Foundation of China under Grant No.60373099 (国家自然科学基金) the Science and Technology Development Program of Jilin Province of China under Grant No.20070533 (吉林省科技发展计划)

关键词深度网深度网表层网深度网入口搜索表单 deep Web hidden Web surface Web hidden Web entry searchable form

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献26

1Rocco D, Caverlee J, Liu L, Critchlow T. Exploiting the deep Web with DynaBot: Matching, probing, and ranking. In: Ellis A, Hagino T, eds. Proc. of the World Wide Web Special Interest Tracks And Posters (WWW). Chiba: ACM, 2005. 1174-1175.
2BrightPlanet.com. The deep Web: Surfacing hidden value, http://brightplanet.com
3Bergman MK. The deep Web: Surfacing hidden value. Journal of Electronic Publishing, 2001,7(1): 1174-1175. http://www.press. umich.edu/jep/07-01/bergman.html
4He B, Zhang Z, Chang KCC. Knocking the door to the deep Web: Integrating Web query interfaces. In: Weikum G, ed. Proc. of the SIGMOD Conf. Paris: ACM, 2004. 913-914.
5Chang KCC, He B, Zhang Z. MetaQuerier over the deep Web: Shallow integration across holistic sources. In: Nascimento MA, Ozsu MT, Kossmann D, Miller RJ, Blakeley JA, Schiefer KB, eds. Proc. of the Int'l Conf. on Very Large Data Bases (VLDB). Morgan Kaufmann Publishers, 2004. 15-21.
6Wu W, Doan A, Yu CT. Merging interface schemas on the deep Web via clustering aggregation. In: Proc. of the Int'l Conf. on Data Mining (ICDM). IEEE Computer Society, 2005. 801-804.
7He H, Meng WY, Yu CT, Wu ZH. WISE-Integrator: A system for extracting and integrating complex Web search interfaces of the deep Web. In: Bohm K, Jensen CS, Haas LM, Kersten ML, Larson PA, Ooi BC, eds. Proc. of the Int'l Conf. on Very Large Data Bases (VLDB). ACM, 2005. 1314-1317.
8Chang KCC, Garcia-Molina H. Mind your vocabulary: Query mapping across heterogeneous information sources. In: Dells A, Faloutsos C, Ghandeharizadeh S, eds. Proc. of the SIGMOD Conf. Philadelphia: ACM Press, 1999. 335-346.
9He B, Zhang Z, Chang KCC. MetaQuerier: Querying structured Web sources on-the-fly. In: Ozcan F, ed. Proc. of the SIGMOD Conf. ACM, 2005. 927-929.
10Nakatoh T, Yamada Y, Hirokawa S. Automatic generation of deep Web wrappers based on discovery of repetition. In: Proc. of the Asia Information Retrieval Symp. (AIRS). Beijing: Springer-Verlag, 2004. 269-272.

同被引文献171

1孙晨.利用机器学习技术获取WEB页面中的匹配数[J].中国科教创新导刊,2007(23):187-189. 被引量：1
2王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
3黄晓冬.Invisible Web研究综述[J].情报科学,2004,22(9):1144-1148. 被引量：19
4朱靖波,陈文亮.基于领域知识的文本分类[J].东北大学学报（自然科学版）,2005,26(8):733-735. 被引量：14
5罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：56
6周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
7LIU Wei,LI Xian,LING Yanyan,ZHANG Xiaoyu,MENG Xiaofeng.A Deep Web Data Integration System for Job Search[J].Wuhan University Journal of Natural Sciences,2006,11(5):1197-1201. 被引量：6
8高岭,赵朋朋,崔志明.Deep Web查询接口的自动判定[J].计算机技术与发展,2007,17(5):148-151. 被引量：13
9Davison B D. Topical locality in the Web [C] //Proc of SIGIR. New York: ACM, 2000:272-279
10Hofmann T. Probabilistic latent semantic analysis[C]//Proc of the 15th Conf on Uncertainty in Artificial Intelligence. New York: ACM, 1999:289-296

引证文献14

1王辉,左万利,王晖昱,宁爱军,孙志伟,满春雷.基于质心向量的增量式主题爬行[J].计算机研究与发展,2009,46(2):217-224. 被引量：4
2高明,黄哲学.Deep Web研究现状与展望[J].集成技术,2012,1(3):47-54. 被引量：1
3崔晓军,彭智勇,杨先娣,张莹.Deep Web信息按需集成研究综述[J].武汉大学学报（理学版）,2009,55(4):465-472. 被引量：2
4陆余良,房珊瑶,刘金红,施凡.Deep Web站点分类研究进展[J].安徽大学学报（自然科学版）,2010,34(1):103-108. 被引量：1
5杨丽华,袁方,姚增利,王煜.基于启发式规则的Deep Web接口发现[J].河北大学学报（自然科学版）,2010,30(1):107-112. 被引量：1
6陈文,晏立,周亮.一种具有增量学习能力的PU主动学习算法[J].计算机工程,2011,37(4):214-215. 被引量：1
7王彩霞,高明.Deep Web查询接口及其识别算法[J].电脑知识与技术,2011,7(8):5422-5424.
8吴春明,谢德体.一种有效的深网入口识别方法[J].计算机科学,2011,38(10):199-201.
9张会福,周亚平.基于事件驱动的车型参数主题爬虫[J].计算机系统应用,2011,20(10):198-201.
10李道申,刘勇.基于本体的DeepWeb数据源发现方法[J].计算机工程,2012,38(4):52-54. 被引量：1

二级引证文献18

1黄健斌,孙鹤立.基于链接路径预测的聚焦Web实体搜索[J].计算机研究与发展,2010,47(12):2059-2066. 被引量：1
2张乃洲,李石君,余伟,张卓.使用联合链接相似度评估爬取Web资源[J].计算机学报,2010,33(12):2267-2280. 被引量：6
3崔晓军,肖红宇,丁立新.基于距离的自适应Web数据库记录匹配方法[J].武汉大学学报（理学版）,2012,58(1):89-94. 被引量：5
4姚双良.基于主题的Deep Web聚焦爬虫研究与设计[J].西北师范大学学报（自然科学版）,2013,49(2):40-43. 被引量：2
5张付志,杜宝瑞.面向OA期刊站点的论文资源发现方法[J].情报学报,2013,32(5):497-502.
6张永,吴崇正.基于词频差异特征选取的Context Graph算法改进[J].计算机工程与应用,2014,50(10):141-146. 被引量：1
7王小林,镇丽华,杨思春,邰伟鹏,郑啸.基于增量式贝叶斯模型的中文问句分类研究[J].计算机工程,2014,40(9):238-242. 被引量：8
8赵永霄,哈力旦.阿布都热依木,张振东.面向增量同生主题的维吾尔文爬虫的研究[J].计算机应用研究,2014,31(11):3269-3272. 被引量：1
9谷俊,翁佳,许鑫.面向情报获取的主题采集工具设计与实现[J].图书情报工作,2014,58(20):91-99. 被引量：2
10马永军,杨海波.一种融合本体和最小二乘支持向量机的主题爬行方法[J].天津科技大学学报,2015,30(3):72-77. 被引量：2

1蒋秀才,穆斌.基于双配置文件的深度网搜索[J].计算机应用研究,2008,25(12):3621-3623.
2杨府学,余建桥.深度网查询接口的模式匹配[J].微计算机信息,2010,26(33):102-103.
3郑淑丽,韩江洪,程文娟,吴永忠.Deep Web查询接口自动识别方法[J].郑州大学学报（理学版）,2009,41(1):56-58. 被引量：1
4杨宏伟,马永征,钱芳.一种深度网络数据库集成技术研究[J].科研信息化技术与应用,2009(1):26-31.
5tlHelen.编写BHO截获并替换百度、谷歌搜索表单[J].黑客防线,2009(1):41-46.
6陈丽君.深层网网络爬虫表单检测器设计[J].科技资讯,2009,7(16):21-21.
7赵海霞,李道申,刘勇,赵嘉诚.一种Deep Web查询结果的实体抽取方法[J].计算机工程与应用,2012,48(36):160-163. 被引量：4
8梁浩,左万利,任斐,赫枫龄.基于本体实例信息的深度网表单属性自动抽取[J].小型微型计算机系统,2009,30(5):883-886.
9刘怡光,易守林,吴鹏飞,崔鹏.一种新的大场景3维重建算法[J].四川大学学报（工程科学版）,2015,47(6):91-96. 被引量：7
10林培光,吕超.领域Web数据库查询接口的自动发现[J].江西师范大学学报（自然科学版）,2008,32(2):197-200.

软件学报

2008年第2期

浏览历史

内容加载中请稍等...

使用分类器自动发现特定领域的深度网入口(英文) 被引量：14

参考文献26

同被引文献171

引证文献14

二级引证文献18

相关作者

相关机构

相关主题

浏览历史