基于B2B垂直搜索的网页信息抽取系统研究

Research on System of Web Information Extraction Based on B2B Vertical Search Engine

下载PDF

导出

摘要为了解决从网页中准确抽取产品信息这一B2B垂直搜索引擎的关键问题,以站点树为模型,首先分析了企业网站的结构特征,在此基础上构建了一个面向B2B垂直搜索引擎的网页信息抽取系统。该系统利用站点树在企业站点大量网页中识别出产品页,并进行去噪处理,然后使用基于规则的方法抽取产品页中包含的产品描述信息和参数信息。通过该系统抽取到的各类产品信息较为准确,且效率得到明显提高,适用于B2B垂直搜索引擎中对产品的描述、分类及搜索。 To solve the problem of information extraction on web pages, which is one of the key technologies of B2B vertical search en- gine,taking website as model, structure of the corporation website is analyzed firstly,based on which a system of web information extrac- tion for B2B vertical search engine is constructed. The website tree is used in the system for identification and noise elimination of the product pages, and then description and parameter information of the products contained in product pages are extracted according to the rules. All kinds of information extracted accurately and efficiently by the system can be used for description, classification and searching of the products in B2B vertical search engine.

作者刘丹崔阳

机构地区南海舰队司令部中国劳动关系学院

出处《计算机技术与发展》 2013年第2期153-156,161,共5页 Computer Technology and Development

基金中央高校基本科研业务费专项基金项目(12zy019)

关键词 B2B垂直搜索网页信息抽取企业站点树去噪 B2B vertical search engine web information extraction corporation website tree noise elimination

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1刘畅.综合搜索引擎与垂直搜索引擎的比较研究[J].情报科学,2007,25(1):97-102. 被引量：49
2Cai Deng, Yu Shipeng, Wen Jirong, et al. Extracting contentstructure for Web pages based on visual representation [ C ] //Proceeding of the 5th Asia Pacific Web Conference. Berlin : Springer-Verlag ,2003:406-417.
3林文清.B2B垂直搜索引擎在信息获取技术中的应用[J].情报杂志,2007,26(9):120-121. 被引量：10
4余淼,杨丹,赵俊芹.垂直搜索引擎的关键技术研究[J].软件导刊,2007,6(12):31-33. 被引量：5
5赵金仿,赵艳,缪建明.网页信息抽取及其自动文本分类的实现[J].计算机技术与发展,2008,18(10):37-39. 被引量：7
6Cui Yang,Yang Bingru. A Method of Eliminating Noisy Infor-mation in Web Pages for B2B Vertical Search Engine [ C]//Proceedings of 2008 International Workshop on InformationTechnology and Security, [s. 1. ] : [ s. n. ] ,2008:990-993.
7Caulkins J P,Ding W,Duncan G. A method for managing ac-cess to web pages : filtering by statistical classification ( FSC )applied to text [ J ]. Decision Support Sytems, 2006,42 : 144 -161.
8李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：102
9李向阳,戴江山,张亚非.一种Web信息抽取规则的优化方法[J].兰州理工大学学报,2006,32(1):90-93. 被引量：3
10罗立宏,陈志.基于语义分析的垂直搜索网络蜘蛛[J].计算机工程与设计,2008,29(18):4662-4665. 被引量：8

二级参考文献57

1陈新颜.垂直搜索引擎辨析[J].现代情报,2004,24(9):133-134. 被引量：24
2LIXiang-yang,ZHANGYa-fei,LUJian-jiang,XUBao-wen.A Classification Method for Web Information Extraction[J].Wuhan University Journal of Natural Sciences,2004,9(5):823-827. 被引量：2
3魏红梅.搜索引擎的定量评价[J].情报杂志,2005,24(4):113-114. 被引量：6
4岳清.浅析搜索引擎的原理及发展前景[J].大众科技,2005,7(5):58-60. 被引量：5
5雷育生,甘仞初,杜顶.基于垂直网站的网络信息支持系统研究[J].计算机应用研究,2005,22(7):105-107. 被引量：7
6冯伟华,苗长芬.基于Web的网页信息抽取方法的研究[J].洛阳工业高等专科学校学报,2005,15(3):30-31. 被引量：4
7黄建莲.中国搜索引擎服务市场的现状及发展[J].华北科技学院学报,2005,2(3):113-115. 被引量：8
8田野.垂直搜索火热为哪般[J].中国计算机用户,2005(37):11-11. 被引量：2
9马晓玲,吴永和.对于搜索引擎优化(SEO)的研究[J].情报杂志,2005,24(12):119-121. 被引量：20
10邹娟,周经野,邓成.一种基于语义分析的中文特征值提取方法[J].计算机工程与应用,2005,41(36):164-166. 被引量：6

共引文献202

1梅祎,王亚东.基于本体的疾病关联搜索方法的研究[J].智能计算机与应用,2020,10(1):233-236.
2王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
3杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
4欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：71
5梁秀娟.互联网信息服务商用模式研究进展[J].决策与信息（财经观察）,2008(6):152-153. 被引量：3
6孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
7叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：12
8岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
9王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
10王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6

1崔阳,吴爱华.一种面向B2B垂直搜索的网页信息去噪方法[J].计算机技术与发展,2008,18(12):70-73.
2郑本胜.企业站点：因特网上的重要信息源[J].信息窗,2000(3):6-6.
3魏超.国内企业站点建设十大不足[J].经济师,2002(10):108-108.
4赵军.中小型企业站点“Mini Website”的实现方法[J].宁夏工程技术,2002,1(1):48-51.
5陈晓明,刘录敬.为企业站点设计网页应考虑的因素[J].微电脑世界,2001(12):111-112.
6张珊靓,吴静松.基于ASP的CRM网络应用系统的研究和设计[J].煤炭技术,2012,31(9):203-204. 被引量：1
7董应群.B2M服务体系纵览[J].互联网天地,2009(9):94-95.
8上海农商行企业网络金融社区平台——“鑫沪商”正式上线[J].金融科技时代,2014,22(5):6-6.
9支月芬.浅谈企业网站建设的基本方案[J].山西经济管理干部学院学报,2002,10(4):55-56. 被引量：2
10徐秋,刘为之.ASP.NET快速构建企业站点[J].科技资讯,2009,7(36):119-119.

计算机技术与发展

2013年第2期

浏览历史

内容加载中请稍等...

基于B2B垂直搜索的网页信息抽取系统研究

参考文献12

二级参考文献57

共引文献202

相关作者

相关机构

相关主题

浏览历史