基于Web信息挖掘的商业分析系统设计被引量：2

Design of commercial analysis system based on web information mining

下载PDF

导出

摘要随着Web上信息的快速增长,如何将潜藏于非结构化文档中的商业信息有效提取并分析服务于商业管理已成为新的研究热点。利用现有的Web信息挖掘技术,针对原始数据的混合异构性,提出信息块多主题分割的方法,在建立的商业领域实体名字典指导下对商业信息进行抽取和分类,并引入一种信用评级机制,构造了一个基于Web信息挖掘的商业信息分析系统(CABWIM),实验结果表明系统能有效地将散落在Web中潜在的商业信息抽取并加工整理,形成真正有实用价值的商业信息。 With the rapid growth of information on the web, how to efficiently extract and analyze latent commercial information from semi-structured pages to improve the commercial management has become a hot research issue. Using the existing technologies of web information mining, a new method that could segment topics from information block in order to settle the problem of complex data structure was proposed. With the direction of business entity name dictionary, this method extracted and classified business information. And also a mechanism of credit estimating to insure precision was introduced. Finally, a commercial information analysis system based on web information mining （CABWIM） was constructed. Experiments show this system can efficiently extract and tidy latent information to valuable commercial information.

作者沈洁林颖赵敏涯陈志敏

机构地区扬州大学计算机科学与工程系

出处《计算机工程与设计》 CSCD 北大核心 2006年第1期62-65,共4页 Computer Engineering and Design

基金江苏省高校自然科学基金项目(02KJB520013)

关键词 WEB信息挖掘包装器 DOM树 web information mining wrapper DOM tree

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Laender A, Ribeiro-Neto B, Silva A. A brief suervey of web data extraction tools[J]. SIGMOD Record, 2002,31(2):84-93.
2Ning Gu, Guowen Wu.Extracting Web table information in cooperative learning activities based on abstract semantic model[C]. Proceedings of the Sixth International Conference on Computer Supported Cooperative Work, 2001.492-497.
3Itai K, Takasu A, Adachi J.Information extraction from HTML pages and its integration[C]. Applications and the Interact Workshops, Proceedings, 2003.276-281.
4Jiying Wang, Lochovsky F H. Data-rich section extraction from HTML pages[C].Web Information Systems Engineering, WISE 2002 Proceedings of the Third International Conference on,2002.313-322.
5Muslea I, Minton S, Knolock C. Hierarchical wrapper induction for semistructured information sources [J]. Autonomous Agents and Multi-Agent Systems, 2001,4(1/2):93-114.
6Sahuguet A, Azavant F. Building intelligens web applications using lightweight wrappers[J]. Data and Knowledge Engineering, 2001,36(3):286-316.
7黄豫清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器[J].软件学报,2000,11(1):73-78. 被引量：47
8李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：102

二级参考文献18

1Ham mar J，SIGMOD Record，1997年，26卷，2期，18页
2Florescu D, Levy A Y, Mendelzon A. Database techniques for the World-Wide Web: A Survery. In: ACM The SIGMOD Record, 1998.59-74
3Atzeni P, Mecca G, Merialdo P. To weave the Web. In: Proc the 23rd International Conference on Very Large Data Bases. Athens, Greece, 1997. 206-215
4Pemberton S et al. XHTML 1.0: The extensible hyperText markup language. In: http://www.w3.org/MarkUp/
5Cattell R G G. The Object Database Standard ODMG-93. San Mateo,California: Morgan Kaufmann Publishers,1994
6Mitchell T. Machine Learning. New York: McGraw Hill, 1997
7Wall L et al. Programming Perl(3rd Edition). O'Reilly & Associates,2000
8Birbeck M et al. Professional XML. Wrox Press Inc, 2000
9Liu L, Pu C, Han W. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proc International Conference on Data Engineering (ICDE), San diego, California, 2000. 611-621
10Chamberlin D, Robie J, Florescu D. Quilt: An XML query language for heterogeneous data sources. In: Proc International Workshop on the Web and Databases (WebDB'2000), Dallas, Texas, 2000. 53-62

共引文献145

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3明廷波,左志宏,史永刚,林琳.Web信息抽取中基于神经网络的规则学习方法[J].南京大学学报（自然科学版）,2005,41(z1):1-6. 被引量：1
4欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：71
5胡晓江,苑伟政,朱名铨.IIE环境下数字民航的虚拟数据仓库研究[J].小型微型计算机系统,2003,24(1):68-71. 被引量：4
6GU Ning.A Semantic Approach for Web Document Processing[J].Journal of Shanghai University(English Edition),2001,5(z1):82-85.
7孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
8李文奇,张忠能.页面包装器自动生成的改进算法[J].计算机工程与应用,2004,40(22):113-115. 被引量：3
9王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
10李泽文.基于Web的数据挖掘技术[J].现代计算机,2004,10(7):29-33. 被引量：10

同被引文献11

1田苗苗.数据挖掘之决策树方法概述[J].长春大学学报,2004,14(6):48-51. 被引量：44
2张丽翠,范亚芹,金成植.面向移动agent的逻辑分布网络管理与控制系统[J].吉林大学学报（信息科学版）,2004,22(6):569-573. 被引量：2
3李卫,刘建毅,何华灿,王枞.基于主题的智能Web信息采集系统的研究与实现[J].计算机应用研究,2006,23(2):163-166. 被引量：15
4胡迎松,韩苹,陈中新.一个基于Agent的个性化推荐系统[J].计算机应用研究,2006,23(4):78-80. 被引量：19
5田苗苗,许建潮,汪津,丁桂英.基于遗传算法的Web信息自动标引研究[J].吉林大学学报（信息科学版）,2006,24(5):542-547. 被引量：6
6蒲东兵,孙英娟,孙英慧,徐大军.智能分类邮件Agent的一种实现[J].长春师范学院学报（自然科学版）,2007,26(4):85-88. 被引量：1
7史忠植.智能主体及其应用[M].北京：科学出版社,2001..
8殷建平.汉语自动分词方法[J].计算机工程与科学,1998,20(3):60-66. 被引量：32
9王实,高文,李锦涛.Web数据挖掘[J].计算机科学,2000,27(4):28-31. 被引量：120
10高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30

引证文献2

1孙英娟,蒲东兵,孙英慧,李春宜,周春光.邮件过滤Agent的设计[J].吉林大学学报（信息科学版）,2008,26(6):576-579. 被引量：1
2李永锐,龚汉东,颜刚华.WEB挖掘技术研究在检验中的应用[J].深圳信息职业技术学院学报,2010,8(4):89-93.

二级引证文献1

1梁好,徐长庚,林和平.实用高效的垃圾邮件过滤算法[J].吉林大学学报（信息科学版）,2010,28(3):298-302. 被引量：1

1陈建.风险管控和法规遵从推动商业分析软件快速增长[J].办公自动化（综合月刊）,2009(8):19-19. 被引量：1
2君羊.数据中心建设应注重提升数据的可用性和安全性[J].金融科技时代,2011,19(11):13-13.
3Gartner:中国商业分析管理者需准备迎接大数据和数据专家的定位[J].电信技术,2014(5):111-111.
4CIO：商业分析的重要性[J].网络运维与管理,2014(3):5-5.
5李夏.SAS进入商业分析软件供应商前三甲[J].电子商务,2005,6(12):8-8.
6第三届SAS中国用户大会暨商业分析领袖峰会即将于6月拉开帷幕[J].中国金融电脑,2015,0(5):95-95.
7李春梅.在CRM中应用DW、DM技术进行商业分析和决策[J].楚雄师范学院学报,2004,19(3):6-9.
8邱淑萍.计算机在企业信息管理中的应用[J].电站系统工程,2002,18(4):64-64.
9裴友泉.电子仪器检测结果的加工整理[J].中外技术情报,1995(5):39-40.
10李丹,顾保磊.基于Heritrix的内容搜索引擎系统[J].软件导刊,2010,9(4):129-130. 被引量：1

计算机工程与设计

2006年第1期

浏览历史

内容加载中请稍等...

基于Web信息挖掘的商业分析系统设计被引量：2

参考文献8

二级参考文献18

共引文献145

同被引文献11

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Web信息挖掘的商业分析系统设计 被引量：2

参考文献8

二级参考文献18

共引文献145

同被引文献11

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Web信息挖掘的商业分析系统设计被引量：2