Web挖掘系统的设计与实现被引量：5

Design and Implementation of a Web Mining Tool

下载PDF

导出

摘要介绍了挖掘理论,包括挖掘定义、挖掘任务、挖掘分类个方面,并简单介绍了实现文本挖掘系统WebWebWebWeb3WebWTMiner (的几个关键技术:分词,特征提取,分类器的设计。在分词中采用了支持首字和二分查找从而提高了分词速度,分类器Web Text Miner)Hash的设计中考虑到的训练算法速度慢的缺点,用近邻法以减少训练样本集中样本的数量,从而大大提高了算法速度。 Firstly, the paper introduces the theory of Web mining, including the definition, the task and the categorization of Web mining. Secondly, it also introduces several pivotal technologies in WTMiner (Web Text Miner), including word segmentation, term extraction and categorization method. In word segmentation, it uses two-way searching and hashing operation by means of the first Chinese character in a string to accelerate its speed.Considering the slow training speed to SVM (support vector machine), it uses K-nearest neighbor SVM to reduce the number of training set, so increase the algorithms speed greatly. ;;;

作者陈建华包煊

机构地区兰州大学计算机系

出处《计算机工程》 CAS CSCD 北大核心 2002年第8期141-142,151,共3页 Computer Engineering

关键词 WEB 设计文本分类支持向量机数据挖掘系统数据库计算机网络信息检索 Web miningText categorizationSupport vector machine (SVM)Word segmentation.

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] G354.4 [文化科学—情报学]

引文网络
相关文献

参考文献5

1张国煊王小华.快速书面汉语自动分词系统及其算法设计[J].计算机研究与发展,1993,30(1):61-65.
2王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：276
3边肇祺张学工.模式识别（第二版）[M].北京:清华大学出版社,1999.12.
4李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001,24(1):62-68. 被引量：108
5孙健,王伟,钟义信.基于K-最近距离的自动文本分类的研究[J].北京邮电大学学报,2001,24(1):42-46. 被引量：13

二级参考文献9

1Zalane O R，Proc of 1998ACM-SIGMOD Conf onManagement of Data.Seattle，1998年，581页
2Wang Ke，Newport Beach，1997年
3Salton G，Commun ACM，1975年，18卷，5期，613页
4Yang Yiming，Information Retrieval，1999年，1卷，1/2期，69页
5Yang Yiming，Proceedings ICML 97 14th Int Conference on Machine Learning，1997年
6李国臣，中文信息学报，1997年，13卷，4期，10页
7邹涛,王继成,张福炎.基于WWW的资料搜集系统的设计与实现[J].情报学报,1999,18(3):195-201. 被引量：32
8李国臣.文本分类中基于对数似然比测试的特征词选择方法[J].中文信息学报,1999,13(4):16-21. 被引量：19
9李晓黎,史忠植.用数据采掘方法获取汉语词性标注规则[J].计算机研究与发展,2000,37(12):1409-1414. 被引量：10

共引文献419

1兰晓芳,刘霞,肖毅.基于Django的校友在线平台的设计与实现[J].办公自动化,2021,26(18):17-18. 被引量：3
2王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
3王世卫,李爱国.报税欺诈检测研究[J].仪器仪表学报,2005,26(z1):900-901.
4张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
5孙真真,付琨,吴一戎.基于混合双隐层径向基函数网络的高分辨率SAR图像地物分类算法研究[J].电子学报,2003,31(z1):2040-2044. 被引量：3
6杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
7童亚拉,陈益.一种基于混沌粒子群算法的网页分类规则抽取方法[J].微电子学与计算机,2009,26(2):193-196. 被引量：2
8李爱国,白冰.基于内容图像检索的Web搜索器[J].郑州大学学报（理学版）,2009,41(2):60-62. 被引量：1
9周云真,舒建文,王平根.数据挖掘在基于WEB的智能远程教育中的应用[J].文教资料,2006(27):154-155. 被引量：1
10郑泠.Web数据挖掘技术应用[J].科技经济市场,2006(12):302-303.

同被引文献28

1袁占亭,张秋余,李威.数据抽取及语义分析在Web数据挖掘中的应用[J].计算机工程与设计,2005,26(6):1425-1427. 被引量：6
2王继成孙颖张福炎.文本挖掘——数据挖掘研究的新课题[J].兰州大学学报：自然科学版,1999,35:314-318.
3傅伟鹏.[D].合肥:中国科学技术大学,2002.
4林鸿飞庄恩贵姚天顺.中文文本挖掘中数字特征的抽取和表示[A]..1999青岛--香港国际会议文集[C].,..
5苏新宁[等].数据仓库和数据挖掘[M]清华大学出版社,2006.
6殷建平.汉语自动分词方法[J].计算机工程与科学,1998,20(3):60-66. 被引量：32
7严威,赵政.开发中文搜索引擎汉语处理的关键技术[J].计算机工程,1999,25(6):5-6. 被引量：24
8王兰成,蒋丹,刘庆辉.全文数据库建库原理与应用技术[J].情报学报,1999,18(4):321-328. 被引量：28
9邹涛,王继成,杨文清,张福炎.文本信息检索技术[J].计算机科学,1999,26(9):72-75. 被引量：31
10陈桂林,王永成,韩客松,王刚.一种改进的快速分词算法[J].计算机研究与发展,2000,37(4):418-424. 被引量：56

引证文献5

1祁亨年.支持向量机及其应用研究综述[J].计算机工程,2004,30(10):6-9. 被引量：196
2谭浩,贾自艳,史忠植.新闻专题的高效组织和生成新方法[J].科技导报,2004,22(7):48-51.
3隋丽萍,徐承韬,李瑞芳.基于HTML结构的Web文本主题挖掘研究[J].电脑与电信,2007(1):47-51. 被引量：1
4包煊,陈建华,郭昕,汪志华.电子剪报系统—EPCutter的设计和实现[J].计算机工程,2002,28(10):238-240.
5连远锋,侯锟,张沛露,许建潮.演化计算在特征词条优化中的应用[J].长春工业大学学报,2004,25(1):32-35.

二级引证文献197

1师芸,张雨欣,高天舒,郭昭,王凯.结合时序InSAR与优化SVR模型的开采沉陷预计研究[J].测绘科学,2023,48(11):136-144. 被引量：3
2李志雄,曾钢平,丘学林,郑在壮.预测华北地区年度地震趋势的支持向量机分类方法[J].华北地震科学,2007,25(3):11-14. 被引量：4
3贾志先.基于支持向量机的空白试卷识别方法[J].山西大学学报（自然科学版）,2011,34(3):351-356. 被引量：2
4崔彦彬,刘承水.Blended coal’s property prediction model based on PCA and SVM[J].Journal of Central South University,2008,15(S2):331-335.
5祁亨年,杨建刚,方陆明.基于多类支持向量机的遥感图像分类及其半监督式改进策略[J].复旦学报（自然科学版）,2004,43(5):781-784. 被引量：14
6李波,何建敏.SVM在企业财务困境分析中的应用[J].现代管理科学,2004(12):12-14. 被引量：5
7徐启华,杨瑞.一种新的软间隔支持向量机分类算法[J].计算机工程与设计,2005,26(9):2316-2318. 被引量：8
8王红军,徐小力.支持向量机在设备故障诊断方面的应用研究概述[J].机械设计与制造,2005(9):157-159. 被引量：11
9接标,刘冠晓,冯乔生.统计模式识别的研究[J].云南师范大学学报（自然科学版）,2005,25(6):19-21. 被引量：1
10辛宪会,赵泳,翟辉琴,叶秋果.面向分类的高光谱遥感影像数据特性的研究[J].海洋测绘,2005,25(6):22-25. 被引量：6

1许柳威,傅俊.Web数据挖掘在电子商务中的应用研究[J].科技经济市场,2006(5):11-12.
2王颖楠,滕飞,解莉,孙俏.Web挖掘技术[J].吉林工学院学报（自然科学版）,2002,23(1):11-15. 被引量：9
3吴国祥.网络挖掘研究综述[J].电脑知识与技术（过刊）,2011,17(11X):7876-7877.
4何翼,陈文娟,蒲天银.基于网络爬虫原理的Web内容挖掘技术分析[J].计算机时代,2013(7):1-2. 被引量：2
5曹聪聪,康耀红.Web数据挖掘研究[J].现代电子技术,2007,30(4):92-94. 被引量：9
6张宇,宋顺林.基于XML的Web数据自动挖掘[J].计算机工程与设计,2008,29(22):5770-5773. 被引量：2
7崔国庆,乔佩利.基于WEB挖掘的SWMS模型的研究与实现[J].哈尔滨理工大学学报,2006,11(5):14-17.
8徐义峰,陈春明.基于本体的Web挖掘分类方法及应用[J].计算机应用与软件,2009,26(3):208-209. 被引量：3
9周群.论数字图书馆数据挖掘系统模型研究[J].情报杂志,2006,25(11):97-99. 被引量：7
10刘莉.数据挖掘在企业信息服务中的应用[J].现代情报,2006,26(6):188-189. 被引量：7

计算机工程

2002年第8期

浏览历史

内容加载中请稍等...

Web挖掘系统的设计与实现被引量：5

参考文献5

二级参考文献9

共引文献419

同被引文献28

引证文献5

二级引证文献197

相关作者

相关机构

相关主题

浏览历史

Web挖掘系统的设计与实现 被引量：5

参考文献5

二级参考文献9

共引文献419

同被引文献28

引证文献5

二级引证文献197

相关作者

相关机构

相关主题

浏览历史

Web挖掘系统的设计与实现被引量：5