改进的信息增益特征选择方法在文本聚类中的应用被引量：2

Application of Improved Information Gain Feature Selection Methodto Text Clustering

下载PDF

导出

摘要利用改进的信息增益特征选择的方法 ,对文本进行了有效的自动聚类。从语料库中抽取了 2 5 0篇文本 ,利用向量空间模型和信息增益特征降维方法 ,构造文本特征向量 ,并最终利用 C-均值方法聚类 ,聚类结果精度、召回率、F- measure分别达到 0 .82、0 .88、0 . This paper applies the improved information gain method to the text clustering. Retrieving 250 from the corpus, according to Vector Space Model and the information gain feature selection method,construct the text feature vector;use C-means to automatic clustering, the precision、recall and F-measure are 0.82、0.88、0.83.

作者陈涛宋妍谢阳群

机构地区宁波大学管理科学与工程系南京大学工商管理系

出处《现代图书情报技术》 CSSCI 北大核心 2004年第12期7-9,共3页 New Technology of Library and Information Service

基金国家社会科学基金项目部分研究成果 (项目编号 :0 0 BTQ0 15 ) 浙江省教育厅高校科研项目编号为 2 0 0 40 997

关键词信息增益特征选择聚类 Information gain Feature selection Clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1刁倩,王永成,张惠惠,何骥.文本自动分类中的词权重与分类算法[J].中文信息学报,2000,14(3):25-29. 被引量：27
2秦进,陈笑蓉,汪维家,陆汝占.文本分类中的特征抽取[J].计算机应用,2003,23(2):45-46. 被引量：73
3李雪蕾,张冬茉.一种基于向量空间模型的文本分类方法[J].计算机工程,2003,29(17):90-92. 被引量：31
4代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：230
5Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys. 2002, 34(1):1-47.
6Tom Mitchell. Machine learning. McGraw Hill, New York. 1996.

二级参考文献15

1黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
2[1]Warren R Greiff. A Theory of Term Weighting Based on Exploratory Data Analysis, www. cs. umass.edu/～ greiff/
3[2]Kaski S, Lagus K, Honkela T et al. Statistical Aspects of the WFEBSOM System in Organizing Document Collections. Computer Science and Statistics, 1998, (29) :281 - 290
4Koller D. Hierarchically Classifying Documents Using Very Few Words. Proceedings of tile Fourteenth International Conference on Machine Learning (ICML-97), 1997.
5Zhang Li, Li Xing. Net-compass, A Search Engine for Chinese Web Pages[A]. The First AEARU Workshop on Web Technology[C] ,Kyoto, Japan, 1998: 1 0-15.
6何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量：54
7刁倩,王永成,张惠惠,何骥.文本自动分类中的词权重与分类算法[J].中文信息学报,2000,14(3):25-29. 被引量：27
8黄萱菁,吴立德,石崎洋之,徐国伟.独立于语种的文本分类方法[J].中文信息学报,2000,14(6):1-7. 被引量：53
9周水庚,关佶红,胡运发.隐含语义索引及其在中文文本处理中的应用研究[J].小型微型计算机系统,2001,22(2):239-243. 被引量：41
10朱华宇,孙正兴,张福炎.一个基于向量空间模型的中文文本自动分类系统[J].计算机工程,2001,27(2):15-17. 被引量：45

共引文献348

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：9
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
5贺国旗,张强.基于用户模型的文献检索研究[J].雁北师范学院学报,2002,18(5):29-32. 被引量：1
6王洪,贾惠波,徐端颐.基于中文学术期刊人工标引的自动分类新算法[J].现代图书情报技术,2002(S1):59-62. 被引量：1
7姚学礼.文本分类中的特征提取方法的研究[J].光盘技术,2009(6):15-16.
8李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
9贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
10尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.

同被引文献20

1李万明,刘磊磊.绿洲生态农业现代化评价指标体系的设计构想[J].生态经济,2009,25(4):42-44. 被引量：7
2徐峰,刘学武,贺辉宗,蔡宝华.石油勘探开发作业危害辨识与风险控制探讨[J].安全、健康和环境,2010,10(2):12-14. 被引量：6
3谭爱花,李万明,谢芳.我国农业现代化评价指标体系的设计[J].干旱区资源与环境,2011,25(10):7-14. 被引量：92
4'农业现代化评价指标体系构建研究'课题组,张淑英,夏心旻.农业现代化评价指标体系构建研究[J].调研世界,2012(7):41-47. 被引量：53
5王进军.物探企业事故隐患多层级分类与分级统计[J].化工安全与环境,2012(37):14-15. 被引量：1
6郝志强.物探施工作业加速推行HSE管理势在必行[J].地质勘探安全,2000,7(4):14-16. 被引量：1
7刘斌,陈忠,殷卫东.山地物探作业主要危险因素与安全对策的研究[J].安全,2014,35(9):20-22. 被引量：1
8李汝君,张俊,张晓民,桂小庆.健康领域Web信息抽取[J].计算机应用,2016,36(1):163-170. 被引量：6
9钟水映,李强谊,徐飞.中国农业现代化发展水平的空间非均衡及动态演进[J].中国人口·资源与环境,2016,26(7):145-152. 被引量：66
10孙晓欣,马晓冬.江苏省农业现代化发展的格局演化及驱动因素[J].经济地理,2016,36(10):123-130. 被引量：54

引证文献2

1祝志川,张国超,张君妍,翁新新.中国农业农村现代化发展水平及空间分布差异研究[J].江苏农业科学,2018,46(19):386-391. 被引量：22
2王明达,陈泼,陈子新,韦永健,徐宗辉.基于文本挖掘的物探作业事故分析方法[J].西安石油大学学报（自然科学版）,2019,34(4):119-126. 被引量：4

二级引证文献26

1谢如鹤,陈梓博.基于变异系数的国际食品冷链发展水平对比[J].科技管理研究,2020,40(1):230-235. 被引量：2
2谭章禄,陈孝慈.基于文本挖掘的煤矿安全隐患管理研究[J].中国安全生产科学技术,2020,16(2):43-48. 被引量：17
3陈转青,李兆广.河南省农业农村现代化评价指标体系构建及运用[J].河南科技学院学报（社会科学版）,2020,40(5):12-17. 被引量：7
4巴·哥尔拉,刘国勇,王钿.乡村振兴战略背景下新疆农业农村现代化发展水平测度[J].北方园艺,2020(17):145-152. 被引量：26
5周来友,周小云.基于WSR视角的农业农村现代化发展水平评价研究——以新余市为例[J].新余学院学报,2021,26(1):12-17. 被引量：2
6肖冰,吴诗翩.基于结构方程模型的农业农村现代化影响因素分析[J].江苏农业科学,2021,49(4):231-236. 被引量：12
7马英,玛衣拉·吐尔逊.乡村振兴下农业农村现代化对城乡收入差距的影响研究[J].时代经贸,2021,18(4):68-72. 被引量：6
8陈春燕,林正雨,刘远利,高文波.成德眉资农业农村同城化发展路径探讨[J].中国农学通报,2021,37(19):151-157. 被引量：2
9龚宇飞,邓可欣,袁枫尧.浅谈信息化管理在物探野外安全生产中的应用[J].中国管理信息化,2021,24(17):135-137.
10张杰.乡村振兴背景下湖北省农业农村现代化发展水平评价及障碍因素分析[J].湖北农业科学,2021,60(23):227-232. 被引量：4

1许朝阳.文本分类中特征选择方法的分析和改进[J].计算机与现代化,2010(4):37-39. 被引量：2
2严莉莉,张燕平.基于类信息的文本聚类中特征选择算法[J].计算机工程与应用,2007,43(12):144-146. 被引量：7
3朱颢东,钟勇.基于改进的ID3信息增益的特征选择方法[J].计算机工程,2010,36(8):37-39. 被引量：8
4刘春英.基于关联度的代价敏感决策树生成方法[J].长春工业大学学报,2013,34(2):218-222. 被引量：3
5陈娟,王贤,黄青松.通过查询模式聚类结构化的Deep Web资源[J].现代计算机,2006,12(9):19-21.
6袁斌,江涛,于洪志.基于语义空间的藏文微博情感分析方法[J].计算机应用研究,2016,33(3):682-685. 被引量：11
7陈涛,宋妍,谢阳群.基于IIG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005,24(2):203-209. 被引量：14
8董微,刘学,倪宏.基于信息增益的自适应特征选择方法[J].计算机工程与设计,2014,35(8):2856-2859. 被引量：8
9孟光胜.基于关联度和代价敏感学习的决策树生成法[J].科学技术与工程,2013,21(5):1196-1199. 被引量：6
10许朝阳.多标记文本分类中信息增益特征选择方法研究[J].廊坊师范学院学报（自然科学版）,2012,12(5):46-48.

现代图书情报技术

2004年第12期

浏览历史

内容加载中请稍等...

改进的信息增益特征选择方法在文本聚类中的应用被引量：2

参考文献6

二级参考文献15

共引文献348

同被引文献20

引证文献2

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

改进的信息增益特征选择方法在文本聚类中的应用 被引量：2

参考文献6

二级参考文献15

共引文献348

同被引文献20

引证文献2

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

改进的信息增益特征选择方法在文本聚类中的应用被引量：2