一种基于词聚类的中文文本主题抽取方法被引量：17

Novel chinese text subject extraction method based on word clustering

下载PDF

导出

摘要提出了一种基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分析,建立词之间的语义关联,并生成代表某一主题概念的用种子词表示的词类。对于给定文档,先进行特征词抽取,再借助词类生成该文档的主题因子,最后按权重输出主题因子,作为文本的主题。实验结果表明,该方法具有较高的抽准率。 A novel chinese text subject extraction method based on word clustering was presented. This method analysed the co-occurrence of words by using relativity calculation to create semantic relativity and generated a word cluster which represents a subject conception and is presented by seed words. To a given text, its features were extracted firstly. Then its subject genes was producted by means of word cluster. At last,the top subject genes were sorted in descending order of weights and selected as the subject. The experimental results indicate that the method has higher precision.

作者陈炯张永奎

机构地区山西大学计算机与信息技术学院

出处《计算机应用》 CSCD 北大核心 2005年第4期754-756,共3页 journal of Computer Applications

基金国家自然科学基金(60475022) 山西省自然科学基金(20041041) 山西省回国留学人员基金(2002004)

关键词主题抽取词聚类种子词主题因子信息论词同现 CHI统计 subject extraction word clustering seed words subject gene information theory word co-occurrence CHI statistics

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1韩客松,王永成,陈桂林.无词典高频字串快速提取和统计算法研究[J].中文信息学报,2001,15(2):23-30. 被引量：36
2麻志毅,姚天顺.基于情境的文本主题求解[J].计算机研究与发展,1998,35(4):344-348. 被引量：7
3代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：230
4马颖华,王永成,苏贵洋,张宇萌.一种基于字同现频率的汉语文本主题抽取方法[J].计算机研究与发展,2003,40(6):874-878. 被引量：49
5尹中航,王永成,蔡巍,韩客松.利用串匹配技术实现网上新闻的主题提取(英文)[J].软件学报,2002,13(2):159-167. 被引量：11
6BUN KK,ISHIZUKA M.Topic extraction from news archives using TF·PDF Algrithm[A].The Third International Conference on Web Information Systems Engineering[C].Singapore,2002.73-82.
7LEAKE DB,MAGUITMAN A,REICHHERZER T.Topic Extraction and Extension to Support Concept Mapping[A].Proceeding of FLAIRS-2003[C].2003.325-329.
8DHILLON IS,MALLELA S,KUMAR R.Enhanced word clustering for hierarchical text classification[A].Proceedings of the 8th ACM[C].Edmonton,Canada,2002.191-200.
9LI H,YAMANISHI K.Document classification using a finite mixture model[A]. Proceedings of ACL＇97[C].1997.39-47.
10YANG ZR,ZWOLINSKI Z.Mutual Information Theory for Adaptive Mixture Models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(4):396-403.

二级参考文献21

1董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：89
3黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
4黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
5麻志毅，International Conference on Computer Processing of Oriental Languages，1997年，67页
6迟成英，中文信息学报，1997年，56卷，1期，9页
7麻志毅，First International Conference on High-New Technology and Traditional Industry，1996年，240页
8韩柯，第二届中国计算机智能接口与应用学术会议论文集，1995年，236页
9姚天顺，自然语言理解，1995年
10中国互联网络信息中心.关于中国互联网络发展状况的统计[J].统计报告,2001,.

共引文献321

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：9
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
5贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
6尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
7张雷生 ,万绍俊 ,许鹏文 .简单中文自动摘要系统研究[J].装备指挥技术学院学报,2004,15(3):105-109. 被引量：1
8黎铭,薛晓冰,周志华.基于多示例学习的中文Web目录页面推荐[J].软件学报,2004,15(9):1328-1335. 被引量：17
9吕学强,张乐,黄志丹,胡俊峰.基于散列技术的快速子串归并算法[J].复旦学报（自然科学版）,2004,43(5):948-951. 被引量：4
10陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用[J].现代图书情报技术,2004(12):7-9. 被引量：2

同被引文献275

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：21
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3贺宏朝,何丕廉,高剑峰,黄昌宁.Query Expansion for Chinese Information Retrieval by Using a Decaying Co-occurrence Model[J].Transactions of Tianjin University,2002,8(3):183-186. 被引量：3
4马建霞.主题图技术与相关知识组织方法的比较研究[J].图书馆杂志,2007,26(2):47-53. 被引量：12
5王家钺.信息检索中“相关性”概念的研究[J].现代外语,2001,24(2):181-191. 被引量：23
6邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：60
7郭锋,李绍滋,周昌乐,林颖,李胜睿.基于词汇吸引与排斥模型的共现词提取[J].中文信息学报,2004,18(6):16-22. 被引量：8
8李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：98
9孙建军,成颖.基于信息检索交互模型的相关性研究[J].中国图书馆学报,2005,31(1):41-45. 被引量：16
10费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68

引证文献17

1陈炯,张永奎.基于加权信息论的突发事件新闻主题抽取方法[J].计算机应用,2008,28(B06):150-151. 被引量：5
2周进华,刘贵全.基于衰减词共现图的多文档摘要研究[J].小型微型计算机系统,2009,30(1):173-177. 被引量：4
3裘江南,李丽冬,吴力文.客观知识体系中的相关性研究[J].情报学报,2009,28(3):362-367. 被引量：2
4张永奎,张晴,王磊.面向信息处理的突发事件新闻语料库建设与应用研究[J].山西大学学报（自然科学版）,2009,32(4):546-551. 被引量：8
5郭怀恩,朱礼军,徐硕.词聚类技术研究综述[J].数字图书馆论坛,2010(5):15-19. 被引量：2
6刘金岭,谈芸,李健普,袁娜.基于多因素的中文文本主题自动抽取方法[J].计算机技术与发展,2010,20(7):72-75. 被引量：3
7袁鼎荣,钟宁,张师超.文本信息处理研究述评[J].计算机科学,2011,38(2):9-13. 被引量：11
8常鹏,马辉.高效的短文本主题词抽取方法[J].计算机工程与应用,2011,47(20):126-128. 被引量：14
9王娟,李卓娥.基于叙词表的K-means文本聚类修正方法[J].情报杂志,2011,30(12):154-156. 被引量：2
10沈岩.基于文本聚类的工具书查重方法研究[J].辞书研究,2011(6):94-103.

二级引证文献90

1何维,王宇.基于句子关系图的网页文本主题句抽取[J].现代图书情报技术,2009(3):57-61. 被引量：9
2张永奎,张晴,王磊.面向信息处理的突发事件新闻语料库建设与应用研究[J].山西大学学报（自然科学版）,2009,32(4):546-551. 被引量：8
3钟丹,朱倩,李梅,程显毅.人称名词短语单复数信息和最大熵模型的指代消解[J].江南大学学报（自然科学版）,2009,8(6):666-669. 被引量：1
4裘江南,王带弟,仲秋雁.客观知识体系中的语义关系可组合性研究[J].情报学报,2010,29(5):792-799. 被引量：1
5田芬.英汉语经济类硬新闻的裁决系统对比研究[J].山东外语教学,2011,32(2):32-36. 被引量：3
6宋云霞,张大伟,孙卓,韦军.以语料库为载体的实践教学模式研究[J].实验技术与管理,2011,28(9):110-113. 被引量：3
7时睿,封化民.一种基于名词的微博语义计算方法[J].北京电子科技学院学报,2011,19(4):16-22. 被引量：4
8任剑锋,梁雪,李淑红.基于非线性流形学习和支持向量机的文本分类算法[J].计算机科学,2012,39(1):261-263. 被引量：10
9杨艺,周元.基于用户查询意图识别的Web搜索优化模型[J].计算机科学,2012,39(1):264-267. 被引量：17
10黄云,洪佳明,颜一鸣.基于图的特征词权重算法及其在文档排序中的应用[J].计算机系统应用,2012,21(6):216-218. 被引量：2

1杨莉,万常选,雷刚,俞涛,孔保新.基于特征词权重的文本分类[J].计算机与现代化,2012(10):8-13. 被引量：1
2林伟,柳荣其,徐熙.邮件过滤中一种改进的特征选择方法研究[J].计算机技术与发展,2009,19(1):84-87. 被引量：1
3谢娜娜,房斌,吴磊.不均衡数据集上文本分类方法研究[J].计算机工程与应用,2013,49(20):118-121. 被引量：11
4裴英博,刘晓霞.文本分类中改进型CHI特征选择方法的研究[J].计算机工程与应用,2011,47(4):128-130. 被引量：40
5罗海飞,吴刚,杨金生.基于贝叶斯的文本分类方法[J].计算机工程与设计,2006,27(24):4746-4748. 被引量：14
6黄名选.特征词抽取与查询扩展融合的信息检索系统模型[J].情报杂志,2011,30(11):162-165. 被引量：2
7樊存佳,汪友生,王雨婷.一种改进的CHI文本特征选择方法[J].计算机与现代化,2016(11):7-11. 被引量：5
8李玉鑑,周兰珍,操卫平.基于DF和CHI的联合特征提取方法及其应用[J].北京工业大学学报,2008,34(9):995-1000. 被引量：9
9伍建军,康耀红.文本分类中特征选择方法的比较和改进[J].郑州大学学报（理学版）,2007,39(2):110-113. 被引量：16
10李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13

计算机应用

2005年第4期

浏览历史

内容加载中请稍等...

一种基于词聚类的中文文本主题抽取方法被引量：17

参考文献11

二级参考文献21

共引文献321

同被引文献275

引证文献17

二级引证文献90

相关作者

相关机构

相关主题

浏览历史

一种基于词聚类的中文文本主题抽取方法 被引量：17

参考文献11

二级参考文献21

共引文献321

同被引文献275

引证文献17

二级引证文献90

相关作者

相关机构

相关主题

浏览历史

一种基于词聚类的中文文本主题抽取方法被引量：17