期刊文献+

一种基于词聚类的中文文本主题抽取方法 被引量:17

Novel chinese text subject extraction method based on word clustering
在线阅读 下载PDF
导出
摘要 提出了一种基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分 析,建立词之间的语义关联,并生成代表某一主题概念的用种子词表示的词类。对于给定文档,先进 行特征词抽取,再借助词类生成该文档的主题因子,最后按权重输出主题因子,作为文本的主题。实 验结果表明,该方法具有较高的抽准率。 A novel chinese text subject extraction method based on word clustering was presented. This method analysed the co-occurrence of words by using relativity calculation to create semantic relativity and generated a word cluster which represents a subject conception and is presented by seed words. To a given text, its features were extracted firstly. Then its subject genes was producted by means of word cluster. At last,the top subject genes were sorted in descending order of weights and selected as the subject. The experimental results indicate that the method has higher precision.
作者 陈炯 张永奎
出处 《计算机应用》 CSCD 北大核心 2005年第4期754-756,共3页 journal of Computer Applications
基金 国家自然科学基金(60475022) 山西省自然科学基金(20041041) 山西省回国留学人员基金(2002004)
关键词 主题抽取 词聚类 种子词 主题因子 信息论 词同现 CHI统计 subject extraction word clustering seed words subject gene information theory word co-occurrence CHI statistics
  • 相关文献

参考文献11

二级参考文献21

  • 1董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量:11
  • 2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量:89
  • 3黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量:24
  • 4黄昌宁 等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
  • 5麻志毅,International Conference on Computer Processing of Oriental Languages,1997年,67页
  • 6迟成英,中文信息学报,1997年,56卷,1期,9页
  • 7麻志毅,First International Conference on High-New Technology and Traditional Industry,1996年,240页
  • 8韩柯,第二届中国计算机智能接口与应用学术会议论文集,1995年,236页
  • 9姚天顺,自然语言理解,1995年
  • 10中国互联网络信息中心.关于中国互联网络发展状况的统计[J].统计报告,2001,.

共引文献321

同被引文献275

引证文献17

二级引证文献90

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部