基于词汇吸引与排斥模型的共现词提取被引量：8

Co-occurrence Word Retrieval Based on the Lexical Attraction and Repulsion Model

下载PDF

导出

摘要共现词提取在信息挖掘和自然语言处理中有着十分重要的地位。而传统的共现词提取方法仅仅局限在单一的一种统计量上 ,其结果十分不精确 ,需要人工再进行整理。本文提出了一种基于词汇吸引与排斥模型的共现词提取算法 ,并通过将多种常用统计量进行组合 ,改进了算法的效果。在开放测试环境下 ,所提取的共现词其用户感兴趣度为 6 0 87%。将该算法应用于基于Web的共现词检索系统。 Co-occurrence word retrieval is very important in information mining and natural language processing. But traditional co-occurrence word retrieval methods used only a single statistic method, so the result is very imprecise, and needs lots of manual collation. In this paper we present a co-occurrence words extraction algorithm based on the lexical attraction and repulsion model, and combine some common statistical methods with the algorithm to improve its effect. In the open test, our system's Interesting performance is 60.87%. We show good performance in speed and precision when applied the algorithm on a co-occurrence search system based on web.

作者郭锋李绍滋周昌乐林颖李胜睿

机构地区厦门大学计算机与信息工程学院

出处《中文信息学报》 CSCD 北大核心 2004年第6期16-22,共7页 Journal of Chinese Information Processing

基金福建省自然科学基金资助项目 (A0 310 0 0 9) 福建省重点科技资助项目 (2 0 0 1J0 0 5 )

关键词计算机应用中文信息处理共现词词汇吸引与排斥模型共现距离 computer application Chinese information processing co-occurrence lexical attraction and repulsion model co-occurrence distance

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Ying Ding, IR and AI. Using Co - occurrence Theory to Generate Lightweight Ontologies[A]. Proceedings of 12th International Workshop on Database and Expert Systems Applications[C], Pages:961 -965 , Sept.,2001.
2E1-Sayed Atlam, A New Method for Construction Field Association Terms Using Co-occurrence Words and Declinable Words Information[A]. Proceedings of 2002 IEEE Intemational Conference on Systems, Man and Cybernetics[C],Volume 4 ,Pages:5, Oct. 2002 .
3Yuen-Hsien Tseng, Fast Co-occurrence Thesaurus Construction for Chinese News[A]. Proceedings of 2001 IEEE International Conference on Systems, Man, and Cybernetics[C], Volume 2, Pages:853- 858, Oct. 2001.
4Doug Beeferman, Adam Berger, John Lafferty. A Model of Lexical Attraction and Repulsion[A]. Proceedings of the35th Annual Meeting of the Association for Computational Linguistics. [C], Pages: 373- 380, 1997.
5Ido Dagan, Shaul Marcus. Contextual word similarity and estimation from sparse data[J]. Computer Speech and Language, Vol. 9, Pages: 123 - 152,1995.9.

同被引文献115

1张春秀,李长春.20世纪90年代以来现代汉语虚词研究综述[J].齐齐哈尔师范高等专科学校学报,2007(5):36-39. 被引量：3
2贺宏朝,何丕廉,高剑峰,黄昌宁.Query Expansion for Chinese Information Retrieval by Using a Decaying Co-occurrence Model[J].Transactions of Tianjin University,2002,8(3):183-186. 被引量：3
3张秀坤,赵丹群.TREC概况及其最新发展研究[J].情报理论与实践,2004,27(5):537-540. 被引量：8
4刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
5陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
6陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
7全昌勤,刘辉,何婷婷.基于统计模型的词语搭配自动获取方法的分析与比较[J].计算机应用研究,2005,22(9):55-57. 被引量：11
8陈浩,何婷婷,姬东鸿.基于MDL聚类的无导词义消歧[J].小型微型计算机系统,2005,26(10):1846-1849. 被引量：2
9秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
10耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15

引证文献8

1周进华,刘贵全.基于衰减词共现图的多文档摘要研究[J].小型微型计算机系统,2009,30(1):173-177. 被引量：4
2乔亚男,齐勇,侯迪.一种高稳定性词汇共现模型[J].西安交通大学学报,2009,43(6):24-27. 被引量：2
3葛斌,封孝生,汤大权.基于模板的无导词义消歧方法[J].计算机工程与科学,2009,31(12):113-116.
4王小芳,王瑞芳,张树功.一种无监督文本特征计算模型[J].吉林大学学报（理学版）,2010,48(1):79-84. 被引量：2
5林建方,牛成,李生,郑德权.Web数据反馈的搭配抽取方法[J].哈尔滨工业大学学报,2010,42(2):281-285.
6王磊,黄广君.结合概念语义空间的语义扩展技术研究[J].计算机工程与应用,2012,48(35):106-109. 被引量：7
7张辉,李国辉,徐新文,贾立,孙博良.词网络的新闻事件关联建模[J].国防科技大学学报,2014,36(4):169-176. 被引量：5
8孙爱珍,叶向平.功能词汇计算研究综述[J].复旦外国语言文学论丛,2011(2):59-65.

二级引证文献20

1金春霞,周海岩.位置加权文本聚类算法[J].计算机工程与科学,2011,33(6):154-158. 被引量：6
2钟军,田生伟,禹龙.Web文本中维吾尔语领域术语的自动发现[J].计算机应用,2012,32(2):407-410. 被引量：1
3黄云,洪佳明,颜一鸣.基于图的特征词权重算法及其在文档排序中的应用[J].计算机系统应用,2012,21(6):216-218. 被引量：2
4赵文清,侯小可.基于词共现图的中文微博新闻话题识别[J].智能系统学报,2012,7(5):444-449. 被引量：31
5张兰芳,年梅.教学资源概念查询扩展研究[J].计算机工程与应用,2014,50(13):127-132. 被引量：2
6翟继友.一种混合型的句子语义相似度计算方法[J].科学技术与工程,2014,22(28):81-85. 被引量：4
7翟继友.基于深度置信网络的语义相关度计算模型[J].科学技术与工程,2014,22(32):58-62. 被引量：4
8谷军,何南.基于特征词权值的渔业文本分类研究[J].大众科技,2014,16(12):40-42.
9吴永奎.新闻理论和案例结合的研究[J].西部广播电视,2015,36(10):58-58.
10张兰芳,年梅,李芳.信息查询扩展发展研究[J].计算机时代,2015(11):8-11.

1赵燕,曲守宁,赵玲,崔忠玲.基于数据挖掘的课程相关性分析系统的应用研究[J].山东科学,2009,22(1):46-49. 被引量：5
2鹿莉霞.关联规则在课程相关性分析中的应用[J].电脑知识与技术（过刊）,2011,17(5X):3476-3478. 被引量：1
3霍林,王力,黄俊文,潘英花.一种结合同义词典和词对共现距离的查询扩展方法[J].广西大学学报（自然科学版）,2010,35(2):303-309. 被引量：5
4贾洪艳,林庆,朱翠苗,郑广成.关联规则自动综合评价方法的研究[J].科技广场,2007(5):29-30.
5卢超,梅卫峰,陈俊良,徐永森.基于感兴趣度的WWW个性化信息发现[J].计算机科学,2002,29(10):67-69. 被引量：4
6綦艳霞,杨炳儒.KDD中知识评价的研究综述[J].计算机应用研究,2001,18(12):1-4. 被引量：13
7杨炳儒,綦艳霞.感兴趣度的研究综述[J].计算机科学,2001,28(10):43-45. 被引量：1
8李贵民,马丰原.基于视觉感兴趣度和视觉系统特性融合的图像质量评价方法[J].科学技术与工程,2014,22(7):236-240. 被引量：1
9杨炳儒,綦艳霞.KDD中因果关联规则的评价方法[J].软件学报,2002,13(6):1142-1147. 被引量：20
10邓艺,赵险峰,冯登国.基于非均匀DCT的量化索引调制隐写[J].电子与信息学报,2010,32(2):323-328. 被引量：4

中文信息学报

2004年第6期

浏览历史

内容加载中请稍等...

基于词汇吸引与排斥模型的共现词提取被引量：8

参考文献5

同被引文献115

引证文献8

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于词汇吸引与排斥模型的共现词提取 被引量：8

参考文献5

同被引文献115

引证文献8

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于词汇吸引与排斥模型的共现词提取被引量：8