一种基于语义和统计特征的中文文本特征表示方法被引量：8

An Approach of Chinese Text Representation Based on Semantic and Statistic Feature

下载PDF

导出

摘要基于关键词集的中文文本特征表示方法难以准确表示文本语义信息,从而导致聚类质量较差.为了解决这个问题,本文将本体论和词共现模型的思想引入到中文文本的特征表示中,并在此基础上提出了一种基于语义和统计特征的中文文本特征表示方法.本方法在统计特征的基础上加入了基于知网和特征项共现的语义特征,实验结果表明该方法更加准确地表示了中文文本的语义信息,使得中文文本自动聚类的质量提高了近18%. The approach of Chinese text representation based on keywords set cannot represent the semantic information of text, and then results in low quality of text clustering. To settle this problem, this paper introduces Ontology and the idea of Term Co-occurrence into Chinese text representation and presents an approach of Chinese text representation based on semantic and statistic feature. This approach adds semantic feature based on Hownet and feature co-occurrence. Experimental results show that this approach can represent the semantic information of text more precisely and improve the quality of text clustering greatly.

作者赵鹏耿焕同蔡庆生

机构地区中国科学技术大学计算机系

出处《小型微型计算机系统》 CSCD 北大核心 2007年第7期1311-1313,共3页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(70171052)资助安徽省自然科学基金项目(2004kj011)资助安徽省高校青年教(2006jq1040)资助

关键词向量空间模型本体论知网词共现 vector space model ontology HowNet term co-occurrence

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1宫秀军,史忠植.基于Bayes潜在语义模型的半监督Web挖掘[J].软件学报,2002,13(8):1508-1514. 被引量：28
2刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
3杨尔弘,张国清,张永奎.基于义原同现频率的汉语词义排歧方法[J].计算机研究与发展,2001,38(7):833-838. 被引量：26
4陈宁,陈安,周龙骧,贾维嘉,罗三定.基于模糊概念图的文档聚类及其在Web中的应用[J].软件学报,2002,13(8):1598-1605. 被引量：12

二级参考文献24

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：60
2[1]Han, J., Cai, Y., Cercone, N. Knowledge discovery in databases: an attribute-oriented approach. In: Yuan, Le-yan, ed. Proceedings of the 18th International Conference on Very Large Data Bases. Vancouver: Morgan Kaufmann, 1992. 547～559.
3[2]Srikant, R., Agrawal, R. Mining generalized association rules. In: Umeshwar, D., Gray, P.M.D., Shojiro, N., eds. Proceedings of the 21st International Conference on Very Large Data Bases. Zurich: Morgan Kaufmann, 1995. 407～419.
4[3]Han, J., Fu, Y. Discovery of multiple-level association rules from large database. In: Umeshwar, D., Gray, P.M.D., Shojiro, N., eds. Proceedings of the 21st International Conference on Very Large Data Bases. Zurich: Morgan Kaufmann, 1995. 420～431.
5[4]Oren, Z., Oren, E., Omid, M., et al. Fast and intuitive clustering of web document. In: Heckerman, D., Mannila, H., Pregibon, D., eds. Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining (KDD'97). Newport Beach, CA: AAAI Press, 1997. 287～290.
6[5]Cheung, D.W., Kao, B., Lee, J. W. Discovering user access patterns on the world-wide-web. In: Lu Hong-jun, Motoda, H., Liu, Huan, eds. Proceedings of the 1st Pacific-Asia Conference on Knowledge Discovery and Data Mining. Singapore: World Scientific, 1997. 303～316.
7[6]Salton, G., Buckley, C. Term-Weighting approaches in automatic text retrieval. Information Processing and Management, 1988,24(5):513～523.
8[7]Oren, Z. Clustering web documents: a phrase-based method for grouping search engine results [Ph.D. Thesis]. Seattle, WA: University of Washington, 1999.
9[8]Bezedek, J.C. Pattern Recognition with Fuzzy Objective Function Algorithms. New York: Plenum Press, 1981.
10[9]Ruspini, E.H. A new approach to clustering. Information Control, 1969,19(15):22～32.

共引文献93

1况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
2李霞,蒋盛益,郭艾侠.基于聚类和信息熵的特征选择算法[J].郑州大学学报（理学版）,2009,41(1):77-80. 被引量：4
3陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
4李虹,李磊.一种基于扩展概念图的词义识别算法[J].计算机科学,2004,31(7):171-174.
5赵心,蔡智,洪流,蔡庆生.一种基于关联规则的中文概念集生成算法[J].计算机科学,2004,31(7):175-177. 被引量：5
6刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
7陈涛,宋妍,谢阳群.基于IIG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005,24(2):203-209. 被引量：14
8傅向华,冯博琴,马兆丰,韩冰.基于核方法的Web挖掘研究[J].小型微型计算机系统,2005,26(5):727-731. 被引量：3
9王小英,赵海,林涛,张文波,尹震宇.基于信任的普适计算服务选择模型[J].通信学报,2005,26(5):1-8. 被引量：17
10余刚,陈华月,朱征宇,高原.基于词同现频率的文本特征描述[J].计算机工程与设计,2005,26(8):2180-2182. 被引量：8

同被引文献79

1梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
2李艳灵,李刚.基于文本数据的数据挖掘算法研究[J].新乡师范高等专科学校学报,2003,17(2):35-37. 被引量：1
3车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：122
4邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
5陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：23
6邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
7孟海东,张玉英.基于密度和对象方向聚类算法的改进[J].计算机工程与应用,2006,42(20):154-156. 被引量：14
8张素香,文娟,秦颖,袁彩霞,钟义信.实体关系的自动抽取研究[J].哈尔滨工程大学学报,2006,27(B07):370-373. 被引量：10
9罗娜,左万利,袁福宇,张靖波,张慧杰.Using ontology semantics to improve text documents clustering[J].Journal of Southeast University(English Edition),2006,22(3):370-374. 被引量：8
10何婷婷,徐超,李晶,赵君喆.基于种子自扩展的命名实体关系抽取方法[J].计算机工程,2006,32(21):183-184. 被引量：25

引证文献8

1吕震宇,林永民,赵爽,朱卫东.基于同义词词林的文本特征选择与加权研究[J].情报杂志,2008,27(5):130-132. 被引量：10
2刘路,李弼程,张先飞.基于正反例训练的SVM命名实体关系抽取[J].计算机应用,2008,28(6):1444-1446. 被引量：5
3康健辉,吴渝,郑继明.基于向量空间模型的改进音频分类算法[J].河南师范大学学报（自然科学版）,2008,36(6):30-33.
4鲍蕾,黄曙光,李永亮.基于商空间粒度合成的中文文本表示法[J].小型微型计算机系统,2011,32(12):2434-2438.
5杨婉霞,孙理和,黄永峰.结合语义与统计的特征降维短文本聚类[J].计算机工程,2012,38(22):171-175. 被引量：7
6莫倩,张传想.互联网科技专家搜索系统[J].计算机系统应用,2013,22(5):29-33. 被引量：3
7曹晓.文本聚类研究综述[J].情报探索,2016(1):131-134. 被引量：17
8耿巧曼,徐小力,吴国新,夏欣雨.一种改进空间向量模型的东巴文本表示方法[J].北京信息科技大学学报（自然科学版）,2018,33(3):57-60. 被引量：3

二级引证文献44

1伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
2石芙芙,董祥军,陈修宽.Web文本分类中特征选择的研究[J].山东轻工业学院学报（自然科学版）,2009,23(3):22-24. 被引量：1
3徐建民,刘清江,付婷婷,戴旭.基于量化同义词关系的改进特征词提取方法[J].河北大学学报（自然科学版）,2010,30(1):97-101. 被引量：5
4徐建民,王金花,马伟瑜.利用本体关联度改进的TF-IDF特征词提取方法[J].情报科学,2011,29(2):279-283. 被引量：29
5陈振亚,陈光辉,徐建民.一种基于本体的文本特征选取方法[J].广西师范大学学报（自然科学版）,2011,29(1):143-146. 被引量：2
6邢美凤.科技文献关键词冗余解决方案研究[J].现代图书情报技术,2012(1):34-39. 被引量：2
7郑艳红,张东站.基于同义词词林的文本特征选择方法[J].厦门大学学报（自然科学版）,2012,51(2):200-203. 被引量：5
8杨婉霞,孙理和,黄永峰.结合语义与统计的特征降维短文本聚类[J].计算机工程,2012,38(22):171-175. 被引量：7
9毕海滨,黄宇光.基于语义与SVM的中文实体关系抽取[J].福建电脑,2013,29(12):96-98. 被引量：2
10陈国兰,孙国梓.微博平台监测网络突发事件的关键问题研究[J].情报探索,2014(8):39-42. 被引量：2

1辛颖梅,孙志挥.一种文本无监督特征选择方法[J].软件导刊,2009,8(9):9-11.
2王军,史科,王辉.垃圾邮件过滤中特征选择方法研究[J].合肥工业大学学报（自然科学版）,2009,32(12):1863-1866. 被引量：2
3周昭涛,卜东波,程学旗.文本的图表示初探[J].中文信息学报,2005,19(2):36-43. 被引量：17
4张玉峰,蔡皎洁.基于数据挖掘的Web文本语义分析与标注研究[J].情报理论与实践,2010,33(2):85-88. 被引量：7
5张野,于湛麟,宋微.基于语义特征的模糊聚类算法研究[J].信息技术,2014,38(12):121-123.
6陈严,陈喆,朱睿,谷冬冬.敏捷性访问控制策略的研究与应用[J].网络安全技术与应用,2008(9):56-57.
7杨学明.Web中文文本聚类研究及实现[J].现代图书情报技术,2006(12):81-84. 被引量：8
8王伟.文本自动聚类技术研究[J].情报杂志,2009,28(2):94-97. 被引量：6
9谢桂芳,李仁发.具有概念联想功能的语义关系库的自动构建[J].计算机工程与应用,2007,43(7):177-178. 被引量：2
10赵岩,周斌,陈儒华.文本分类算法研究[J].软件导刊,2013,12(10):54-56. 被引量：6

小型微型计算机系统

2007年第7期

浏览历史

内容加载中请稍等...

一种基于语义和统计特征的中文文本特征表示方法被引量：8

参考文献4

二级参考文献24

共引文献93

同被引文献79

引证文献8

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

一种基于语义和统计特征的中文文本特征表示方法 被引量：8

参考文献4

二级参考文献24

共引文献93

同被引文献79

引证文献8

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

一种基于语义和统计特征的中文文本特征表示方法被引量：8