基于示例的文本标题分类机制被引量：17

THE MECHANISM OF TEXT TITLE CLASSIFICATION BASED ON EXAMPLES

下载PDF

导出

摘要文本分类有助于用户有选择地阅读和处理海量文本 ,给出了基于示例的文本标题分类机制 .它以具有确定分类标准的标题分类为应用背景 ,在计算标题与分类主题词表直接匹配的基础上 ,利用基于分类树的上位概念匹配机制和基于潜在语义空间的相似度判定 ,综合评价文本标题与类别的相关关系 .其特点是充分利用上下文环境来确定标题与类别相关程度 ,而不是单纯地依赖于其共现信息 . Text classification can help users selectively process huge volumes of texts in the Internet. Text title classification based on example texts is presented in this paper. It not only considers the direct matches between titles and the keyword sets of classes, but also takes into account the upper concept matches and semantic similarities. It uses vector space model as the representation for texts. It adopts the mechanism of indirect matches (upper concept matches), and calculates the similarities between texts and classes in a semantic space rather than term's space. As a result, it makes full use of the context ofKeywords instead of their frequencies, to determine the degree of correlation between keywords and classes.

作者林鸿飞

机构地区大连理工大学计算机科学系

出处《计算机研究与发展》 EI CSCD 北大核心 2001年第9期1132-1136,共5页 Journal of Computer Research and Development

关键词潜在语义索引文本标题分类示例信息处理计算机 text classification, latent semantic indexing, vector space model, title classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1林鸿飞,战学刚,姚天顺.基于概念的文本结构分析方法[J].计算机研究与发展,2000,37(3):324-328. 被引量：36
2陈磊.基于HNC语义分析的中文标题分类方法.计算语言学文集[M].北京:清华大学出版社,1999.371-375.
3战学钢姚天顺.基于汉语分析的中文标题分类方法.中文信息处理国际会议论文集[M].北京:清华大学出版社,1998.321-324.
4林鸿飞,战学刚,姚天顺.基于潜在语义索引的文本分析方法[J].模式识别与人工智能,2000,13(1):47-51. 被引量：9
5－.中国分类主题词表，分类号－主题词对应表，第一卷[M].北京:华艺出版社,1994..
6－.中国分类主题词表，主题词－分类号对应表，第二卷[M].北京:华艺出版社,1994..
7战学刚,林鸿飞,姚天顺.中文文献的层次分类方法[J].中文信息学报,1999,13(6):20-25. 被引量：22
8战学钢，中文信息学报，1999年，13卷，6期，20页
9陈磊，计算语言学文集，1999年，371页
10战学钢，中文信息处理国际会议论文集，1998年，321页

二级参考文献11

1战学刚姚天顺.基于汉语分析的中文分类方法.1998中文信息处理国际会议论文集[M].北京:清华大学出版社,1998..
2战学刚，1998中文信息处理国际会议论文集，1998年
3吴立德，大规模中文文本处理，1997年
4姚天顺，自然语言理解.一种让机器懂得人类语言的研究，1995年
5Yang Yiming，http://www.cs.cmu.edu//yiming
6刘念斯,张志达,陈玮,毕锦烟.OTPA结合传函分析在路噪研究中的应用[J].科学技术与工程,2017,17(12):14-20. 被引量：18
7孙周亮,刘冀,谈新,董晓华,舒章康.近50 a澴河上游汛期降雨径流多尺度时空演变[J].长江流域资源与环境,2018,27(6):1324-1332. 被引量：14
8黎云云,畅建霞,王於琪,金文婷,郭爱军,樊晶晶.渭河流域河川径流对气候变化的时空响应机理[J].应用基础与工程科学学报,2018,26(3):502-514. 被引量：12
9王远见,傅旭东,王光谦.黄河流域降雨时空分布特征[J].清华大学学报（自然科学版）,2018,58(11):972-978. 被引量：18
10段娜,杨贵羽,游进军.五指山市近60年降雨量时空演变规律分析[J].南水北调与水利科技,2018,16(6):60-67. 被引量：19

共引文献61

1徐海涛,杨森,柴乔林.基于统计分词的中文邮件智能分类系统[J].华中科技大学学报（自然科学版）,2003,31(S1):325-328. 被引量：1
2宁卓,邹阳,傅光轩.基于内容的智能EMAIL安全拦截系统模型[J].计算机工程,2000,26(S1):227-231. 被引量：1
3胡俊华,杨波,李金屏.自然语言理解研究略述[J].济南大学学报（社会科学版）,2001,11(5):58-62. 被引量：8
4郑海,林鸿飞.基于段落匹配的文本分类机制[J].计算机工程与应用,2004,40(28):174-176. 被引量：3
5袁时金,李荣陆,周水庚,胡运发.层次化中文文档分类[J].通信学报,2004,25(11):55-63. 被引量：6
6冯伟.基于内容的智能E-mail安全拦截系统模型[J].三峡大学学报（自然科学版）,2004,26(5):453-455.
7江志雄,丁岳伟.基于K-近邻方法的网络信息文本分类[J].上海理工大学学报,2005,27(1):83-86. 被引量：2
8章成志,侯汉清.面向概念挖掘的文本层次模型研究[J].中国图书馆学报,2005,31(2):58-61. 被引量：3
9朱道平.走出“促销”误区推进精确营销[J].信息网络,2005(3):18-21.
10郑海,林鸿飞,杨志豪,付建文.基于概念和关联扩充的文本标题分类机制[J].小型微型计算机系统,2005,26(5):732-734.

同被引文献135

1陶跃华,赵波,杨秀国,廖燕玲.基于向量空间的检索模型研究[J].现代图书情报技术,2002(S1):85-86. 被引量：1
2张加民.标题预示性的元功能视角[J].外语教学,2004,25(6):36-39. 被引量：8
3苏新宁,徐进鸿,史九林.档案自动分类算法研究[J].情报学报,1995,14(3):194-200. 被引量：11
4阳琳贇,王文渊.聚类融合方法综述[J].计算机应用研究,2005,22(12):8-10. 被引量：28
5苏亮,聂峰光,郭力,李晓霞,梁春燕.隐含语义检索系统词条权重的处理[J].计算机与应用化学,2005,22(11):972-976. 被引量：4
6赵丰年,刘林,商建云.基于概念的文本过滤模型[J].计算机工程与应用,2006,42(4):186-188. 被引量：11
7张剑飞,王辉,周颜军,王双成.基于局部优化具有连续变量的贝叶斯网络结构学习[J].东北师大学报（自然科学版）,2006,38(1):27-30. 被引量：5
8彭曙蓉,王耀南.针对小文本的Web数据挖掘技术及其应用[J].微计算机信息,2006,22(07X):203-205. 被引量：10
9韩小云,刘瑞岩.ART－2网络学习算法的改进[J].数据采集与处理,1996,11(4):241-245. 被引量：22
10高茂庭,王正欧.基于LSA降维的RPCL文本聚类算法[J].计算机工程与应用,2006,42(23):138-140. 被引量：5

引证文献17

1王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术[J].计算机应用研究,2004,21(8):151-154. 被引量：15
2白振田,侯汉清.基于向量空间的行业自动分类系统应用[J].情报科学,2005,23(6):940-944. 被引量：4
3余正涛,樊孝忠,郭剑毅,耿增民.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1889-1893. 被引量：46
4李良俊,张斌,杨明.基于LSA降维的KNN文本分类算法[J].东北师大学报（自然科学版）,2007,39(2):33-36. 被引量：7
5王宁.浅析潜在语义分析的原理及其应用[J].新世纪图书馆,2007(5):67-70. 被引量：2
6王强,关毅,王晓龙.基于标题类别语义识别的文本分类算法研究[J].电子与信息学报,2007,29(12):2885-2890. 被引量：6
7李媛媛,马永强.基于潜在语义索引的文本特征词权重计算方法[J].计算机应用,2008,28(6):1460-1462. 被引量：17
8卢雪燕.基于关键词的文献分类[J].梧州学院学报,2004,15(4):69-74.
9许满英,张永奎.基于突发事件新闻标题的文本过滤模型[J].电脑开发与应用,2010,23(4):1-2.
10刘璇,许洁萍,陈捷.基于标签的歌曲相似性研究(英文)[J].计算机与数字工程,2011,39(10):4-8.

二级引证文献156

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2陈频.基于自然语言处理的中文科技论文特征提取研究[J].电脑知识与技术（过刊）,2007(16):1112-1114. 被引量：1
3尚文刚.医学文献全文检索的中文分词方法研究[J].广东医学院学报,2005,23(4):473-475. 被引量：1
4李智敏.试论知识的三种形态[J].情报杂志,2005,24(10):105-107. 被引量：3
5焦玉英,刘伟成,孙吉红.基于向量空间模型的专题文献过滤算法研究[J].情报学报,2005,24(5):562-566. 被引量：3
6刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
7刘磊.基于潜在语义分析的JAVA类库检索方法[J].电脑开发与应用,2006,19(3):43-44.
8李莉,张太红,李霞.潜在语义分析在中文文本分类中的应用[J].新疆农业大学学报,2006,29(2):99-102. 被引量：2
9肖红,许少华,李欣.具有三级索引词库结构的中文分词方法研究[J].计算机应用研究,2006,23(8):49-51. 被引量：16
10高庆狮,李莉,刘宏岚.基于语义单元表示树剪枝的关键字过滤方法[J].北京科技大学学报,2006,28(12):1191-1195. 被引量：7

1宋晔,张敏.基于文本分类的搜索引擎的设计与实现[J].软件导刊,2012,11(8):87-88.
2闫旸,赵佳鹏,李全刚,张洋,柳厅文,时金桥.面向文本标题的人物关系抽取[J].计算机应用,2016,36(3):726-730. 被引量：3
3郑海,林鸿飞,杨志豪,付建文.基于概念和关联扩充的文本标题分类机制[J].小型微型计算机系统,2005,26(5):732-734.
4唐亮,席耀一,赵晓峰,易绵竹.基于特征相似度的跨语言事件映射[J].计算机应用,2016,36(A02):247-250. 被引量：3
5汤寒青,王汉军.改进的K-means算法在网络舆情分析中的应用[J].计算机系统应用,2011,20(3):165-168. 被引量：8
6殷风景,肖卫东,葛斌,李芳芳.一种面向网络话题发现的增量文本聚类算法[J].计算机应用研究,2011,28(1):54-57. 被引量：16
7李兴春.计算机信息检索中的本体构建研究[J].重庆文理学院学报（社会科学版）,2013,32(3):87-91. 被引量：3
8刘新,刘任任.一种基于主题词表的快速中文文本分类技术[J].情报学报,2008,27(3):323-327. 被引量：1
9王强,关毅,王晓龙.基于标题类别语义识别的文本分类算法研究[J].电子与信息学报,2007,29(12):2885-2890. 被引量：6
10张云涛,龚玲,王永成.基于综合方法的文本主题句的自动抽取[J].上海交通大学学报,2006,40(5):771-774. 被引量：16

计算机研究与发展

2001年第9期

浏览历史

内容加载中请稍等...

基于示例的文本标题分类机制被引量：17

参考文献14

二级参考文献11

共引文献61

同被引文献135

引证文献17

二级引证文献156

相关作者

相关机构

相关主题

浏览历史

基于示例的文本标题分类机制 被引量：17

参考文献14

二级参考文献11

共引文献61

同被引文献135

引证文献17

二级引证文献156

相关作者

相关机构

相关主题

浏览历史

基于示例的文本标题分类机制被引量：17