期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于WordNet概念向量空间模型的文本分类 被引量:16
1
作者 张剑 李春平 《计算机工程与应用》 CSCD 北大核心 2006年第4期174-178,共5页
文章提出了一种文本特征提取方法,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,建立文本的概念向量空间模型作为文本特征向量,使得在训练过程中能够提取出代表类别的高层次信息。实验结果表... 文章提出了一种文本特征提取方法,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,建立文本的概念向量空间模型作为文本特征向量,使得在训练过程中能够提取出代表类别的高层次信息。实验结果表明,当训练文本集合很小时,方法能够较大地提高文本的分类准确率。 展开更多
关键词 文本自动分类 wordnet 概念向量 向量空间模型
在线阅读 下载PDF
基于SUMO和WordNet本体集成的文本分类模型研究 被引量:8
2
作者 胡泽文 王效岳 白如江 《现代图书情报技术》 CSSCI 北大核心 2011年第1期31-38,共8页
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和W ordNet本体集成的文本分类模型,该模型利用W ordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量... 针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和W ordNet本体集成的文本分类模型,该模型利用W ordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。 展开更多
关键词 SUMO本体 wordnet 本体集成 文本分类模型 词向量空间 概念向量空间
原文传递
基于多约简Fisher-VSM和SVM的文本情感分类 被引量:1
3
作者 邢玉娟 谭萍 曹晓丽 《计算机应用与软件》 CSCD 2016年第9期301-305,共5页
为了提高文本情感分类准确率,提出基于多约简Fisher向量空间模型和支持向量机的文本情感分类算法。该算法首先采用Fisher判别准则提取TF-IDF特征向量,然后依据低维文档向量空间模型间的相似度对文档进行聚类,减少文档的数目。该算法从... 为了提高文本情感分类准确率,提出基于多约简Fisher向量空间模型和支持向量机的文本情感分类算法。该算法首先采用Fisher判别准则提取TF-IDF特征向量,然后依据低维文档向量空间模型间的相似度对文档进行聚类,减少文档的数目。该算法从维度和数量两个方面对文档的向量空间模型进行约简,以期提高支持向量机的训练速度和分类性能。仿真实验结果表明,该算法具有良好的召回率和分类准确率。 展开更多
关键词 文本情感分类 Fisher判别比 向量空间模型 支持向量机
在线阅读 下载PDF
基于概念层次的英文文本自动分类研究 被引量:3
4
作者 厉宇航 罗振声 程慕胜 《计算机工程与应用》 CSCD 北大核心 2004年第11期75-77,共3页
该文意在设计并且实现一个针对英文文本的自动归类以及检索系统,重点在于提高分类方法的准确率。自动文本分类系统中,一般来说文本内容是以N维特征空间的形式存储的,所以特征提取的方法和准确率极大地影响到分类结果的正确率。传统方法... 该文意在设计并且实现一个针对英文文本的自动归类以及检索系统,重点在于提高分类方法的准确率。自动文本分类系统中,一般来说文本内容是以N维特征空间的形式存储的,所以特征提取的方法和准确率极大地影响到分类结果的正确率。传统方法是基于词形的,并不考察词语的意义,忽略了同一意义下词形的多样性、不确定性以及词义之间的关系,尤其是上下位关系。该文提出的方法,在向量空间模型(VSM)的基础上,以“概念”为基础,同时考虑词义的上位关系,使得训练过程中可以从词语中提炼出更加概括性的信息,从而达到提高分类精度的目的。 展开更多
关键词 自动文本分类 概念层次 vsm wordnet
在线阅读 下载PDF
基于概念扩充的文本过滤模型 被引量:9
5
作者 尤文建 李绍滋 李堂秋 《计算机工程与应用》 CSCD 北大核心 2003年第25期74-77,共4页
该文在介绍文本过滤的背景及向量空间模型的同时,提出了基于语义词典对用户模板进行扩充的文本过滤模型,该模型首先对文本进行分析,把文本表示成向量空间中的向量形式,在形成用户初始模板之后,对用户模板进行同义词扩充,形成扩充后的用... 该文在介绍文本过滤的背景及向量空间模型的同时,提出了基于语义词典对用户模板进行扩充的文本过滤模型,该模型首先对文本进行分析,把文本表示成向量空间中的向量形式,在形成用户初始模板之后,对用户模板进行同义词扩充,形成扩充后的用户模板,以此模板来进行文本过滤。在用户反馈的基础上,自适应地修改该模板,以适应用户变化的需求及改善系统过滤性能。实验表明,这样的确可以提高系统覆盖面,提高系统效率。 展开更多
关键词 概念扩充 向量空间 用户模板 文本表示 wordnet
在线阅读 下载PDF
基于循环迭代算法改进的TFIDF方法及应用 被引量:2
6
作者 王行恒 曹军 +2 位作者 邓学 刘垚 高适 《计算机应用与软件》 CSCD 北大核心 2012年第11期305-308,共4页
文本聚类是指自动地将文本集合分组为不同的类别,应用非常广泛。研究发现,传统的TFIDF文本分类方法存在很多的不足,针对这些不足提出改进。通过使用循环迭代算法根据特征词在类内和类间的分布情况不断优化特征词的选取,获得不断改进的... 文本聚类是指自动地将文本集合分组为不同的类别,应用非常广泛。研究发现,传统的TFIDF文本分类方法存在很多的不足,针对这些不足提出改进。通过使用循环迭代算法根据特征词在类内和类间的分布情况不断优化特征词的选取,获得不断改进的分类。采用支持向量机分类器对文本分类。通过对大批量的数据集测试,该算法显示出较好的特征选择效果,能够有效地提高分类精度。 展开更多
关键词 TFIDF 文本聚类 文本分类 vsm 支持向量机 SVM 迭代算法
在线阅读 下载PDF
改进的TF-IDF算法在文本分类中的研究 被引量:14
7
作者 张伟 石倩 +3 位作者 何霄 王晨 李禾香 李骥然 《信息技术与网络安全》 2021年第7期72-76,83,共6页
企业数字化建设过程中,对大量日常经营活动文本的数字化处理通常是多任务的,需要对文本数据同时完成信息抽取和文本分类任。在此应用场景下,为了实现更加精准的分类效果,提出一种改进的TF-IDF算法,将文本信息抽取结果也作为文本重要类... 企业数字化建设过程中,对大量日常经营活动文本的数字化处理通常是多任务的,需要对文本数据同时完成信息抽取和文本分类任。在此应用场景下,为了实现更加精准的分类效果,提出一种改进的TF-IDF算法,将文本信息抽取结果也作为文本重要类别区分特征。通过引入信息增益方法得到改进的权重计算公式,进而得到改进的文本特征向量空间表示,再构建文本分类模型。实验以石油行业中文文本为例,选取测试文本2006条进行文本分类对比实验,实验结果表明改进的TF-IDF算法精确率P达到99.3%,召回率R达到98.7%,相比于传统TF-IDF算法文本分类效果得到显著提高。 展开更多
关键词 文本分类 vsm TF-IDF 石油 支持向量机
在线阅读 下载PDF
中文网页自动分类系统研究
8
作者 廖文军 叶喜民 《新乡师范高等专科学校学报》 2007年第2期67-69,共3页
给出了一个网页自动分类系统的设计,讨论了预处理、批量训练、特征选择等模块的设计过程。本系统采用空间向量模型作为分类模型,在分类开始前对网页信息进行了预处理。
关键词 网页 文本分类 向量空间模型(vsm) 中文信息处理
在线阅读 下载PDF
一种英文自动摘要方法 被引量:2
9
作者 张燕 赵广社 郭培胜 《计算机工程与应用》 CSCD 北大核心 2009年第7期135-137,共3页
随着在线网页的指数型增长,自动摘要技术越来越受到人们的关注。针对抽取型摘要很少对文本进行语义分析、抽取出的句子可能偏离主题等缺陷,结合单文本摘要的特点,提出了一种英文自动摘要方法TLETS(TF-ISF and LexRank based English Tex... 随着在线网页的指数型增长,自动摘要技术越来越受到人们的关注。针对抽取型摘要很少对文本进行语义分析、抽取出的句子可能偏离主题等缺陷,结合单文本摘要的特点,提出了一种英文自动摘要方法TLETS(TF-ISF and LexRank based English Text Summarization)。该方法采用WordNet对向量空间模型的特征词进行概念统计,计算每个概念词的TF-ISF值作为其权值,最后计算每个句子的LexRank权值并提取出权值最高的几个句子作为摘要。实验结果表明,TLETS方法能很好地得到摘要结果。 展开更多
关键词 单文本 摘要 wordnet 向量空间模型 概念统计
在线阅读 下载PDF
基于句类特征的作者写作风格分类研究 被引量:20
10
作者 张运良 朱礼军 +1 位作者 乔晓东 张全 《计算机工程与应用》 CSCD 北大核心 2009年第22期129-131,223,共4页
不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用it... 不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用itc算法对特征项进行权重计算,KNN算法进行分类并利用集成判决技术,形成作者写作风格分类器。本分类器的性能在近现代小说的按作者写作风格的分类和鉴别方面的性能是可以接受的,并有进一步提升的可能。 展开更多
关键词 文本分类 作者写作风格 句类 向量空间模型 概念层次网络(HNC)理论 自然语言理解
在线阅读 下载PDF
概念推理网及其在文本分类中的应用 被引量:57
11
作者 李晓黎 刘继敏 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2000年第9期1032-1038,共7页
在分析了当前文本分类中常用方法的基础上 ,提出了一种新的分类模型 .该模型是对人的分类过程的一种模拟 .在已有的英语语义词典及大量训练集的基础上 ,应用机器学习、数据挖掘等技术进行知识获取并最终形成若干个概念推理网 .对待分类... 在分析了当前文本分类中常用方法的基础上 ,提出了一种新的分类模型 .该模型是对人的分类过程的一种模拟 .在已有的英语语义词典及大量训练集的基础上 ,应用机器学习、数据挖掘等技术进行知识获取并最终形成若干个概念推理网 .对待分类的文档可以激活相应的网络 ,同时传播推理以决定其类别的归属 ,试验表明 :该方法具有较高的分类正确率与召回率 . 展开更多
关键词 文本分类 向量空间模型 概念推理网 机器学习
在线阅读 下载PDF
一种基于语义的中文文本分类算法 被引量:4
12
作者 赵辉 刘怀亮 +1 位作者 范云杰 左晓飞 《情报理论与实践》 CSSCI 北大核心 2012年第3期115-118,共4页
针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词... 针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。 展开更多
关键词 文本分类 语义向量空间 向量空间模型 语义相似度 算法
原文传递
基于大规模文本的蛋白质交互关系自动提取 被引量:6
13
作者 封二英 牛耘 魏欧 《计算机应用》 CSCD 北大核心 2012年第A01期147-150,共4页
针对目前蛋白质交互(PPI)关系提取方法仅以单句中的信息为主要依据的问题,提出一种基于大规模文本的蛋白质交互关系自动提取的方法。首先通过对大规模生物医学文本的自动搜索建立目标蛋白质对的签名档,将蛋白质交互关系抽取转化为文本... 针对目前蛋白质交互(PPI)关系提取方法仅以单句中的信息为主要依据的问题,提出一种基于大规模文本的蛋白质交互关系自动提取的方法。首先通过对大规模生物医学文本的自动搜索建立目标蛋白质对的签名档,将蛋白质交互关系抽取转化为文本自动分类问题;然后提取签名档中的重要特征,建立蛋白质对的向量空间模型(VSM);最后采用支持向量机(SVM)对签名档进行分类。比较了四种对向量的特征进行加权和特征选择的方案。实验表明,基于大规模文本的蛋白质交互关系识别取得了最高达94.8%的精确度和65.1%的召回率;并且此方法充分利用已有的交互信息,免除了额外的人工标注的负担。 展开更多
关键词 蛋白质交互 大规模文本 向量空间模型 支持向量机 文本分类
在线阅读 下载PDF
基于正交分解的文本分类模型 被引量:3
14
作者 熊忠阳 李智星 +1 位作者 张玉芳 江帆 《计算机工程》 CAS CSCD 北大核心 2009年第14期227-229,共3页
针对文本分类领域中向量空间模型维数过高和空间扭曲的问题,提出一种基于正交分解的新模型。借用物理学中力的正交分解,将高维的文本向量映射到低维的以类别为坐标轴的空间中,解决了高维的向量和扭曲的空间这2个问题。实验表明,与向量... 针对文本分类领域中向量空间模型维数过高和空间扭曲的问题,提出一种基于正交分解的新模型。借用物理学中力的正交分解,将高维的文本向量映射到低维的以类别为坐标轴的空间中,解决了高维的向量和扭曲的空间这2个问题。实验表明,与向量空间模型相比,新模型下分类速度有较大提高,精度也有所增加。 展开更多
关键词 文本分类 正交分解 向量空间模型
在线阅读 下载PDF
基于情感角色模型的文本情感分类方法 被引量:3
15
作者 胡杨 戴丹 +3 位作者 刘骊 冯旭鹏 刘利军 黄青松 《计算机应用》 CSCD 北大核心 2015年第5期1310-1313,1319,共5页
针对传统情感分类方法因情感项指向不明引发的误判和隐藏观点遗漏等问题,提出一种基于评价对象情感角色模型的文本情感分类方法。该方法首先识别文本中的潜在评价对象,通过局部语义分析对潜在评价对象所在语句进行情感标注,确定潜在评... 针对传统情感分类方法因情感项指向不明引发的误判和隐藏观点遗漏等问题,提出一种基于评价对象情感角色模型的文本情感分类方法。该方法首先识别文本中的潜在评价对象,通过局部语义分析对潜在评价对象所在语句进行情感标注,确定潜在评价对象所在语句的正负极性,并定义其情感角色;然后,改进特征权值计算方法,将情感角色对应的倾向值融入模型特征空间中;最后,通过特征聚合对特征空间实现模型降维。实验结果表明,所提方法与提取强主观性情感项作为特征的情感分类方法相比,分类准确率约提高3.2%,可有效改善文本情感分类效果。 展开更多
关键词 文本情感分类 向量空间模型 局部语义分析 情感角色 特征聚合
在线阅读 下载PDF
基于类别空间模型的文本分类系统的设计与实现 被引量:11
16
作者 黄冉 郭嵩山 《计算机应用研究》 CSCD 北大核心 2005年第8期60-63,共4页
从理论和应用的角度对文本信息的分类方法进行研究,提出类别空间模型的概念,用于描述词语和类别之间的关系,并实现了基于类别空间模型的文本分类系统。通过实验表明,该系统有效地提高了文本分类的正确率。
关键词 文本分类 向量空间模型 类别空间模型
在线阅读 下载PDF
基于LDA主题模型的软件缺陷分派方法 被引量:11
17
作者 黄小亮 郁抒思 关佶红 《计算机工程》 CAS CSCD 北大核心 2011年第21期46-48,共3页
传统的基于向量空间模型的软件缺陷分派方法,由于存在特征空间维度高、数据稀疏且包含噪音等问题,分派准确率较低。为此,提出一种基于隐含狄利克雷分配(LDA)主题模型的软件缺陷分派方法,将缺陷报告从原始的高维文本单词空间映射到低维... 传统的基于向量空间模型的软件缺陷分派方法,由于存在特征空间维度高、数据稀疏且包含噪音等问题,分派准确率较低。为此,提出一种基于隐含狄利克雷分配(LDA)主题模型的软件缺陷分派方法,将缺陷报告从原始的高维文本单词空间映射到低维语义主题空间,在新的低维主题空间上进行分派。实验结果表明,在使用SVM和KNN分类器时,该方法的分派准确率较高。 展开更多
关键词 软件缺陷分派 隐含狄利克雷分配模型 马尔可夫链蒙特卡洛方法 吉布斯采样 文本分类 向量空间模型
在线阅读 下载PDF
基于句类向量空间模型的自动文本分类研究 被引量:6
18
作者 张运良 张全 《计算机工程》 CAS CSCD 北大核心 2007年第22期45-47,共3页
向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,... 向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,使用tfc算法对特征项进行权重计算,用KNN算法进行分类。该分类器的平均准确率和召回率都是可接受的,对类别的抽象程度无要求,即抽象度较高和较低的类别可以同时分类。通过使用更好的机器学习算法和其他的HNC语言理解技术,性能可以进一步提高。 展开更多
关键词 文本分类 句类 向量空间模型 HNC理论
在线阅读 下载PDF
基于概念簇的文本向量构建方法 被引量:2
19
作者 冯扬 罗森林 +2 位作者 潘丽敏 刘莉莉 陈开江 《通信学报》 EI CSCD 北大核心 2010年第S1期44-47,共4页
为提高文本向量对文本概念的逼近程度,通过将具有相同语法语义特征的词进行聚类,提取概念簇,利用空间变换将文本向量由词空间变换到概念簇空间上来表达文本。实验比较了基于TF-IDF、IG、TF-IDF-IG、LSA以及它们结合概念簇后对文本分类... 为提高文本向量对文本概念的逼近程度,通过将具有相同语法语义特征的词进行聚类,提取概念簇,利用空间变换将文本向量由词空间变换到概念簇空间上来表达文本。实验比较了基于TF-IDF、IG、TF-IDF-IG、LSA以及它们结合概念簇后对文本分类的效果,证明了基于概念簇的文本向量构建方法能提高文本向量对文本概念逼近的准确程度,同时也提高了不同类型文本之间的区分度。 展开更多
关键词 中文信息处理 文本向量 概念簇 文本分类
在线阅读 下载PDF
基于概念向量空间模型的电子邮件分类
20
作者 曾超 吕钊 顾君忠 《计算机应用》 CSCD 北大核心 2008年第12期3248-3250,共3页
提出了一个基于概念向量空间模型的电子邮件分类方法。在提取电子邮件特征向量时,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,从而建立电子邮件的概念向量空间模型作为电子邮件的特征向量... 提出了一个基于概念向量空间模型的电子邮件分类方法。在提取电子邮件特征向量时,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,从而建立电子邮件的概念向量空间模型作为电子邮件的特征向量。使用TF*IWF*IWF方法对概念向量进行权值修正,最后通过简单向量距离分类方法来确定电子邮件的类别。实验结果表明,当训练集合数目有限时,该方法能够有效提高电子邮件的分类准确率。 展开更多
关键词 电子邮件分类 wordnet 概念向量 向量空间模型
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部