期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
文本分类中结合评估函数的TEF-WA权值调整技术 被引量:26
1
作者 唐焕玲 孙建涛 陆玉昌 《计算机研究与发展》 EI CSCD 北大核心 2005年第1期47-53,共7页
文本自动分类面临的难题之一是如何从高维的特征空间中选取对文本分类有效的特征,以适应文本分类算法并提高分类精度.针对这一问题,在分析比较特征选择和权值调整对文本分类精度和效率的影响后,提出了一种结合评估函数的TEF-WA权重调整... 文本自动分类面临的难题之一是如何从高维的特征空间中选取对文本分类有效的特征,以适应文本分类算法并提高分类精度.针对这一问题,在分析比较特征选择和权值调整对文本分类精度和效率的影响后,提出了一种结合评估函数的TEF-WA权重调整技术,设计了一种新的权重函数,将特征评估函数蕴含到权值函数,按照特征对文本分类的辨别能力调整其在分类器中的贡献.实验结果证明了TEF-WA权值调整技术在提高分类精度和降低算法的时间复杂度方面都是有效的. 展开更多
关键词 向量空间模型(VSM) 特征选择 权重调整 特征评估函数 文本分类
在线阅读 下载PDF
文本特征加权方法TF·IDF的分析与改进 被引量:10
2
作者 林永民 吕震宇 +1 位作者 赵爽 朱卫东 《计算机工程与设计》 CSCD 北大核心 2008年第11期2923-2925,2929,共4页
TF·IDF作为一种简单、直观、处理速度快的文本特征加权方法,在文本分类中得到广泛应用。但是这种方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好的反映单词的有用程度,从而导致分类准确率下降。针... TF·IDF作为一种简单、直观、处理速度快的文本特征加权方法,在文本分类中得到广泛应用。但是这种方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好的反映单词的有用程度,从而导致分类准确率下降。针对TF·IDF方法存在的问题,采用在特征发生的条件下类的后验概率分布来衡量特征对分类的有效性,提出了一种基于熵的特征加权方法TF·Ensu。实验结果表明,这种加权方法具有很好的分类性能。 展开更多
关键词 文本分类 特征选择 特征加权 向量空间模型
在线阅读 下载PDF
中文文本分类相关算法的研究与实现 被引量:13
3
作者 徐沛娟 李雄飞 +1 位作者 惠玥 张桂林 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2009年第4期790-794,共5页
通过对分词歧义处理情况的分析,提出一种基于上下文的双向扫描分词算法,对分词词典进行改进,将词组短语的固定搭配引入词典中.讨论了特征项的选择及权重的设定,并引进2χ统计量参与项的权值计算,解决了目前通用TF-IDF加权法的不足,同时... 通过对分词歧义处理情况的分析,提出一种基于上下文的双向扫描分词算法,对分词词典进行改进,将词组短语的固定搭配引入词典中.讨论了特征项的选择及权重的设定,并引进2χ统计量参与项的权值计算,解决了目前通用TF-IDF加权法的不足,同时提出了项打分分类算法,提高了特征项对于文本分类的有效性.实验结果表明,改进后的权重计算方法性能更优越. 展开更多
关键词 文本分类 上下文双向扫描 向量空间模型 权重 特征选择
在线阅读 下载PDF
一种基于VSM文本分类系统的设计与实现 被引量:20
4
作者 李凡 林爱武 陈国社 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第3期53-55,共3页
阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似... 阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似度域值计算方法 .实验结果证明 :该分类系统能有效地提高文本分类效果 ,开放性测试的平均准确率在 80 %以上 ,且平均查全率达到了 86 % . 展开更多
关键词 文本分类 向量空间模型 特征提取 结构层次权重系数 训练算法 分类算法
在线阅读 下载PDF
文本分类实现技术 被引量:15
5
作者 王灏 黄厚宽 田盛丰 《广西师范大学学报(自然科学版)》 CAS 2003年第A01期173-179,共7页
文本分类是文本数据挖掘的重要技术.从文本分类实现过程的各个环节,包括建立文档模型、特征提取、维数约简、选择分类策略几个方面分别给出了目前实用的解决方案,同时对各种算法进行了分类和性能上的定性与定量的比较,最后讨论了国内文... 文本分类是文本数据挖掘的重要技术.从文本分类实现过程的各个环节,包括建立文档模型、特征提取、维数约简、选择分类策略几个方面分别给出了目前实用的解决方案,同时对各种算法进行了分类和性能上的定性与定量的比较,最后讨论了国内文本分类研究中的一些问题和未来的发展. 展开更多
关键词 文本分类 特征提取 维数约简 向量空间模型 相似度 组合模型
在线阅读 下载PDF
基于特征贡献度的特征选择方法在文本分类中应用 被引量:9
6
作者 孟佳娜 林鸿飞 李彦鹏 《大连理工大学学报》 EI CAS CSCD 北大核心 2011年第4期611-615,共5页
在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件... 在目前的文本分类问题中,特征选择方法被认为是提高分类精度和效率的一种有效方法.提出了一种基于特征贡献度FCD(feature contribution degree)的特征选择方法,本方法将某个特征对于类别之间区分能力的贡献度大小作为该特征被选取的条件,特征对于某一类别的FCD值为特征在该类中出现的文档数与在所有类别中出现的文档数的比值.对该方法进行了实验,并与一些常用的特征选择方法进行了比较,实验结果表明该方法具有更好的分类效果. 展开更多
关键词 文本分类 特征选择 向量空间模型 特征贡献度
在线阅读 下载PDF
基于类别空间模型的文本倾向性分类方法 被引量:12
7
作者 李艳玲 戴冠中 朱烨行 《计算机应用》 CSCD 北大核心 2007年第9期2194-2196,共3页
在对现有分类方法和文本倾向性分类的复杂性进行分析的基础上,提出了一种基于类别空间模型的文本倾向性分类方法。该方法采用组合特征提取方法,基于词语对类别的倾向性进行分类。实验结果表明该方法有效地提高了倾向性分类的精度和速度。
关键词 文本倾向性分类 类别空间模型 特征提取
在线阅读 下载PDF
基于最低词频CHI的特征选择算法研究 被引量:6
8
作者 肖雪 卢建云 +1 位作者 余磊 龚恒 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第6期137-142,共6页
CHI是文本分类中特征选择的重要方法.本文分析了CHI特征选择的特点,针对该方法的不足之处,提出了一种新的基于最低词频CHI的特征选择算法.该方法通过设置最低词频阈值去除了部分低频词,减少了CHI特征选择时低频词带来的干扰.同时本文对... CHI是文本分类中特征选择的重要方法.本文分析了CHI特征选择的特点,针对该方法的不足之处,提出了一种新的基于最低词频CHI的特征选择算法.该方法通过设置最低词频阈值去除了部分低频词,减少了CHI特征选择时低频词带来的干扰.同时本文对传统的TF-IDF特征权重计算方法进行了改进,在特征权重计算里加入改进后的CHI特征选择函数,使文本的表示更合理.通过在均衡语料和非均衡语料上的实验验证,新的方法有效提高了文本分类的效果. 展开更多
关键词 文本分类 向量空间模型 特征选择 χ2统计 低频词 权重计算
原文传递
基于改进KNN的文本分类方法 被引量:19
9
作者 钱晓东 王正欧 《情报科学》 CSSCI 北大核心 2005年第4期550-554,共5页
本文针对VSM (向量空间模型)中KNN (K最近邻算法)在文本处理环境下的不足,根据SOM (自组织映射神经网络)理论、特征选取和模式聚合理论,提出了一种改进的KNN文本分类方法。应用特征选取和模式聚合理论以降低特征空间维数。传统的VSM模... 本文针对VSM (向量空间模型)中KNN (K最近邻算法)在文本处理环境下的不足,根据SOM (自组织映射神经网络)理论、特征选取和模式聚合理论,提出了一种改进的KNN文本分类方法。应用特征选取和模式聚合理论以降低特征空间维数。传统的VSM模型各维相同的权重并不适应于文本处理的环境,本文提出应用SOM神经网络进行VSM模型各维权重的计算。结合两种改进,有效地降低了向量空间的维数,提高了文本分类的精度和速度。 展开更多
关键词 文本分类 特征提取 自组织神经网络 向量空间模型 K最近邻算法 模式聚合
在线阅读 下载PDF
基于命名实体的Web新闻文本分类方法 被引量:5
10
作者 潘正高 侯传宇 谈成访 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第8期1178-1182,共5页
文章对Web新闻领域的文本自动分类问题进行了研究,提出一种基于新闻实体要素的分类方法;在应用空间向量模型的基础上,充分考虑命名实体对Web新闻文本分类的特殊作用,并进行了实验。实验结果表明,以新闻实体要素为特征的文本分类系统可... 文章对Web新闻领域的文本自动分类问题进行了研究,提出一种基于新闻实体要素的分类方法;在应用空间向量模型的基础上,充分考虑命名实体对Web新闻文本分类的特殊作用,并进行了实验。实验结果表明,以新闻实体要素为特征的文本分类系统可得到较高的分类精度,该方法具有一定的实用价值。 展开更多
关键词 文本分类 向量空间模型 特征选择 命名实体
在线阅读 下载PDF
一种基于类别信息的文本自动分类模型 被引量:3
11
作者 刘海峰 刘守生 +1 位作者 张学仁 苏展 《现代图书情报技术》 CSSCI 北大核心 2010年第4期72-76,共5页
从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文... 从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。 展开更多
关键词 文本分类 特征选择 类别空间模型 特征降维
原文传递
面向Web信息检索的虚核文本分类算法 被引量:4
12
作者 李静 杨小帆 孙启干 《计算机工程》 CAS CSCD 2012年第10期182-184,187,共4页
提出一种虚核文本分类算法。通过单类别下标记数据的特征词频计算该类别虚核在每个特征项处的特征引力场强,进而获得类别虚核,根据类别虚核对待标记文本产生的引力大小判断其所属类别。实验结果表明,与k近邻算法和朴素贝叶斯算法相比,... 提出一种虚核文本分类算法。通过单类别下标记数据的特征词频计算该类别虚核在每个特征项处的特征引力场强,进而获得类别虚核,根据类别虚核对待标记文本产生的引力大小判断其所属类别。实验结果表明,与k近邻算法和朴素贝叶斯算法相比,虚核算法在分类精度和时间开销方面具有较大的优势。 展开更多
关键词 信息检索 文本分类 特征选择 向量空间模型 引力场模型 虚核
在线阅读 下载PDF
一种基于类平均相似度的文本分类算法 被引量:4
13
作者 谭学清 周通 罗琳 《现代图书情报技术》 CSSCI 北大核心 2014年第9期66-73,共8页
【目的】在KNN算法基础上,提高文本分类的分类性能和分类速度。【方法】提出一种基于类平均相似度的分类算法,通过计算待分类文本与训练集各类别中所有文本相似度的平均值判断待分类文本的所属类别。【结果】实验表明,本文方法在复旦、S... 【目的】在KNN算法基础上,提高文本分类的分类性能和分类速度。【方法】提出一种基于类平均相似度的分类算法,通过计算待分类文本与训练集各类别中所有文本相似度的平均值判断待分类文本的所属类别。【结果】实验表明,本文方法在复旦、Sogou平衡、非平衡语料上的Macro_F1比KNN分类算法分别提高3.5%、3.2%和3.3%,分类时间分别为KNN算法的1/22、1/6和1/5。【局限】考虑到KNN算法的时间效率,实验数据的文本数较少。【结论】相对于KNN,基于类平均相似度是一种适用于大规模文本分类的实用分类算法。 展开更多
关键词 类平均相似度 向量空间模型 KNN 文本分类 特征选择
原文传递
基于向量空间模型的文本自动分类系统的研究与实现 被引量:13
14
作者 武旭 须德 《北方交通大学学报》 CSCD 北大核心 2003年第2期38-41,共4页
分析了文本自动分类的关键理论及技术,给出一个已实现的基于向量空间模型(VSM)的文本自动分类系统的框架模型,重点描述此系统的实现算法.此算法在训练阶段通过部分训练集确定向量的特征提取维数,并提出一种"平均值"匹配阈值... 分析了文本自动分类的关键理论及技术,给出一个已实现的基于向量空间模型(VSM)的文本自动分类系统的框架模型,重点描述此系统的实现算法.此算法在训练阶段通过部分训练集确定向量的特征提取维数,并提出一种"平均值"匹配阈值调整方法,从而在精度和效率方面优于传统的分类算法.实验表明此系统查准率为91.8%,查全率为85%. 展开更多
关键词 文本分类 向量空间模型 特征提取
在线阅读 下载PDF
快速的文本倾向性分类方法(英文) 被引量:2
15
作者 李艳玲 戴冠中 覃森 《电子科技大学学报》 EI CAS CSCD 北大核心 2007年第6期1232-1236,共5页
提出了一种快速的文本倾向性分类方法,即采用类别空间模型描述词语对类别的倾向性,基于词的统计特征实现分类;针对倾向性分类的复杂性,在综合考虑词频、词的文本频、词的分布三种统计特征的基础上,提出一种新的二次特征提取方法:第一次... 提出了一种快速的文本倾向性分类方法,即采用类别空间模型描述词语对类别的倾向性,基于词的统计特征实现分类;针对倾向性分类的复杂性,在综合考虑词频、词的文本频、词的分布三种统计特征的基础上,提出一种新的二次特征提取方法:第一次特征提取,采用组合特征提取方法,除去低频词以及在各类中均匀分布的噪音词;第二次特征提取,去除类别倾向性不明显的词。实验表明该分类方法不仅具有较高的分类性能,而且运行速度快,在信息检索、信息过滤、内容安全管理等方面具有一定的实用价值。 展开更多
关键词 类别权重 类别空间模型 文本倾向性分类 二次特征提取
在线阅读 下载PDF
基于语义关联的文本分类研究 被引量:4
16
作者 张浩 谢飞 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第10期1501-1504,共4页
传统的文本表示是在向量空间模型的基础上,采用特征选择方法降低文本的维数,这种方法认为文本中词语是相互独立的,没有考虑彼此之间的语义信息。文章提出一种新的基于语义特征选择的文本分类方法,在已有特征选择的基础上,利用词语之间... 传统的文本表示是在向量空间模型的基础上,采用特征选择方法降低文本的维数,这种方法认为文本中词语是相互独立的,没有考虑彼此之间的语义信息。文章提出一种新的基于语义特征选择的文本分类方法,在已有特征选择的基础上,利用词语之间的语义关联性,将那些与已选择的词语具有密切联系的词语加入词语特征空间。实验表明,该方法与已有的特征选择方法比较,提高了文本分类的精度。 展开更多
关键词 文本分类 向量空间模型 特征选择 语义关联
在线阅读 下载PDF
新的基于簇划分文本分类方法 被引量:2
17
作者 台德艺 谢飞 胡学钢 《计算机工程与设计》 CSCD 北大核心 2009年第6期1461-1463,共3页
基于向量空间模型的文本分类由于文本向量维数较高导致分类器效率较低。针对这一不足,提出一种新的基于簇划分的文本分类方法。其主要思想是根据向量空间中向量间的距离,将训练文档分成若干簇,同一簇中的文档具有相同类别。测试时,根据... 基于向量空间模型的文本分类由于文本向量维数较高导致分类器效率较低。针对这一不足,提出一种新的基于簇划分的文本分类方法。其主要思想是根据向量空间中向量间的距离,将训练文档分成若干簇,同一簇中的文档具有相同类别。测试时,根据测试文档落入哪个簇,确定文档的类别,并且和传统的文本分类方法k-NN进行了比较。实验结果表明,该方法在高维空间具有良好的泛化能力和很好的时间性能。 展开更多
关键词 文本分类 向量空间模型 TF-IDF 特征选择 K-NN
在线阅读 下载PDF
一种基于词义和词频的向量空间模型改进方法 被引量:17
18
作者 邓晓衡 杨子荣 关培源 《计算机应用研究》 CSCD 北大核心 2019年第5期1390-1395,共6页
文本内容较多时,传统的向量空间模型(VSM)建模可能产生维数爆炸现象,效率低下且难以保证分类效果。针对VSM高维现象,利用词义和词频降低文本建模维度的方法提高效率和准确度,提出一种多义词判别优化的同义词聚类方法,结合上下文判别多... 文本内容较多时,传统的向量空间模型(VSM)建模可能产生维数爆炸现象,效率低下且难以保证分类效果。针对VSM高维现象,利用词义和词频降低文本建模维度的方法提高效率和准确度,提出一种多义词判别优化的同义词聚类方法,结合上下文判别多义词的词义后,根据特征项词义相似度进行加权,合并词义相近的特征项。新方法使特征向量维度大大降低,多义词判别提高了文本特征提取的准确性。与其他文本特征提取和文本分类方法进行比较,结果表明,该算法在效率和准确度上有明显提高。 展开更多
关键词 文本分类 特征选择 卡方分布 向量空间模型
在线阅读 下载PDF
基于对数似然比的中文文本分类特征选择研究 被引量:1
19
作者 梁伍七 李斌 +1 位作者 许磊 江克勤 《安庆师范大学学报(自然科学版)》 2018年第1期45-50,共6页
在向量空间模型的中文文本分类系统中,多数传统的特征选择算法忽视低频单词对分类的正面贡献,互信息特征选择过分放大低频单词对分类的贡献。针对这一问题,通过引入对数似然比统计量,提出对数似然比特征选择算法。与互信息算法相比,低... 在向量空间模型的中文文本分类系统中,多数传统的特征选择算法忽视低频单词对分类的正面贡献,互信息特征选择过分放大低频单词对分类的贡献。针对这一问题,通过引入对数似然比统计量,提出对数似然比特征选择算法。与互信息算法相比,低频单词对分类的贡献没有过分放大;与卡方算法相比,低频单词对分类的贡献计算更为准确。算法在考虑低频单词对分类结果产生正面影响的同时,能较好地控制其对分类产生的负面影响。采用KNN(K Nearest Neighbor)分类方法,特征选择选取对数似然比和传统特征选择算法,实验结果表明,对数似然比特征选择算法能够提高分类器的总体性能。 展开更多
关键词 模式识别 对数似然比 特征选择 文本分类 向量空间模型 KNN分类
在线阅读 下载PDF
中文文本分类中特征选择方法的比较 被引量:7
20
作者 符发 《现代计算机》 2008年第6期43-45,共3页
在自动文本分类系统中,特征选择是有效的降维数方法。通过实验对中文文本分类中的特征选择方法逐一进行测试研究,力图确定较优的中文文本分类特征选择方法。根据实验得出:在所测试的所有特征选择方法中,统计方法的分类性能最好,其次为... 在自动文本分类系统中,特征选择是有效的降维数方法。通过实验对中文文本分类中的特征选择方法逐一进行测试研究,力图确定较优的中文文本分类特征选择方法。根据实验得出:在所测试的所有特征选择方法中,统计方法的分类性能最好,其次为信息增益(IG),交叉熵(CE)和文本证据权(WE)也取得了较好的效果,互信息(MI)较差。 展开更多
关键词 特征选择 文本分类 向量空间模型
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部