期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
基于KNN的Web文本分类方法的研究 被引量:8
1
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《计算机应用与软件》 CSCD 北大核心 2007年第10期210-211,共2页
为了更有效地组织Internet上丰富的信息资源,通过分析Web文本的特点,提出了基于KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的... 为了更有效地组织Internet上丰富的信息资源,通过分析Web文本的特点,提出了基于KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 knn算法 特征提取 web文本 文本分类
在线阅读 下载PDF
使用KNN算法的中文Web文本分类技术研究 被引量:2
2
作者 曹勇 吴顺祥 《软件导刊》 2007年第1期107-109,共3页
对基于中文的Web文本分类技术进行了研究,介绍了web文本分类的基本过程和Web文本预处理及文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法KNN。最后通过实验测试了使用KNN算法的中文Web文本分类技术的效果。
关键词 中文web文本 文本分类 特征选取 knn
在线阅读 下载PDF
基于支持向量机的Web文本分类方法 被引量:19
3
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《微电子学与计算机》 CSCD 北大核心 2006年第9期102-104,共3页
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结... Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型,并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。 展开更多
关键词 支持向量机 特征提取 web文本 文本分类
在线阅读 下载PDF
改进的KNN方法及其在中文文本分类中的应用 被引量:5
4
作者 刘博 杨柳 袁方 《西华大学学报(自然科学版)》 CAS 2008年第2期33-36,共4页
介绍了基于KNN方法的中文文本分类流程及相关技术,在分析传统KNN方法不足的基础上提出一种改进的KNN方法。该方法在特征选取、权值确定、相似度计算等方面进行了改进,并给出了优化措施。实验表明:与传统的KNN方法相比,改进后的KNN方法... 介绍了基于KNN方法的中文文本分类流程及相关技术,在分析传统KNN方法不足的基础上提出一种改进的KNN方法。该方法在特征选取、权值确定、相似度计算等方面进行了改进,并给出了优化措施。实验表明:与传统的KNN方法相比,改进后的KNN方法在保证分类准确率的同时,使分类效率得到了有效提高。 展开更多
关键词 文本分类 knn 特征选取 相似度 优化
在线阅读 下载PDF
一种基于数据偏斜的改进KNN文本分类 被引量:3
5
作者 刘海峰 陈琦 +1 位作者 刘守生 苏展 《微电子学与计算机》 CSCD 北大核心 2010年第3期51-53,58,共4页
KNN是一种简单、有效、非参数的分类算法.针对样本分布偏斜的分类环境,首先提出了一种改进的特征选择方法进行特征降维,在此基础上进一步提出了一种基于分布的改进KNN方法用于文本分类,降低了分布偏斜问题对决策函数的影响.试验表明,所... KNN是一种简单、有效、非参数的分类算法.针对样本分布偏斜的分类环境,首先提出了一种改进的特征选择方法进行特征降维,在此基础上进一步提出了一种基于分布的改进KNN方法用于文本分类,降低了分布偏斜问题对决策函数的影响.试验表明,所提出的改进KNN文本分类方法具有较好的分类性能. 展开更多
关键词 特征选择 文本分类 改进knn 相似度
在线阅读 下载PDF
Web网页文本特征选择方法研究 被引量:4
6
作者 李会 王立峰 《计算机工程与设计》 CSCD 北大核心 2010年第16期3724-3727,共4页
提出了一种用于文本分类的特征选择方法。计算文本的特征值,每个特征值被赋予一个权重值,权重值的大小表示文本特征的重要程度,权重值最大的特征为决定性特征,决定性特征能代表某一类;通过构造树结构模型来消除噪音文本,同时还可以降低... 提出了一种用于文本分类的特征选择方法。计算文本的特征值,每个特征值被赋予一个权重值,权重值的大小表示文本特征的重要程度,权重值最大的特征为决定性特征,决定性特征能代表某一类;通过构造树结构模型来消除噪音文本,同时还可以降低计算复杂度;最后改进该算法,动态的检测相对于当前节点的最佳节点更有利于进行特征选择。实验结果表明,该方法具有较高的分类精度,且计算成本较低,符合规模Web自动分类的需要。 展开更多
关键词 特征选择 文本分类 噪音文本 web 决定性特征
在线阅读 下载PDF
Web文本分类中特征选择的研究 被引量:1
7
作者 石芙芙 董祥军 陈修宽 《山东轻工业学院学报(自然科学版)》 CAS 2009年第3期22-24,共3页
Web文本分类是Web文本挖掘的一个重要研究领域。Web文本分类中通常采用向量空间模型(VSM)来表达文本特征,但是所产生的维数是巨大的,从而导致处理过程非常复杂,所以需要先对文本特征进行合理的降维处理。本文对常见的特征选择算法进行... Web文本分类是Web文本挖掘的一个重要研究领域。Web文本分类中通常采用向量空间模型(VSM)来表达文本特征,但是所产生的维数是巨大的,从而导致处理过程非常复杂,所以需要先对文本特征进行合理的降维处理。本文对常见的特征选择算法进行了介绍,并对它们进行了比较,最后结合当前的研究成果分析特征选择的发展趋势。 展开更多
关键词 web文本分类 向量空间模型 特征选择
在线阅读 下载PDF
Web文本挖掘及相关技术研究 被引量:4
8
作者 白翎雁 才书训 《沈阳工程学院学报(自然科学版)》 2008年第3期258-261,共4页
随着信息的海量化,如何获取用户所需已经日益突显出其重要性.Web文本挖掘可对Web上大量文档集合的内容进行总结、分类、聚类、分析以便于利用.介绍了Web文本挖掘的定义、特点,重点分析了其相关的几种关键技术—文本特征表示、特征子选... 随着信息的海量化,如何获取用户所需已经日益突显出其重要性.Web文本挖掘可对Web上大量文档集合的内容进行总结、分类、聚类、分析以便于利用.介绍了Web文本挖掘的定义、特点,重点分析了其相关的几种关键技术—文本特征表示、特征子选取、文本分类、文本聚类,并对其发展作以展望. 展开更多
关键词 web文本挖掘 特征表示 特征子集选取 文本分类 文本聚类
在线阅读 下载PDF
维、哈、柯多文种搜索引擎中web文本分类的研究 被引量:3
9
作者 海丽且木.艾沙 维尼拉.木沙江 《新疆大学学报(自然科学版)》 CAS 2011年第3期362-365,共4页
研究维、哈、柯多文种搜索引擎中web文本分类问题.根据维、哈、柯Web文本具有结构信息的特点,提出分类系统框架,采用基于改进的KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了改进的KNN分类算法.实验表明,改进的... 研究维、哈、柯多文种搜索引擎中web文本分类问题.根据维、哈、柯Web文本具有结构信息的特点,提出分类系统框架,采用基于改进的KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了改进的KNN分类算法.实验表明,改进的KNN方法在维吾尔文Web文本分类中能够获得较好的分类效果. 展开更多
关键词 web文本分类 knn算法 特征提取 维吾尔文
在线阅读 下载PDF
Web文档分类中TFIDF特征选择算法的改进 被引量:4
10
作者 段国仑 谢钧 +1 位作者 郭蕾蕾 王晓莹 《计算机技术与发展》 2019年第5期49-53,共5页
随着海量数据资源在网络中的出现,Web文档分类技术越来越受到重视。在Web文档分类的研究中,特征选择算法有着重要的研究意义。特征选择能有效降低文本向量空间模型的维度,从而构造出更快,消耗更低的预测模型。传统的TFIDF算法仅仅依靠... 随着海量数据资源在网络中的出现,Web文档分类技术越来越受到重视。在Web文档分类的研究中,特征选择算法有着重要的研究意义。特征选择能有效降低文本向量空间模型的维度,从而构造出更快,消耗更低的预测模型。传统的TFIDF算法仅仅依靠文档中所包含特征词的词频和逆文档频率来判断该特征词对于文档分类的重要性,忽略了特征项在类内和类间的分布以及数据集不均衡现象,从而效果受到制约。针对存在的不足进行改进,提出了类内分布因子以及类间分布因子。基于类内以及类间因子,替代逆文档频率,可以使得改进的表达式能够选择出更加高效的特征词。通过使用SVM分类器进行文本分类对比实验,与改进前的方法相比,该方法能使F_1值得到一定程度的提高,在不均衡数据集上同样具有较好的分类效果。 展开更多
关键词 web文档分类 特征选择 TFIDF算法 SVM
在线阅读 下载PDF
基于SVM的中文网页分类方法的研究 被引量:22
11
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《计算机工程与设计》 CSCD 北大核心 2007年第8期1893-1895,共3页
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取... 中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 支持向量机 特征提取 核函数 网页 文本分类
在线阅读 下载PDF
一种新的基于统计的自动文本分类方法 被引量:48
12
作者 刘斌 黄铁军 +1 位作者 程军 高文 《中文信息学报》 CSCD 北大核心 2002年第6期18-24,共7页
自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上... 自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征 ,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中 ,互联网和文本库提供了大量经过粗分类的训练文本 ,但普遍存在样本质量较差的问题 ,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。 展开更多
关键词 统计 自动文本分类 多层次特征提取 距离加权knn算法 样本重要性分析 汉字识别
在线阅读 下载PDF
基于文档频率的特征选择方法 被引量:27
13
作者 杨凯峰 张毅坤 李燕 《计算机工程》 CAS CSCD 北大核心 2010年第17期33-35,38,共4页
传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向... 传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向量机方法训练分类器。实验结果表明,在进行特征选择时,考虑高词频特征词对类别的贡献,可提高传统DF方法的分类性能。 展开更多
关键词 文本分类 特征选择 文档频率 词频率 支持向量机
在线阅读 下载PDF
基于散度差准则的文本特征降维研究 被引量:5
14
作者 刘海峰 王元元 +1 位作者 张学仁 刘守生 《计算机应用研究》 CSCD 北大核心 2008年第7期1971-1973,共3页
研究了一种基于散度差准则的文本特征抽取方法。首先讨论了文本分类中特征降维的主要方法及其特点,然后分析了一种基于散度差的准则用于特征降维的原理和方法,从理论上对该方法的相关步骤进行了数学论证。在中文文本分类实验中,对KNN分... 研究了一种基于散度差准则的文本特征抽取方法。首先讨论了文本分类中特征降维的主要方法及其特点,然后分析了一种基于散度差的准则用于特征降维的原理和方法,从理论上对该方法的相关步骤进行了数学论证。在中文文本分类实验中,对KNN分类器进行了基于密度的改进,消除了由于文本分布倾斜对分类器产生的影响。实验结果表明,这种方法在文本分类的准确性方面效果较为理想。 展开更多
关键词 文本分类 特征选择 特征抽取 特征降维 散度差 knn分类器
在线阅读 下载PDF
面向文本分类的特征词选取方法研究与改进 被引量:7
15
作者 李国和 岳翔 +3 位作者 吴卫江 洪云峰 刘智渊 程远 《中文信息学报》 CSCD 北大核心 2015年第4期120-125,共6页
中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性能和精度。在分析、总结多种经典文本特征选取方法基础上,以... 中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性能和精度。在分析、总结多种经典文本特征选取方法基础上,以文档频为主,实现文档集中的特征词频及其分布为修正的特征词选取方法(DC)。采用宏F值和微F值为评价指标,通过实验对比证明,该方法的特征选取效果好于经典文本特征选取方法。 展开更多
关键词 文本文档 特征词 特征选取 文本分类
在线阅读 下载PDF
基于MRMR的文本分类特征选择方法 被引量:9
16
作者 李军怀 付静飞 +2 位作者 蒋文杰 费蓉 王怀军 《计算机科学》 CSCD 北大核心 2016年第10期225-228,共4页
特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征词仍存在冗余。针对这一问题,通过结合词频-逆文档率(TF_... 特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征词仍存在冗余。针对这一问题,通过结合词频-逆文档率(TF_IDF)和最大相关最小冗余标准(MRMR),提出了一种基于MRMR的特征词二次选取方法 TFIDF_MRMR。实验结果表明,该方法可以较好地减少特征词之间的冗余,提高文本分类的准确率。 展开更多
关键词 特征选择 最大相关最小冗余 词频-逆文档率 文本分类
在线阅读 下载PDF
基于二次熵的互信息特征选取方法的研究 被引量:2
17
作者 刘丽珍 宋瀚涛 陆玉昌 《计算机科学》 CSCD 北大核心 2004年第12期135-136,168,共3页
随着全球网络的普及应用,大量没有统一结构和管理的在线资源急需进行处理,高效的网页自动分类方法是从网上海量信息中提取所需信息的关键技术,特征选取又是文本分类挖掘的重要基础,本文以广义信息论为理论基础.提出了基于二次熵的互信... 随着全球网络的普及应用,大量没有统一结构和管理的在线资源急需进行处理,高效的网页自动分类方法是从网上海量信息中提取所需信息的关键技术,特征选取又是文本分类挖掘的重要基础,本文以广义信息论为理论基础.提出了基于二次熵的互信息特征选取方法,独立评估特征集中的每个特征,分析特征和类别的关系,从高维的特征空间中选取出对文本分类有效的特征,降低了文本特征空间的维数,提高了文本分类的性能。 展开更多
关键词 特征选取 文本分类 特征集 互信息 高维 网页 特征空间 取出 类方 处理
在线阅读 下载PDF
面向维吾尔文不平衡数据分类的特征选择方法 被引量:3
18
作者 董瑞 周喜 《计算机工程与设计》 CSCD 北大核心 2013年第1期349-352,共4页
为解决维吾尔文文本分类中不平衡数据集问题,提出了一种改进的卡方特征选择方法。结合维吾尔文的语言特性对文本进行预处理,降低特征空间维度;运用卡方和逆文档频数相结合的方法进行特征选择,进一步降低特征空间维数;使用朴素贝叶斯分... 为解决维吾尔文文本分类中不平衡数据集问题,提出了一种改进的卡方特征选择方法。结合维吾尔文的语言特性对文本进行预处理,降低特征空间维度;运用卡方和逆文档频数相结合的方法进行特征选择,进一步降低特征空间维数;使用朴素贝叶斯分类器进行分类。在维吾尔文不平衡语料库上进行的实验表明,提出的特征选择方法在不平衡数据集中要优于卡方和信息增益特征选择方法。 展开更多
关键词 不平衡数据 文本分类 维吾尔文 特征选择 逆文档频数 卡方 信息增益
在线阅读 下载PDF
基于数据融合的组合特征提取方法的研究 被引量:1
19
作者 谈佳宁 朱玉全 +1 位作者 陈耿 翟国 《计算机工程与设计》 CSCD 北大核心 2009年第10期2529-2532,共4页
针对Web文本的特征提取方法多种多样,但均存在各自的不足且对数据集偏斜问题普遍没有很好的解决能力,针对该问题采用BNS特征提取算法和Odds特征提取算法基于数据融合思想进行Web文本特征提取并用支持向量机进行分类。在保持BNS算法对于... 针对Web文本的特征提取方法多种多样,但均存在各自的不足且对数据集偏斜问题普遍没有很好的解决能力,针对该问题采用BNS特征提取算法和Odds特征提取算法基于数据融合思想进行Web文本特征提取并用支持向量机进行分类。在保持BNS算法对于数据集偏斜问题的解决能力的基础上用Odds算法提高BNS算法的精确度。实验结果表明,用数据融合思想将这两种方法结合可以有效弥补两种方法各自的不足,并能提高分类准确率。 展开更多
关键词 特征提取 数据集偏斜 数据融合 支持向量机 web文本分类
在线阅读 下载PDF
无需词典支持和切词处理的中文文档分类 被引量:1
20
作者 周水庚 关佶红 胡运发 《高技术通讯》 EI CAS CSCD 2001年第3期31-35,共5页
利用中文文本的N gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖。实验结果表明 。
关键词 中文文档分类 N-gram信息 属性选择 贝叶斯分类 knn
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部