-
题名基于KNN的Web文本分类方法的研究
被引量:8
- 1
-
-
作者
牛强
王志晓
陈岱
夏士雄
-
机构
中国矿业大学计算机科学与技术学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2007年第10期210-211,共2页
-
基金
中国矿业青年科研基金(OD4490)。
-
文摘
为了更有效地组织Internet上丰富的信息资源,通过分析Web文本的特点,提出了基于KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。
-
关键词
knn算法
特征提取
web文本
文本分类
-
Keywords
knn feature selection web documents text classification
-
分类号
TP301.2
[自动化与计算机技术—计算机系统结构]
-
-
题名使用KNN算法的中文Web文本分类技术研究
被引量:2
- 2
-
-
作者
曹勇
吴顺祥
-
机构
厦门大学自动化系
-
出处
《软件导刊》
2007年第1期107-109,共3页
-
文摘
对基于中文的Web文本分类技术进行了研究,介绍了web文本分类的基本过程和Web文本预处理及文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法KNN。最后通过实验测试了使用KNN算法的中文Web文本分类技术的效果。
-
关键词
中文web文本
文本分类
特征选取
knn
-
Keywords
Chinese web texts
texts categprozation
feature selection
knn
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于支持向量机的Web文本分类方法
被引量:19
- 3
-
-
作者
牛强
王志晓
陈岱
夏士雄
-
机构
中国矿业大学计算机科学与技术学院
-
出处
《微电子学与计算机》
CSCD
北大核心
2006年第9期102-104,共3页
-
基金
中国矿业大学青年科研基金项目(OD4490)
-
文摘
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型,并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。
-
关键词
支持向量机
特征提取
web文本
文本分类
-
Keywords
Support vector machine, feature selection, web documents, text classification
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-
-
题名改进的KNN方法及其在中文文本分类中的应用
被引量:5
- 4
-
-
作者
刘博
杨柳
袁方
-
机构
河北农业大学信息科学与技术学院
河北大学经济学院
河北大学数学与计算机学院
-
出处
《西华大学学报(自然科学版)》
CAS
2008年第2期33-36,共4页
-
基金
河北省科技攻关计划项目(No.05213573)
河北省教育厅科研计划项目(No.2004406)
-
文摘
介绍了基于KNN方法的中文文本分类流程及相关技术,在分析传统KNN方法不足的基础上提出一种改进的KNN方法。该方法在特征选取、权值确定、相似度计算等方面进行了改进,并给出了优化措施。实验表明:与传统的KNN方法相比,改进后的KNN方法在保证分类准确率的同时,使分类效率得到了有效提高。
-
关键词
文本分类
knn
特征选取
相似度
优化
-
Keywords
text classification
knn
feature selection
similarity
optimization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于数据偏斜的改进KNN文本分类
被引量:3
- 5
-
-
作者
刘海峰
陈琦
刘守生
苏展
-
机构
解放军理工大学理学院
-
出处
《微电子学与计算机》
CSCD
北大核心
2010年第3期51-53,58,共4页
-
基金
国家自然科学基金项目(70571087)
-
文摘
KNN是一种简单、有效、非参数的分类算法.针对样本分布偏斜的分类环境,首先提出了一种改进的特征选择方法进行特征降维,在此基础上进一步提出了一种基于分布的改进KNN方法用于文本分类,降低了分布偏斜问题对决策函数的影响.试验表明,所提出的改进KNN文本分类方法具有较好的分类性能.
-
关键词
特征选择
文本分类
改进knn
相似度
-
Keywords
feature selection
text classification
improved knn
similarity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名Web网页文本特征选择方法研究
被引量:4
- 6
-
-
作者
李会
王立峰
-
机构
齐齐哈尔大学通信学院
东北林业大学机电工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2010年第16期3724-3727,共4页
-
基金
黑龙江省教育厅科学技术研究基金项目(11541399)
-
文摘
提出了一种用于文本分类的特征选择方法。计算文本的特征值,每个特征值被赋予一个权重值,权重值的大小表示文本特征的重要程度,权重值最大的特征为决定性特征,决定性特征能代表某一类;通过构造树结构模型来消除噪音文本,同时还可以降低计算复杂度;最后改进该算法,动态的检测相对于当前节点的最佳节点更有利于进行特征选择。实验结果表明,该方法具有较高的分类精度,且计算成本较低,符合规模Web自动分类的需要。
-
关键词
特征选择
文本分类
噪音文本
web
决定性特征
-
Keywords
feature selection
text classification
noise text
web
determinant feature
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名Web文本分类中特征选择的研究
被引量:1
- 7
-
-
作者
石芙芙
董祥军
陈修宽
-
机构
山东轻工业学院信息科学与技术学院
-
出处
《山东轻工业学院学报(自然科学版)》
CAS
2009年第3期22-24,共3页
-
基金
山东省自然科学基金(Y2007G25)
山东省优秀中青年科学家奖励基金项目(2006BS01017)
-
文摘
Web文本分类是Web文本挖掘的一个重要研究领域。Web文本分类中通常采用向量空间模型(VSM)来表达文本特征,但是所产生的维数是巨大的,从而导致处理过程非常复杂,所以需要先对文本特征进行合理的降维处理。本文对常见的特征选择算法进行了介绍,并对它们进行了比较,最后结合当前的研究成果分析特征选择的发展趋势。
-
关键词
web文本分类
向量空间模型
特征选择
-
Keywords
web text classification
vector space model
feature selection
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名Web文本挖掘及相关技术研究
被引量:4
- 8
-
-
作者
白翎雁
才书训
-
机构
东北大学信息科学与工程学院
-
出处
《沈阳工程学院学报(自然科学版)》
2008年第3期258-261,共4页
-
文摘
随着信息的海量化,如何获取用户所需已经日益突显出其重要性.Web文本挖掘可对Web上大量文档集合的内容进行总结、分类、聚类、分析以便于利用.介绍了Web文本挖掘的定义、特点,重点分析了其相关的几种关键技术—文本特征表示、特征子选取、文本分类、文本聚类,并对其发展作以展望.
-
关键词
web文本挖掘
特征表示
特征子集选取
文本分类
文本聚类
-
Keywords
web text mining feature representation
characteristic subset selection
text classification
text cluster
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名维、哈、柯多文种搜索引擎中web文本分类的研究
被引量:3
- 9
-
-
作者
海丽且木.艾沙
维尼拉.木沙江
-
机构
新疆大学信息科学与工程学院
-
出处
《新疆大学学报(自然科学版)》
CAS
2011年第3期362-365,共4页
-
基金
国家自然科学基金项目(61063022)
新疆维吾尔自治区高校科研计划重点资助项目(XJEDU2006113)
-
文摘
研究维、哈、柯多文种搜索引擎中web文本分类问题.根据维、哈、柯Web文本具有结构信息的特点,提出分类系统框架,采用基于改进的KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了改进的KNN分类算法.实验表明,改进的KNN方法在维吾尔文Web文本分类中能够获得较好的分类效果.
-
关键词
web文本分类
knn算法
特征提取
维吾尔文
-
Keywords
web document classification
knn algorithm
feature selection
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名Web文档分类中TFIDF特征选择算法的改进
被引量:4
- 10
-
-
作者
段国仑
谢钧
郭蕾蕾
王晓莹
-
机构
陆军工程大学指挥控制工程学院
陆军工程大学通信工程学院
-
出处
《计算机技术与发展》
2019年第5期49-53,共5页
-
基金
国家自然科学基金(61101202)
-
文摘
随着海量数据资源在网络中的出现,Web文档分类技术越来越受到重视。在Web文档分类的研究中,特征选择算法有着重要的研究意义。特征选择能有效降低文本向量空间模型的维度,从而构造出更快,消耗更低的预测模型。传统的TFIDF算法仅仅依靠文档中所包含特征词的词频和逆文档频率来判断该特征词对于文档分类的重要性,忽略了特征项在类内和类间的分布以及数据集不均衡现象,从而效果受到制约。针对存在的不足进行改进,提出了类内分布因子以及类间分布因子。基于类内以及类间因子,替代逆文档频率,可以使得改进的表达式能够选择出更加高效的特征词。通过使用SVM分类器进行文本分类对比实验,与改进前的方法相比,该方法能使F_1值得到一定程度的提高,在不均衡数据集上同样具有较好的分类效果。
-
关键词
web文档分类
特征选择
TFIDF算法
SVM
-
Keywords
web document classification
feature selection
TFIDF algorithm
SVM
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于SVM的中文网页分类方法的研究
被引量:22
- 11
-
-
作者
牛强
王志晓
陈岱
夏士雄
-
机构
中国矿业大学计算机科学与技术学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2007年第8期1893-1895,共3页
-
基金
中国矿业大学青年科研基金项目(OD4490)
-
文摘
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。
-
关键词
支持向量机
特征提取
核函数
网页
文本分类
-
Keywords
support vector machine
feature selection
kernel function
web page
text classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种新的基于统计的自动文本分类方法
被引量:48
- 12
-
-
作者
刘斌
黄铁军
程军
高文
-
机构
中国科学院计算技术研究所
中国科学院研究生院
中国科学院文献情报中心
-
出处
《中文信息学报》
CSCD
北大核心
2002年第6期18-24,共7页
-
基金
国家科学数字图书馆重大专项 (CSDL2 0 0 2 - 18)
-
文摘
自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征 ,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中 ,互联网和文本库提供了大量经过粗分类的训练文本 ,但普遍存在样本质量较差的问题 ,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。
-
关键词
统计
自动文本分类
多层次特征提取
距离加权knn算法
样本重要性分析
汉字识别
-
Keywords
automatic text classification
multi level feature selection
Kernel based Distance weighted knn algorithm
sample weightiness analysis
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-
-
题名基于文档频率的特征选择方法
被引量:27
- 13
-
-
作者
杨凯峰
张毅坤
李燕
-
机构
西安理工大学计算机科学与工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第17期33-35,38,共4页
-
基金
陕西省自然科学基金资助项目(2009jm8003-1)
-
文摘
传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向量机方法训练分类器。实验结果表明,在进行特征选择时,考虑高词频特征词对类别的贡献,可提高传统DF方法的分类性能。
-
关键词
文本分类
特征选择
文档频率
词频率
支持向量机
-
Keywords
text classification
feature selection
Document Frequency(DF)
Term Frequency(TF)
Support Vector Machine(SVM)
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于散度差准则的文本特征降维研究
被引量:5
- 14
-
-
作者
刘海峰
王元元
张学仁
刘守生
-
机构
解放军理工大学指挥自动化学院
解放军理工大学理学院
-
出处
《计算机应用研究》
CSCD
北大核心
2008年第7期1971-1973,共3页
-
基金
国家自然科学基金资助项目(70571087)
-
文摘
研究了一种基于散度差准则的文本特征抽取方法。首先讨论了文本分类中特征降维的主要方法及其特点,然后分析了一种基于散度差的准则用于特征降维的原理和方法,从理论上对该方法的相关步骤进行了数学论证。在中文文本分类实验中,对KNN分类器进行了基于密度的改进,消除了由于文本分布倾斜对分类器产生的影响。实验结果表明,这种方法在文本分类的准确性方面效果较为理想。
-
关键词
文本分类
特征选择
特征抽取
特征降维
散度差
knn分类器
-
Keywords
text classification
feature selection
feature extraction
feature reduction
scatter difference
knn classifier
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向文本分类的特征词选取方法研究与改进
被引量:7
- 15
-
-
作者
李国和
岳翔
吴卫江
洪云峰
刘智渊
程远
-
机构
中国石油大学(北京)地球物理与信息工程学院
中国石油大学(北京)油气数据挖掘北京市重点实验室
石大兆信数字身份管理与物联网技术研究院
-
出处
《中文信息学报》
CSCD
北大核心
2015年第4期120-125,共6页
-
基金
国家高新技术研究发展计划(2009AA062802)
国家自然科学基金(60473125)
+1 种基金
中国石油(CNPC)石油科技中青年创新基金(05E7013)
国家重大专项子课题(G5800-08-ZS-WX)
-
文摘
中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性能和精度。在分析、总结多种经典文本特征选取方法基础上,以文档频为主,实现文档集中的特征词频及其分布为修正的特征词选取方法(DC)。采用宏F值和微F值为评价指标,通过实验对比证明,该方法的特征选取效果好于经典文本特征选取方法。
-
关键词
文本文档
特征词
特征选取
文本分类
-
Keywords
text document
feature word
feature selection
text classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于MRMR的文本分类特征选择方法
被引量:9
- 16
-
-
作者
李军怀
付静飞
蒋文杰
费蓉
王怀军
-
机构
西安理工大学
-
出处
《计算机科学》
CSCD
北大核心
2016年第10期225-228,共4页
-
基金
国家自然科学基金(61172018)
陕西教育厅科技计划(15JS077)
西安市科技计划(CXY1439(8))资助
-
文摘
特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征词仍存在冗余。针对这一问题,通过结合词频-逆文档率(TF_IDF)和最大相关最小冗余标准(MRMR),提出了一种基于MRMR的特征词二次选取方法 TFIDF_MRMR。实验结果表明,该方法可以较好地减少特征词之间的冗余,提高文本分类的准确率。
-
关键词
特征选择
最大相关最小冗余
词频-逆文档率
文本分类
-
Keywords
feature selection, Maximal relevance minimal redundancy (MRMR), Term frequency-inverse document fre-quency(TF-IDF), text classification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于二次熵的互信息特征选取方法的研究
被引量:2
- 17
-
-
作者
刘丽珍
宋瀚涛
陆玉昌
-
机构
首都师范大学
北京理工大学
清华大学
-
出处
《计算机科学》
CSCD
北大核心
2004年第12期135-136,168,共3页
-
基金
973国家重点基础研究项目(G1998030414)
-
文摘
随着全球网络的普及应用,大量没有统一结构和管理的在线资源急需进行处理,高效的网页自动分类方法是从网上海量信息中提取所需信息的关键技术,特征选取又是文本分类挖掘的重要基础,本文以广义信息论为理论基础.提出了基于二次熵的互信息特征选取方法,独立评估特征集中的每个特征,分析特征和类别的关系,从高维的特征空间中选取出对文本分类有效的特征,降低了文本特征空间的维数,提高了文本分类的性能。
-
关键词
特征选取
文本分类
特征集
互信息
高维
网页
特征空间
取出
类方
处理
-
Keywords
web text classification, feature selection, Mutual information
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向维吾尔文不平衡数据分类的特征选择方法
被引量:3
- 18
-
-
作者
董瑞
周喜
-
机构
中国科学院研究生院
中科院新疆理化技术研究所
-
出处
《计算机工程与设计》
CSCD
北大核心
2013年第1期349-352,共4页
-
基金
新疆维吾尔自治区高技术研究发展基金项目(201012112)
新疆维吾尔自治区电子发展专项基金项目(XJDZZXZJ20109)
-
文摘
为解决维吾尔文文本分类中不平衡数据集问题,提出了一种改进的卡方特征选择方法。结合维吾尔文的语言特性对文本进行预处理,降低特征空间维度;运用卡方和逆文档频数相结合的方法进行特征选择,进一步降低特征空间维数;使用朴素贝叶斯分类器进行分类。在维吾尔文不平衡语料库上进行的实验表明,提出的特征选择方法在不平衡数据集中要优于卡方和信息增益特征选择方法。
-
关键词
不平衡数据
文本分类
维吾尔文
特征选择
逆文档频数
卡方
信息增益
-
Keywords
imbalanced data
text classification
Uyghur
feature selection
inverse document frequency
CHI
IG
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于数据融合的组合特征提取方法的研究
被引量:1
- 19
-
-
作者
谈佳宁
朱玉全
陈耿
翟国
-
机构
江苏大学计算机科学与通信工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2009年第10期2529-2532,共4页
-
文摘
针对Web文本的特征提取方法多种多样,但均存在各自的不足且对数据集偏斜问题普遍没有很好的解决能力,针对该问题采用BNS特征提取算法和Odds特征提取算法基于数据融合思想进行Web文本特征提取并用支持向量机进行分类。在保持BNS算法对于数据集偏斜问题的解决能力的基础上用Odds算法提高BNS算法的精确度。实验结果表明,用数据融合思想将这两种方法结合可以有效弥补两种方法各自的不足,并能提高分类准确率。
-
关键词
特征提取
数据集偏斜
数据融合
支持向量机
web文本分类
-
Keywords
feature selection
class skew
data fusion
support vector machines
web text classification
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名无需词典支持和切词处理的中文文档分类
被引量:1
- 20
-
-
作者
周水庚
关佶红
胡运发
-
机构
复旦大学计算机系
武汉测绘科技大学信息学院
-
出处
《高技术通讯》
EI
CAS
CSCD
2001年第3期31-35,共5页
-
基金
86 3计划资助项目!(86 3 30 6 ZT0 4 0 2 2 )
-
文摘
利用中文文本的N gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖。实验结果表明 。
-
关键词
中文文档分类
N-gram信息
属性选择
贝叶斯分类
knn法
-
Keywords
Chinese document categorization, N gram information, feature selection, Bayesian classification, knn method
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-