-
题名用于文本分类的改进KNN算法
被引量:6
- 1
-
-
作者
王煜
张明
王正欧
白石
-
机构
河北大学数学与计算机学院
天津大学系统工程研究所
沧州市城建档案馆
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第13期159-162,166,共5页
-
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60275020)。
-
文摘
采用灵敏度方法对距离公式中文本特征的权重进行修正;提出一种基于CURE算法和Tabu算法的训练样本库的裁减方法,采用CURE聚类算法获得每个聚类的代表样本组成新的训练样本集合,然后用Tabu算法对此样本集合进行进一步维护(添加或删除样本),添加样本时只考虑增加不同类交界处的样本,添加或删除样本以分类精度最高、与原始训练样本库距离最近为原则。
-
关键词
文本分类
KNN算法
灵敏度法
CURE聚类算法
TABU算法
-
Keywords
text categorization
KNN algorithm
sensitivity method
crue cluster algorithm
Tabu algorithm
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于PubMed的共词聚类分析方法
被引量:8
- 2
-
-
作者
冒纯丽
曹春萍
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《电子科技》
2016年第2期53-57,共5页
-
基金
国家高科技研究发展计划(863)基金资助项目(2014AA021502)
-
文摘
针对传统共词聚类分析法中共词矩阵构建不能全面反映主题词之间的关联问题,提出了基于高频主题词共现于同一篇文献多种格式内容构建共词矩阵的方法,针对传统聚类算法对于类团非球状且类团大小相异较大导致聚类效果不理想等问题,利用改进的CRUE聚类算法对共词矩阵聚类。并对PubMed中肺癌领域相关文献进行共词聚类分析,实验论证了改进后共词聚类分析方法的可行性。
-
关键词
共词聚类分析
共词矩阵
crue聚类
PUBMED
-
Keywords
co-word clustering analysis
co-word matrix
crue clustering algorithm
PubMed
-
分类号
G354
[文化科学—情报学]
-