基于广泛相似度的维吾尔语文档分类方案

Uygur document classification scheme based on extensive similarity

下载PDF

导出

摘要针对维吾尔语文档自动分类问题,提出一种基于广泛相似度度量和K-means聚类的文档分类方案。将维吾尔语文档进行预处理,通过词频-逆向文档频率(TF-IDF)算法获得关键词集合;利用提出的广泛相似度度量,通过考虑与语料库中其它文档之间的距离,计算文档间的相似度;基于广泛相似度构建一个集群距离矩阵,获得一组基础集群;将基础集群的中心作为K-means聚类的初始中心,完成所有文档的聚类。实验结果表明,该方案具有较高的分类精度和较低的计算时间。 For the issue of the automatic classification of Uyghur documents,a Uygur document classification scheme based on extensive similarity and K-means clustering was proposed.Uighur documents were preprocessed,and term frequency-inverse document frequency(TF-IDF)algorithm was used to get a set of keywords.The extensive similarity was used to calculate the similarity between the documents by considering the distance between the other documents in the corpus.A cluster distance matrix was constructed based on the extensive similarity to obtain a set of basic clusters.The center of the base cluster was used as the initial center of the K-means clustering,so as to make all the documents be clustered.Experimental results show that the proposed scheme has higher classification accuracy and lower computation time.

作者如先姑力.阿布都热西提亚森.艾则孜年梅

机构地区新疆警察学院信息安全工程系新疆师范大学计算机科学技术学院

出处《计算机工程与设计》北大核心 2017年第6期1686-1691,共6页 Computer Engineering and Design

基金新疆维吾尔自治区自然科学基金科研基金项目(2015211A016)

关键词维吾尔语文档分类广泛相似度 K-MEANS聚类词频-逆向文档频率 Uygur document classification extensive similarity K-means clustering term frequency-inverse document frequency

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1李响,吐尔根.依布拉音,卡哈尔江.阿比的热西提,买合木提.买买提.基于主动学习的SVM维吾尔语情感分析研究[J].新疆大学学报(自然科学版),2015,32(4):447-452. 被引量：6
2买买提依明.哈斯木,吾守尔.斯拉木,维尼拉.木沙江,努尔麦麦提.尤鲁瓦斯.基于N元模型的维吾尔文文本分类技术研究[J].计算机应用研究,2015,32(7):1986-1988. 被引量：6
3热依莱木.帕尔哈提,孟祥涛,艾斯卡尔.艾木都拉.基于区分性关键词模型的维吾尔文本情感分类[J].计算机工程,2014,40(10):132-136. 被引量：11
4吐尔地.托合提,艾海麦提江.阿布来提,米也塞.艾尼玩,艾斯卡尔.艾木都拉.一种结合GAAC和K-means的维吾尔文文本聚类算法[J].计算机工程与科学,2013,35(7):149-155. 被引量：5
5余峰,余正涛,杨剑锋,郭剑毅,严馨.基于主题信息的项目评审专家推荐方法[J].计算机工程,2014,40(6):201-205. 被引量：6
6吐尔地.托合提,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.语义词特征提取及其在维吾尔文文本分类中的应用[J].中文信息学报,2014,28(4):140-144. 被引量：15
7阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,艾山.吾买尔.基于SVM的维吾尔文文本分类研究[J].计算机工程与科学,2012,34(12):150-154. 被引量：11
8麦热哈巴·艾力,姜文斌,王志洋,吐尔根·依布拉音,刘群.维吾尔语词法分析的有向图模型[J].软件学报,2012,23(12):3115-3129. 被引量：22

二级参考文献82

1孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
2周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
3徐杰,施鹏飞.图像检索中基于标记与未标记样本的主动学习算法[J].上海交通大学学报,2004,38(12):2068-2072. 被引量：7
4王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
5费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
6包金龙.基于向量空间模型的信息检索系统的设计[J].情报杂志,2005,24(7):44-45. 被引量：16
7毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35. 被引量：17
8张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
9孙晋文,肖建国.基于SVM文本分类中的关键词学习研究[J].计算机科学,2006,33(11):182-184. 被引量：12
10马金娜,田大钢.基于支持向量机的中文文本自动分类研究[J].系统工程与电子技术,2007,29(3):475-478. 被引量：14

共引文献60

1俞佳熠,钱卫东,徐永军.一种自动生成炼钢专家规则算法图的方法[J].冶金自动化,2023,47(S01):368-372. 被引量：1
2靳克,彭玉鲸,王彦生,许文良.中国—朝鲜长白山区新生代火山事件的划分及对比[J].长春科技大学学报,2000,30(2):125-130. 被引量：5
3阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,瓦依提.阿不力孜,艾山.吾买尔.基于类别分布差异和特征熵的维吾尔语文本特征选择[J].计算机应用研究,2013,30(10):2958-2961. 被引量：5
4张亚军,吴晓林,贺琛琛.浅谈新疆多语种智能化研究现状[J].电脑知识与技术,2014(1):138-140.
5麦热哈巴.艾力,阿孜古丽.夏力甫,吐尔根.依布拉音.维吾尔语多词表达抽取方法研究[J].计算机工程与应用,2014,50(8):26-30. 被引量：3
6张海波,蔡洽吾,姜文斌,吕雅娟,刘群.基于联合音变还原和形态切分的形态分析方法[J].中文信息学报,2014,28(6):9-17. 被引量：3
7阿力木江.艾沙,库尔班.吾布力,吐尔根.依布拉音.维吾尔文Bigram文本特征提取[J].计算机工程与应用,2015,51(3):216-221. 被引量：3
8麦合甫热提,麦热哈巴.艾力,米莉万.雪合来提.维吾尔语不同词尾粒度对维汉词对齐的影响[J].计算机工程与设计,2015,36(8):2297-2302. 被引量：2
9米莉万.雪合来提,刘凯,吐尔根.依布拉音.基于维吾尔语词干词缀粒度的汉维机器翻译[J].中文信息学报,2015,29(3):201-206. 被引量：12
10麦合甫热提,麦热哈巴.艾力,阿孜古丽.厦力甫.维吾尔语名词词尾对维汉词对齐的影响研究[J].新疆大学学报（自然科学版）,2015,32(4):469-474.

1王泰森,刘新.基于本体论网络信息的自动分类[J].图书馆学研究,2006(5):53-55.
2赵靖,皮建勇.粗糙集属性约简在文本分类中的性能研究[J].微型机与应用,2015,34(21):81-84.
3代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：230
4司文武,钱沄涛.一种基于谱聚类的半监督聚类方法[J].计算机应用,2005,25(6):1347-1349. 被引量：11
5赵小龙,张步群,丁为民.基于粒计算Web文档聚类[J].计算机工程与应用,2008,44(13):141-143. 被引量：1
6时念云.最短路径重构算法[J].新浪潮,1995(4):1-4.
7易丽萍,竹勇,雷小春.知网在词语相似度计算方面的应用[J].信息技术与信息化,2005(1):24-26. 被引量：11
8李晓东,姜琦刚.吉林西部多时相遥感数据分类方案的构建及应用[J].吉林大学学报（地球科学版）,2017,47(3):907-915. 被引量：5
9冯婷婷,张继福.基于网格单元和P权值的离群数据挖掘方法[J].太原科技大学学报,2016,37(5):359-364. 被引量：1
10于丽,亚森.艾则孜.采用相关反馈和文档相似度的维吾尔语检索词加权方法[J].华侨大学学报（自然科学版）,2017,38(3):408-413.

计算机工程与设计

2017年第6期

浏览历史

内容加载中请稍等...

基于广泛相似度的维吾尔语文档分类方案

参考文献8

二级参考文献82

共引文献60

相关作者

相关机构

相关主题

浏览历史