基于频繁模式挖掘的维吾尔文智能组词方法被引量：6

Intelligent method for word grouping based on frequent pattern mining in Uyghur language

下载PDF

导出

摘要以词间空格作为自然分隔符,非常容易获取维吾尔文中的词,但又很难获取结构完整的语义词,因此多种文本处理效果总是很不理想。提出维吾尔文组词的新概念,将数据挖掘中的频繁模式挖掘方法引入到维吾尔文组词中,再结合维吾尔文的语言文字特点,将无先验知识的模式挖掘问题转化为特定模式的匹配问题,提出了一种快速高效的频繁模式挖掘算法,来获取语义完整的维吾尔文词。实验结果表明,通过该算法获取的维吾尔文词,在结构上是稳定的,语义上是完整而独立的。 It is very easy to get the words in Uighur text lines by the natural delimiters such as spaces, but it is difficult to obtain the completely structured semantic words. Therefore, many kinds of text processing methods always seem not to be very effective. This paper put forward a new concept of Uyghur word grouping and introduced the frequent pattern mining method in data mining scheme, and combined the Uyghur language features, turned the pattern mining problem without prior knowledge into a pattern matching with special pattern, and proposed a fast and efficient frequent pattern mining algorithm to obtain the Uyghur words with complete semantics. The experimental results show that, words obtained by this algorithm are stable in structure, and semantically complete and independent.

作者吐尔地·托合提维尼拉·木沙江艾斯卡尔·艾木都拉

机构地区新疆大学信息科学与工程学院

出处《计算机应用》 CSCD 北大核心 2012年第10期2920-2922,2926,共4页 journal of Computer Applications

基金国家自然科学基金资助项目(61063022 61262062 61163033 61142004) 新疆维吾尔自治区高技术研究发展计划项目(201212124) 教育部新世纪优秀人才支持计划项目(NCET-10-0969)

关键词维吾尔文本分词组词语义词频繁模式 Uyghur text word segmentation word grouping semantic word frequent pattern

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1TOHTI T, HAMDULLA A, MUSAJAN W. Research on Web text representation and the similarity based on improved VSM in Uyghur Web information retrieval[ C]// CCPR 2010: Chinese Conference on Pattern Recognition. Chongqing: [ s. n. ], 2010:984 - 988.
2阿力木江·艾沙,吐尔根·依布拉音,艾山·吾买尔,马尔哈巴·艾力.基于机器学习的维吾尔文文本分类研究[J].计算机工程与应用,2012,48(5):110-112. 被引量：21
3刘晓素,郭福亮.一种有趣关联模式挖掘方法[J].计算机工程,2010,36(11):36-38. 被引量：2
4朱琼,施荣华.一种数据流中的频繁模式挖掘算法[J].计算机应用,2008,28(6):1463-1466. 被引量：3
5刘兵.Web数据挖掘[M].北京:清华大学出版社,2009.
6宋余庆,朱玉全,孙志挥,杨鹤标.一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法[J].计算机研究与发展,2005,42(5):777-783. 被引量：21
7张锦,马海兵,胡运发.一种基于FP-Tree的频繁模式挖掘自适应算法[J].模式识别与人工智能,2005,18(6):763-768. 被引量：2
8李也白,唐辉,张淳,贺玉明.基于改进的FP-tree的频繁模式挖掘算法[J].计算机应用,2011,31(1):101-103. 被引量：21
9敖富江,杜静,陈彬,黄柯棣.一种基于混合搜索的高效Top-K最频繁模式挖掘算法[J].国防科技大学学报,2009,31(2):90-93. 被引量：2
10马青霞,李广水,孙梅.频繁模式挖掘进展及典型应用[J].计算机工程与应用,2011,47(15):138-144. 被引量：6

二级参考文献134

1易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
2王大玲,于戈,鲍玉斌.一种具有最大推荐非空率的关联规则挖掘方法[J].软件学报,2004,15(8):1182-1188. 被引量：11
3陈安龙,唐常杰,陶宏才,元昌安,谢方军.基于极大团和FP-Tree的挖掘关联规则的改进算法[J].软件学报,2004,15(8):1198-1207. 被引量：30
4吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
5颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：69
6张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：101
7宋余庆,朱玉全,孙志挥,杨鹤标.一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法[J].计算机研究与发展,2005,42(5):777-783. 被引量：21
8陈耿,朱玉全,杨鹤标,陆介平,宋余庆,孙志挥.关联规则挖掘中若干关键技术的研究[J].计算机研究与发展,2005,42(10):1785-1789. 被引量：62
9刘学军,徐宏炳,董逸生,王永利,钱江波.挖掘数据流中的频繁模式[J].计算机研究与发展,2005,42(12):2192-2198. 被引量：25
10王艳,王红霞.基于Apriori算法的加权关联规则挖掘[J].河南科技学院学报,2006,34(2):91-93. 被引量：2

共引文献118

1丁卫平,施诠,管致锦.一种基于事务规则树的高效关联规则挖掘算法[J].计算机应用研究,2007,24(5):83-86. 被引量：3
2杜奕,卢德唐,李道伦,卫五洲.时态约束下的频繁模式挖掘算法[J].模式识别与人工智能,2007,20(4):538-544.
3刘波,潘久辉.基于频繁模式图的多维关联规则挖掘算法研究[J].电子学报,2007,35(8):1612-1616. 被引量：4
4李忠哗,吴聪聪,何丕廉.一种约束最大频繁项目集挖掘算法[J].微电子学与计算机,2007,24(11):70-72. 被引量：2
5宋威,杨炳儒,徐章艳,高静.一种改进的频繁闭项集挖掘算法[J].计算机研究与发展,2008,45(2):278-286. 被引量：11
6邵勇,陈波,方杰,董鹏.基于属性变化的增量关联规则挖掘[J].计算机工程与应用,2009,45(1):166-169. 被引量：4
7李英杰.项约束频繁项集挖掘的新方法[J].计算机工程与应用,2009,45(3):161-164. 被引量：7
8胡为成,王本年,程转流.基于DSCFCI_tree的带项目约束的数据流频繁闭合模式挖掘算法[J].中国科学技术大学学报,2009,39(11):1194-1201. 被引量：2
9王大将,孙洁.数据流挖掘技术研究[J].统计与决策,2010,26(7):161-162.
10金珏.一种面向电子商务的Web数据挖掘模型[J].软件工程师,2010(7):58-60. 被引量：1

同被引文献94

1陈世明.试论维吾尔语部分词尾的演变[J].西北民族研究,1989(1):234-240. 被引量：1
2霍盛.试论维吾尔语形态变化的功能及其特点[J].新疆大学学报（哲学社会科学版）,1991,23(3):104-111. 被引量：3
3仁青诺布,高红梅,王国宏,杨鹏,索朗旺堆.藏文在线输入法的设计与实现[J].西藏大学学报（社会科学版）,2013,28(4):65-69. 被引量：2
4古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
5力提甫.托乎提.电脑处理维吾尔语语音和谐律的可能性[J].中央民族大学学报（哲学社会科学版）,2004,31(5):108-113. 被引量：15
6阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量：24
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：394
8玉素甫.艾白都拉,吾守尔.斯拉木,赛依提.阿不都拉.维语词法分析器研究成功[J].中文信息,1997,14(4):31-35. 被引量：5
9张素琴;吕映芝;蒋维社.编译原理[M]北京:清华大学出版社,201234-39.
10MALIK H, FRADKIN D, MOERCHEN F. Single pass text classification by direct feature weighting [ J ]. Knowledge and information systems ,2011,28 ( 1 ) :79 - 98.

引证文献6

1莫礼平,周恺卿.方块苗文动态构造方法的形式化描述[J].计算机应用,2014,34(3):861-864. 被引量：2
2吴冰冰,哈力旦.阿布都热依木,阿丽亚.艾尔肯,何燕.人工鱼群优化的维吾尔文文本特征选择方法[J].河南科技大学学报（自然科学版）,2016,37(6):46-50. 被引量：1
3伊尔夏提.吐尔贡,吾守尔.斯拉木,热西旦木.吐尔洪太.基于有监督分词方法的维吾尔文情感分析[J].计算机工程与设计,2017,38(11):3143-3146. 被引量：3
4李成华,孙雅婧,张世娟,艾提日也古丽·艾尼瓦尔.基于CRF模型的维吾尔语分词研究[J].中南民族大学学报（自然科学版）,2019,38(4):596-604. 被引量：1
5孙雅婧,李成华,杨斌,江小平,艾提日也古丽·艾尼瓦尔.基于BI-LSTM-CRF模型的维吾尔语分词研究[J].青海师范大学学报（自然科学版）,2019,35(4):5-12. 被引量：2
6刘畅,阿布都克力木·阿布力孜,姚登峰,哈里旦木·阿布都克里木.维吾尔语形态分析研究综述[J].计算机工程与应用,2021,57(15):42-61. 被引量：3

二级引证文献12

1赵禛,程良伦.一种融合语意理解的情感倾向标签算法[J].数字技术与应用,2018,36(3):120-122.
2丁李,曾水玲.基于综合特征矩阵的手写苗文识别研究[J].怀化学院学报,2018,37(5):52-56.
3丁李,曾水玲.基于概率神经网络的手写苗文识别研究[J].大理大学学报,2018,3(12):18-23. 被引量：1
4陈平平,耿笑冉,邹敏,谭定英.基于机器学习的文本情感倾向性分析[J].计算机与现代化,2020,0(3):77-81. 被引量：14
5王东,夏梓渊.基于改进rcnn模型的多标签短文本自适应分类[J].计算机仿真,2021,38(5):388-392. 被引量：2
6阿布都克力木·阿布力孜,刘畅,哈里旦木·阿布都克里木,郭文强.融合字符串特征的维吾尔语形态切分[J].计算机仿真,2022,39(7):257-262. 被引量：1
7刘若兰,年梅,杨建萍.维吾尔语情感倾向性分析研究综述[J].电脑知识与技术,2022,18(28):4-6. 被引量：1
8阿孜古丽·夏力甫,王紫悦.基于句法语义的维吾尔语捆绑类手部动词词网建设[J].喀什大学学报,2023,44(2):55-63.
9张雨宁,李文卓,哈里旦木·阿布都克里木,阿布都克力木·阿布力孜.维吾尔语形态切分的元学习方法[J].计算机工程与应用,2023,59(11):98-104.
10王承先.基于深度学习的彝文分词系统设计与实现[J].中国信息界,2024(2):228-233.

1吐尔地.托合提,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.基于互信息的维吾尔文自适应组词算法[J].计算机应用研究,2013,30(2):429-431. 被引量：7
2欧阳军林,夏利民,张伟伟.基于高层语义及相关反馈的图像检索[J].计算机工程与应用,2006,42(25):159-161. 被引量：2
3吐尔地.托合提,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.语义词特征提取及其在维吾尔文文本分类中的应用[J].中文信息学报,2014,28(4):140-144. 被引量：15
4黄少年,施游.基于高层语义词袋的人体行为识别方法[J].电脑与电信,2015(3):37-39.
5郝俊寿,丁艳会.数据仓库和数据挖掘在高校教学管理中的应用研究[J].黑龙江科技信息,2013(30):151-151.
6郑文超,徐鹏.利用word2vec对中文词进行聚类的研究[J].软件,2013,34(12):160-162. 被引量：30
7汪莉.浅谈基于数据挖掘的入侵检测技术的研究[J].科技视界,2012(13):164-165. 被引量：3
8刘一正,杨静,李强.基于URL的中文多语义名词在线语义标注[J].计算机工程,2014,40(10):150-154.
9菊花,金良.使用程序自动分析蒙古文词的研究[J].内蒙古师范大学学报（自然科学汉文版）,2014,43(2):225-228.
10赵建华,张同珍.基于Intranet的知识库系统匹配算法的研究与实现[J].微型电脑应用,2010,26(9):12-14. 被引量：1

计算机应用

2012年第10期

浏览历史

内容加载中请稍等...

基于频繁模式挖掘的维吾尔文智能组词方法被引量：6

参考文献12

二级参考文献134

共引文献118

同被引文献94

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于频繁模式挖掘的维吾尔文智能组词方法 被引量：6

参考文献12

二级参考文献134

共引文献118

同被引文献94

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于频繁模式挖掘的维吾尔文智能组词方法被引量：6