EBMT中高效的维吾尔语单词散列表构造算法被引量：3

Efficient Hash Algorithm for Uyhur Words in EBMT

下载PDF

导出

摘要基于实例的机器翻译(EBMT)是一种高效的机器翻译方法,如何快速地从海量实例模式库中找出与待翻译句子相似的候选实例,是EBMT研究的关键技术之一。统计分析维吾尔语单词字母的分布特征,构造了基于维吾尔语单词的倒排索引散列表,在等概率条件下,平均查找长度为1.59;依据散列冲突的同义词在维吾尔语料中出现的频率作为权值,提出了一种新颖的解决散列冲突的算法:同义词次优树算法。实验显示,算法的性能比传统的顺序查找和二分查找算法分别高出了27.5%,21.8%,证明了该算法在EBMT中有较高的检索效率。 The efficient retrieval of the candidate translation example from the large scale translation example base is fundamental issue in the study of EBMT. This paper proposes an Uyhur t Hash function designed according to the distribution of the uyhur words and characters, which, on the equiprobable condition, facilitate an average search length of 1.59. To resovle the conflict in the Hash table, a new mechanism name second optimal tree for synonym is established as regards to the frequency of the conflicting Urhur words. The experiments show that the proposed approach achieves 27.5% and 21.8% improvement in the performance compared with the sequential chain and binary search approach respectively.

作者田生伟吐尔根.依布拉音禹龙

机构地区新疆大学信息科学与工程学院新疆大学网络中心

出处《中文信息学报》 CSCD 北大核心 2009年第4期124-128,共5页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60663006)

关键词计算机应用中文信息处理 EBMT 散列平均查找长度次优树 computer application Chinese information processing EBMT hash average search length second optimal tree

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1M.Nagao.A framework of a mechanical translation between Japanese and English by analogy principle[C]//A.Elithorn and R.Bane~i.Artificial and Human Intelligence.North Holland Publications.1984:173-180.
2王长胜,刘群.基于实例的汉英机器翻译系统研究与实现[J].计算机工程与应用,2002,38(8):126-127. 被引量：14
3刘康龙,穆雷.语料库语言学与翻译研究[J].中国翻译,2006,27(1):59-64. 被引量：48
4Carl M.Recent Research in the Field of Examplebased Machine Translation[C]//Proceedings of the Second International Conference on Computational Linguistics and Intelligent Text Processing,2001:195-196.
5黄河燕,陈肇雄,胡曾剑.IHSMTS中实例模式获取机制的设计与实现[J].计算机研究与发展,2002,39(5):588-592. 被引量：3
6张孝飞,陈肇雄,黄河燕,代六玲.多策略机器翻译系统IHSMTS中候选实例模式检索算法[J].小型微型计算机系统,2005,26(3):330-334. 被引量：2
7Kanghua Chen.Indexing and abstracting:lecture 10 index structure[R].Department of Lib rary and Information Science National Taiwan University,2005.
8李栋,史晓东.一种支持高效检索的实时更新倒排索引策略[J].情报学报,2006,25(1):16-20. 被引量：6
9严蔚敏,吴伟民.数据结构[M].清华大学出版社,1997.
10陈桂林,王永成,韩客松,王刚.一种改进的快速分词算法[J].计算机研究与发展,2000,37(4):418-424. 被引量：56

二级参考文献71

1冯跃进,陈伟.汉语“副职”英译的语料库调查研究[J].外国语,1999,22(2):43-49. 被引量：22
2丁信善.语料库语言学的发展及研究现状[J].当代语言学,1998(1):5-13. 被引量：84
3王建新.语料库语言学发展史上的几个重要阶段[J].外语教学与研究,1998,30(4):53-59. 被引量：23
4穆雷.翻译教学发展的途径[J].中国翻译,2004,25(5):25-26. 被引量：163
5王克非.双语平行语料库在翻译教学上的用途[J].外语电化教学,2004(6):27-32. 被引量：215
6柯飞.双语库:翻译研究新途径[J].外语与外语教学,2002(9):35-39. 被引量：71
7徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：16
8骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
9陈肇雄,高庆狮.智能化英汉机译系统IMT/EC[J].中国科学（A辑）,1989,20(2):186-194. 被引量：16
10吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49

共引文献155

1张思佳.近十年国内语料库商务英语翻译研究综述——基于CiteSpace可视化知识图谱的分析[J].现代英语,2020(10):48-51.
2陈钊.国内外语料库语言学发展研究概述[J].辽宁教育行政学院学报,2021(3):83-87. 被引量：1
3苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
4刘小珠,孙莎,曾承,彭智勇.基于缓存的倒排索引机制研究[J].计算机研究与发展,2007,44(z3):153-158. 被引量：8
5文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
6温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
7吴启德,吕强.一个比较不同中文分词法的软件[J].苏州大学学报（工科版）,2004,24(6):29-33.
8张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
9吴建胜,战学刚,迟呈英.一种基于自动机的分词方法[J].计算机工程与应用,2005,41(8):81-82. 被引量：8
10张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：15

同被引文献67

1陈海艳.新中国成立以来的维吾尔语研究概述[J].民族翻译,2021(1):88-96. 被引量：1
2肖桐,朱靖波.《机器翻译:基础与模型》[J].中文信息学报,2021,35(12):167-167. 被引量：1
3那顺乌日图,淑琴.面向信息处理的蒙古语规范化研究[J].中央民族大学学报（哲学社会科学版）,2007,34(6):115-122. 被引量：6
4古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
5力提甫.托乎提.电脑处理维吾尔语语音和谐律的可能性[J].中央民族大学学报（哲学社会科学版）,2004,31(5):108-113. 被引量：15
6维尼拉.木沙江,木合塔尔.日——维机器翻译中粘着性特点的应用[J].新疆大学学报（社会科学版）,2005,33(1):129-134. 被引量：3
7维尼拉.木沙江,米尔夏提.力提甫,木合塔尔.日-维机器翻译系统中词典的研究[J].新疆大学学报（哲学社会科学版）,2006,34(1):149-153. 被引量：1
8许亚梅,张立臣.基于实例的机器翻译方法及其优化策略探讨[J].福建电脑,2006(5):48-49. 被引量：1
9阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量：24
10阿里甫.库尔班,阿布力米提.阿不都热依木,吐尔根.依布拉音.维汉机器翻译用电子词典的设计[J].计算机工程与应用,2006,42(20):76-78. 被引量：3

引证文献3

1才让加.面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究[J].中文信息学报,2011,25(6):157-161. 被引量：18
2麦热哈巴.艾力,姜文斌,吐尔根.依布拉音.维吾尔语词法中音变现象的自动还原模型[J].中文信息学报,2012,26(1):91-96. 被引量：8
3哈里旦木·阿布都克里木,侯钰涛,姚登峰,阿布都克力木·阿布力孜,陈吉尚.维吾尔语机器翻译研究综述[J].计算机工程,2024,50(1):1-16. 被引量：2

二级引证文献28

1才藏太,赵海兴,才让加.汉藏句子自动对齐技术研究[J].青海师范大学学报(自然科学版),2022,38(1):1-3.
2张晓艳,宋铁花.计算语言学及其视角下的翻译平台建设[J].山西农业大学学报（社会科学版）,2013,12(4):359-362. 被引量：2
3阿孜古丽.夏力甫,麦热哈巴.艾力,吐尔根.伊布拉音.维吾尔语动词构形规则的形式化描述[J].中央民族大学学报（哲学社会科学版）,2013,40(3):117-123. 被引量：4
4王辉,努尔麦麦提.尤鲁瓦斯,吾守尔.斯拉木.维吾尔语音素的声学特征分析[J].中文信息学报,2014,28(1):100-106. 被引量：1
5麦热哈巴.艾力,阿孜古丽.夏力甫,吐尔根.依布拉音.维吾尔语多词表达抽取方法研究[J].计算机工程与应用,2014,50(8):26-30. 被引量：3
6麦合甫热提,米日姑.肉孜,麦热哈巴.艾力,吐尔根.依布拉音.基于语法语义知识的维吾尔文机构名识别[J].计算机工程与设计,2014,35(8):2944-2948. 被引量：7
7张海波,蔡洽吾,姜文斌,吕雅娟,刘群.基于联合音变还原和形态切分的形态分析方法[J].中文信息学报,2014,28(6):9-17. 被引量：3
8邱均平,方国平.基于知识图谱的中外自然语言处理研究的对比分析[J].现代图书情报技术,2014(12):51-61. 被引量：14
9应晓东.论词汇分布作为词汇复杂度的一个测度[J].云南民族大学学报（自然科学版）,2014,23(6):460-464.
10刘汇丹,诺明花,马龙龙,吴健,贺也平.Web藏文文本资源挖掘与利用研究[J].中文信息学报,2015,29(1):170-177. 被引量：6

1秦玉平,王丽君,刘伟.查找算法平均查找长度的计算方法[J].渤海大学学报（自然科学版）,2011,32(4):353-357. 被引量：9
2苏小虎.用于数列寻空的蛙跳算法[J].电脑知识与技术,2011,7(4):2322-2326.
3李爱华,刘晓红,张衍杰.基于完全二叉树概念的算法设计与分析[J].山东理工大学学报（自然科学版）,2006,20(3):56-58. 被引量：3
4马靖善.二叉排序树查找算法性能分析[J].电脑编程技巧与维护,2014(4):9-10. 被引量：3
5王防修.基于前缀码的快速编码算法研究[J].武汉轻工大学学报,2015,34(4):60-64.
6石川,李清勇,史忠植.一种快速的基于占优树的多目标进化算法[J].软件学报,2007,18(3):505-516. 被引量：14
7彭晓川.折半查找算法优化分析[J].电子制作,2013,21(24):25-25. 被引量：5
8贾永胜.散列表及其冲突处理方法的性能分析[J].石家庄职业技术学院学报,2014,26(2):43-45.
9许维平,崔建军,许静瑶.基于C语言编程实现倒排文件的数据查找[J].计算机工程与应用,1998,34(11):63-64.
10骆剑锋.哈希表与一般查找方法的比较及冲突的解决[J].十堰职业技术学院学报,2007,20(5):96-98. 被引量：3

中文信息学报

2009年第4期

浏览历史

内容加载中请稍等...

EBMT中高效的维吾尔语单词散列表构造算法被引量：3

参考文献11

二级参考文献71

共引文献155

同被引文献67

引证文献3

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

EBMT中高效的维吾尔语单词散列表构造算法 被引量：3

参考文献11

二级参考文献71

共引文献155

同被引文献67

引证文献3

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

EBMT中高效的维吾尔语单词散列表构造算法被引量：3