基于聚类和索引技术的语言模型压缩方法

Compression Method of Language Model Based on Clustering Algorithm and Multistep Indexing

下载PDF

导出

摘要由于训练语料的庞大,SRILM训练生成的ARPA统计语言模型数据文件体积过大,导致查找效率低下以及消耗大量的存储空间。针对该问题,借鉴聚类和索引查找的思想,提出了一种基于K均值(K-means)聚类算法的对语言模型中的转移概率和回退概率压缩,并通过多级索引技术提高查找速度的压缩方法。理论分析和实验表明,该方法可以在减少压缩造成的数据失真对选词影响的同时,取得非常好的压缩效果,同时提高了对语言模型文件查找效率,并且输入法的反应速度得到了明显的提升。 Because of the large-scale training corpus,the language model data file of the ARPA format produced by SRILM toolkit usual- ly takes too much space and reduces the search rate. For the problem, learning from the idea of unsupervised clustering analysis and multi level index ,proposed a compression method of N-Gram Chinese language model file based on K-means clustering algorithm and multi level index technology to increase search speed. Theoretical analysis and experiments show that the method can promptly obtain an out standing compression ratio and effectively reduce the redundant search times, showing a good performance.

作者祁斌川杨端端丁建国

机构地区中国科学院上海应用物理研究所束测控制部门盛大创新研究院语音主题部门

出处《计算机技术与发展》 2012年第12期25-28,共4页 Computer Technology and Development

基金国家"973"重点基础研究发展计划项目(2011CB808300)

关键词语言模型压缩方法聚类算法多级索引 language model compression method K-means clustering algorithm multilevel index technology

分类号 TP319.14 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1李晓光,王大玲,于戈.基于统计语言模型的信息检索[J].计算机科学,2005,32(8):124-127. 被引量：9
2Manning C,Schiitze H.统计自然语言处理基础[M].苑春法,李伟,李庆中,译.北京:电子工业出版社,2005:45-50..
3殷芳刚,吴建国,吴海辉,李炜.Windows Mobile平台下智能手机输入法研究[J].计算机技术与发展,2011,21(5):75-78. 被引量：3
4Rosenfeld R. The CMU Statistical Language Modeling Toolkit [ C]//Proe of ARPA Spoken Language Technology Work- shop. Is. 1. ] :Is.n. 1,1995.
5Jelinek F,Mercer R L. Interpolated Estimation of Markov So- urce Parameters from Sparse Data[ C]//Proc of Workshop on Pattern Recognition in Practice. Amsterdam:North-Holland, 1980.
6Lafferty J D, Sleator D, Temperley D. Grammatical Trigrams : A Probabilistic Model of Link Grammar[ C ]//Proceedings of the AAAI Fall Symposium on Probabilistic Approaches to Natural Language. Cambridge, MA: [ s. n. ], 1992:89-97.
7Ye Z X, Berger T. Information Measures for Discrete Random Fields [ M ]. Beijing: Science Press, 1998. Kaufnman L,Rousseeuw P J. Finding group in data:an intro- duction to cluster analysis [ M ]. New York : Wiley, 1990 : 83 - 88.
8Kaufnman L,Rousseeuw P J. Finding group in data:an intro- duction to cluster analysis [ M ]. New York : Wiley, 1990 : 83 - 88.
9段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
10Brown P F,deSouza P V,Mercer R L,et al. Class-based n- gram models of natural language [ J ]. Computational Linguis- tics, 1992,18 (4) : 153-157.

二级参考文献46

1欣闻.手机文字输入技术及其发展趋势[J].现代通信,2005(2):34-35. 被引量：1
2李培峰,朱巧明,钱培德.一个应用于手持设备的汉字通用输入模型[J].计算机工程,2006,32(18):258-260. 被引量：3
3[6]Segal M,Korobkin,R Van W klcnfeh et al Fast Shadow and Lithting Effects is Using Texture Mapping[C],USA;Proceedings of SIGGRAPH92,1992,249-252.
4[7]S Seitz,C Dyer Photorealistic Scene Reconstruction by Voxel Coloring[C],CVPR,1997,1067～1073.
5张晋.汉字信息处理研究[M].北京:北京语言学院出版社,1992:4-21.
6Po Lai-Man, Wong Chi-Kwan. Six-Digit Stroke-based Chinese Input Method[C]//Proceedings of the 2009 IEEE Inter- national Conference on Systems, Man, and Cybernetics. San Antonio, TX, USA : [ s. n. ] , 2009 : 818- 823.
7Microsoft. Win32 Multilingual IME Application Programming Interface[M]. [s. l. ] :[s.n. ], 2003.
8Microsoft Corp. Win32 Multilingual IME Application Programzing Interface [M]. [ s. l. ]: [ s. n. ], 1998.
9Rosenfeld R. Adaptive Statistical Language Modeling: A Maximum Entropy Approach: [CMU Technical Report CMU-CS-94-138]..
10Zhai C, Lafferty J. A Risk Minimization Framework for Information Retrieval. citeseer. nj. nec. com.

共引文献53

1刘红亮,肖振宇,黄龙杰.基于DDS与MCU的运算放大器参数测量系统设计[J].电子设计应用,2007(4):100-102.
2张柯,沈夏炯,董鑫,于俊洋.基于概念格的语义相关度计算[J].郑州轻工业学院学报（自然科学版）,2007,22(2):178-181. 被引量：1
3吴晓春,吴娴,李培峰,朱巧明.基于分组的次数与规则剪枝相结合的语言模型压缩方法研究[J].计算机工程与科学,2008,30(11):129-133.
4姚徐,郭淑妮,李永宏,于洪志.多级索引的藏语分词词典设计[J].计算机应用,2009,29(B06):178-180. 被引量：6
5王舜燕,邱昌程,宁海波,张梅芬.构件搜索中需求描述关键词提取方法[J].计算机与数字工程,2009,37(11):36-39.
6李求实,王秋月,王珊.平衡I/O和CPU的XML关键词检索[J].计算机科学与探索,2010,4(2):124-133.
7肖夏,刘亚亮,付绍晨,单兴锰.LSAWs技术检测超薄low-k材料机械特性的匹配算法[J].天津大学学报,2010,43(10):849-853.
8黄永林,叶玉堂,乔闹生,王鼎元.线阵CIS图像采集系统自动增益调节设计[J].自动化仪表,2011,32(2):78-80. 被引量：2
9谢宇斌,唐启涛.建立中小型高效快速的模糊查询[J].电脑知识与技术,2011,7(6):3777-3779.
10黄名选,余如.基于负关联规则与频繁项集挖掘的信息检索系统[J].现代图书情报技术,2011(7):91-96. 被引量：3

1高涛.灵活、开放、自由的统计语言第五届中国R语言会议剪影[J].程序员,2012(7):20-21.
2李国雁.外键列索引的效率分析[J].现代计算机,2014,20(24):44-46.
3孟海东,肖银龙,宋宇辰.基于Hadoop的Dirichlet朴素贝叶斯文本分类算法[J].现代电子技术,2016,39(4):29-33. 被引量：3
4郭雷.统计语言模型分析[J].软件导刊,2011,10(11):72-73.
5罗志磊,丁菲,张连堂.索引查找最佳分块方法研究[J].河南大学学报（自然科学版）,2006,36(2):102-104.
6惠益龙,张太红,吕莲花,王蓓蓓.语音识别中的统计语言模型研究[J].信息技术,2017,41(1):44-46. 被引量：2
7郭绪坤,范冰冰.一种朴素贝叶斯文本分类算法的分布并行实现[J].计算机应用与软件,2016,33(11):240-243. 被引量：5
8王斌.文本检索综述[J].数字图书馆论坛,2006(8):1-9. 被引量：1
9完么才让.基于词典的藏语分词系统中顺序、索引和二分查找算法的性能比较[J].信息与电脑,2016,28(3):75-76. 被引量：2
10陈浩.基于统计语言模型的无导词义消歧[J].电脑知识与技术,2015,0(1):178-180. 被引量：1

计算机技术与发展

2012年第12期

浏览历史

内容加载中请稍等...

基于聚类和索引技术的语言模型压缩方法

参考文献11

二级参考文献46

共引文献53

相关作者

相关机构

相关主题

浏览历史