一种适应域的汉语N-gram语言模型平滑算法被引量：9

Smoothing algorithm of the task adaptation Chinese N gram model

导出

摘要针对基于汉语词的Ｎｇｒａｍ模型统计数据稀疏问题和应用域变化造成原统计模型识别性能降低，提出具有应用域适应能力的Ｎｇｒａｍ模型平滑算法。对两种应用域的语料进行了前、后向０到３元文法统计，采用隐马尔可夫模型（ＨＭＭ）在语音识别中的成功经验，由Ｂａｕｍ ｗｅｌｃｈ算法来获得优化权值，每个权值代表相关模型的统计可靠性。由前后向的３ｇｒａｍ模型可得到５ｇｒａｍ文法约束的平滑算法，以弥补统计矩阵数据的稀疏现象。将《人民日报》语料的统计结果作为先验统计结果，和《计算机世界》作为转换域的专业语料进行后继训练，得到一种适应应用域的３ｇｒａｍ模型。实验结果表明，前后向约束的３ｇｒａｍ文法得到的５ｇｒａｍ平滑可以较小的存储代价得到较高的文法约束。 Statistic data sparse problem of Chinese word N gram model and changing of application domains caused former statistic model low recognition performance. A Chinese N gram model smoothing algorithm of task adaptation ability was put forward. A 0 gram to 3 gram forward and backwards probability statistics models were built in two application domains, it adopted the success experience of HMM in speech recognition, to apply Baum welch algorithm for optimum of the weights. Each weight stands for reliability of the correlation statistic models. The 5 gram statistic probability smoothing algorithm was obtained from the forward and backwards 3 gram, in order to offset the matrix sparse data of statistic probability. The “People Daily” corpus statistic is regard as the preliminary result, and “PC World” as the corpus of the changing domain to carry on successive training, a 3 gram model of task adaptation is gotten. The experiment results show, the 5 gram model is obtained from forward and backwards 3 gram models that has a higher grammar restriction with less shortage cost, thus the perplexity of statistic models is decreased greatly.

作者江铭虎朱小燕袁保宗

机构地区清华大学计算机科学与技术系北方交通大学信息科学研究所

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 1999年第9期99-102,共4页 Journal of Tsinghua University(Science and Technology)

基金国家自然科学基金教育部博士后重点科研基金

关键词适应域平滑算法汉语语音识别 N-GRAM语言模型 gram model task adaptation smoothing algorithm 

分类号 TP391.42 [自动化与计算机技术—计算机应用技术] TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献1

1Zhou M，IEICE Trans Inf Syst，1996年，E79卷，4期，333页

同被引文献56

1孙红梅.电视新闻播音语速之我见[J].声屏世界,2004(12):31-32. 被引量：3
2丁昊,姚天任.基于mel标度频谱和音素分割的汉语语音单词端点检测方法[J].计算机与数字工程,2005,33(3):57-59. 被引量：3
3黄永文,何中市.基于互信息的统计语言模型平滑技术[J].中文信息学报,2005,19(4):46-51. 被引量：8
4翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
5杨琳,张建平,颜永红.特定领域的汉语语言模型平滑算法比较研究[J].计算机工程与应用,2006,42(32):14-16. 被引量：6
6黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：251
7董梅,胡学钢.基于多特征选择的中文文本分类[J].计算机技术与发展,2007,17(7):117-119. 被引量：11
8李圃.古文字诂林(一、二、三、四册)[M].上海教育出版社,2000..
9李学勤.英国所藏甲骨集[M].中华书局出版,1986..
10姚孝遂肖丁.殷墟甲骨刻辞类纂(上册、中册、下册)[M].中华书局出版,1988..

引证文献9

1黄永文,何中市.基于互信息的统计语言模型平滑技术[J].中文信息学报,2005,19(4):46-51. 被引量：8
2黄永文,何中市.基于全局折扣的统计语言模型平滑技术[J].重庆大学学报（自然科学版）,2005,28(8):51-55. 被引量：3
3张磊,褚昆,郭黎利.基于互信息的语言模型回退平滑算法[J].应用科技,2009,36(4):28-31.
4张秋野,王力劭,丁鹏.连续语音识别网格技术在新闻制播平台的应用[J].电视技术,2010,34(2):58-60. 被引量：3
5朱颖.浅谈HMM在词性标注中的应用[J].电脑开发与应用,2011,24(3):52-55. 被引量：3
6王达,崔蕊.数据平滑技术综述[J].电脑知识与技术（过刊）,2009,15(4X):4507-4509. 被引量：12
7张亚军.维吾尔语的N-gram语言模型研究[J].电脑知识与技术（过刊）,2011,17(6X):4177-4179. 被引量：1
8凤丽洲,杨贵军,徐雪,徐玉慧.基于N-gram的双向匹配中文分词方法[J].数理统计与管理,2020,39(4):633-643. 被引量：15
9江铭虎,邓北星,廖盼盼,张博,严峻,丁晔.甲骨文字库与智能知识库的建立[J].计算机工程与应用,2004,40(4):45-47. 被引量：20

二级引证文献65

1刘洋,陆逸,魏钰驰,孙智莹,朱立芳.甲骨文识别技术研究现状与展望[J].知识管理论坛,2023(2):115-125. 被引量：4
2刘永革,栗青生.可视化甲骨文字编辑器的设计与实现[J].安阳师范学院学报,2007(5):35-38. 被引量：4
3吴晓春,吴娴,朱巧明.一个语言模型压缩方法的研究与实践[J].苏州大学学报（工科版）,2008,28(3):16-20. 被引量：1
4吴凡.信息检索中的中文分词问题研究[J].情报杂志,2008,27(7):41-43. 被引量：4
5柳长青,杜建录.网络下的西夏文及西夏文献处理研究[J].宁夏社会科学,2008(5):113-115. 被引量：6
6陈丹,李宁,李亮.古文字的联机手写识别研究[J].北京机械工业学院学报,2008,23(4):32-37. 被引量：4
7张磊,褚昆,郭黎利.基于互信息的语言模型回退平滑算法[J].应用科技,2009,36(4):28-31.
8施侃晟,刘海涛,舒平达.一种提高文本检索准确性的关联方法[J].计算机应用与软件,2010,27(5):1-2.
9葛斌,封孝生,谭文堂,肖卫东.基于多层最大熵模型的句子主干分析[J].计算机科学,2010,37(12):156-160. 被引量：4
10周子明.一种规则和统计相结合的文本主题识别[J].中国电子商务,2011(4):79-79.

1卢先宁,高泽华,高峰.Web日志挖掘中的会话识别技术研究[J].数据通信,2012(4):19-21.
2李嘉佑,贾自艳,何清,史忠植.基于Web挖掘的网页清洗技术[J].计算机工程与应用,2006,42(25):98-101. 被引量：7
3林伟,柳荣其,徐熙.一种基于N-Gram的垃圾邮件过滤方法研究[J].计算机应用与软件,2010,27(2):121-123. 被引量：5
4陶志荣.N—gram语言模型的Katz平滑技术[J].电子计算机,2002(2):32-35. 被引量：1
5孙兴东,李爱平,李树栋.一种基于聚类的微博关键词提取方法的研究与实现[J].信息网络安全,2014(12):27-31. 被引量：9
6毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35. 被引量：17
7冯鲸华,古丽拉.阿东别克,玛依来.哈帕尔.基于N-gram语言模型的哈萨克文机构名识别[J].计算机工程与应用,2010,46(31):135-138. 被引量：2
8徐志明,王晓龙,关毅.N-gram语言模型的数据平滑技术[J].计算机应用研究,1999,16(7):37-39. 被引量：11
9汪洋,帅建梅.基于语义扩展模型的中文网页关键词抽取[J].计算机工程,2012,38(22):163-166. 被引量：4
10黄建中,王肖雷.Katz平滑算法在中文分词系统中的应用[J].计算机工程,2004,30(B12):371-372. 被引量：5

清华大学学报（自然科学版）

1999年第9期

浏览历史

内容加载中请稍等...

一种适应域的汉语N-gram语言模型平滑算法被引量：9

参考文献1

同被引文献56

引证文献9

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

一种适应域的汉语N-gram语言模型平滑算法 被引量：9

参考文献1

同被引文献56

引证文献9

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

一种适应域的汉语N-gram语言模型平滑算法被引量：9