一种面向用户的语言模型及其机器学习方法被引量：4

User - oriented Chinese language model and its machine learning

下载PDF

导出

摘要为改善语言模型的自适应能力,提出的面向用户的语言模型在组织结构上由通过大规模平衡语料的训练得到的通用语言模型(其原始参数维持不变)和通过在线学习得到的用户模型(其参数采用先进先出技术动态更新)组成;在数据存储结构上,通用模型采用多级索引结构来解决数据稀疏问题,用户模型采用线性结构表示,用二分法查找。根据最大限度纠正语言模型的转换错误和避免语言模型不平衡的原则,提出了适应汉语N-gram模型的机器学习方法。实验结果表明,这种机器学习方法具有“强化”特点,和“渐进学习”方式一起为应用系统提供了更灵活的选择。 In order to improve the adaptability of language model, the user-oriented language model is proposed consisting of the general-purpose language model (with its original parameters kept unchanged) obtained through large-scale training on balanced corpus and the user model (with its parameters dynamically updated using the first in and first out technique) obtained through on-line learning. In the data storage structure, a multi-level index structure is used in the general-purpose model to solve the data sparseness problem, and the user model is represented by linear structures, and searched by the halving method. A machine learning method suitable for Chinese N-gram model is proposed following the principle of correcting as much language model transfer errors as possible and avoiding language model imbalance. Experimental results indicate that this machine learning method has the strengthening characteristics, and provides a progressive learning mode with more flexible choice for the application system.

作者刘秉权王晓龙

机构地区哈尔滨工业大学

出处《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2004年第2期150-153,共4页 Journal of Harbin Institute of Technology

基金国家自然科学基金(69973015) 国家高技术研究发展计划资助项目(2001AA114041).

关键词面向用户语言模型机器学习线性结构 N-GRAM模型 Artificial intelligence Data processing Online systems

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1LEEKF, HON HW, REDDY R. An overview of the sphinx speech recognition system [ J ]. IEEE Trans On Acoustics, Speech Signal Processing, 1990,38( 1 ) :35 -44.
2CHEN S. Building Probabilistic Models for Natural Language [ D ]. Cambridge: Harvard University, 1996.
3BAHL L. The IBM large vocabulary continuous speech recognition system for the ARPA NAB news task [ A ].Proc ARPA Workshop on Spoken Language Technology[C]. Austin, TX, 1995.
4王轩,王晓龙,藏晓莉.统计与规则相结合的计算机音字相互转换技术[J].哈尔滨工业大学学报,1997,29(4):1-4. 被引量：3
5JELINEK F, MERIALDO B, ROUKOS S, et al. A dynamic LM for speech recognition [ A ]. Proc ARPA Workshop on Speech and Natural Language[ C]. Pacific Grove, CA, 1991.
6KUHN R, MORIR de, A cache based natural language model for speech recognition [ J ]. IEEE Trans On Pattern Anal, Machine Intell, 1992,12 (6) :570 - 583.
7MASATAKI H, SAGISSKA Y, KAWAHARA T. Task adaptation using MAP estimation in N - gram language modeling[ A]. Proc IEEE Int1 Conf Acoust, Speech and Signal Process[ C]. Munich, GERMANY, 1997.

二级参考文献4

1王晓龙,王开铸,孙希文,王英伟.音字转换中的机器学习研究[J].计算机学报,1993,16(5):370-377. 被引量：7
2王晓龙,王开铸.声音语句输入的研究[J].计算机学报,1994,17(2):96-103. 被引量：7
3潘凌云，计算机学报，1990年，4页
4王晓龙，科学通报，1989年，34卷，13期

共引文献2

1刘政怡,樊庆林,吴建国,李炜.基于输入法的通用存储结构[J].计算机工程与设计,2008,29(17):4554-4558.
2刘政怡,吴建国,李炜.基于整句输入法的状态空间模型[J].计算机工程与应用,2008,44(30):153-156. 被引量：2

同被引文献87

1林源.现代汉字独体与合体划分探究[J].伊犁教育学院学报,2006,19(4):109-111. 被引量：2
2刘海涛.关于自然语言计算机处理的几点思考[J].术语标准化与信息技术,2001(1):23-27. 被引量：4
3许菊芳.理解,交流的基础——俞士汶教授谈自然语言处理技术[J].微电脑世界,1999,0(31):11-13. 被引量：1
4缪成,袁保社,吾守尔.斯拉木,李莉.维、哈、柯、汉、英多文种处理平台的设计与实现[J].计算机工程,2004,30(10):71-73. 被引量：20
5吕学强,郭军,姚天顺.英汉机器翻译系统ECT中的知识库[J].小型微型计算机系统,2004,25(8):1482-1485. 被引量：3
6冯冲,陈肇雄,黄河燕.语言工程的软件体系结构研究综述[J].中文信息学报,2004,18(6):53-60. 被引量：1
7陈燕敏,王晓龙,刘远超,楼喜中.一种基于文章主题和内容的自动摘要方法[J].计算机工程与应用,2004,40(33):11-14. 被引量：12
8石跃祥,蔡自兴.图像语义的模型结构描述[J].计算机工程与应用,2004,40(20):44-46. 被引量：6
9梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
10辛日华.计算机自然语言处理[J].呼伦贝尔学院学报,2003,11(1):44-46. 被引量：4

引证文献4

1徐琳,赵铁军.国家自然科学基金在自然语言处理领域近年来资助的已结题项目综述[J].软件学报,2005,16(10):1853-1858. 被引量：7
2孙晓,李培峰,刁红军.基于动态自适应语言模型的中文输入系统的设计与实现[J].苏州大学学报（自然科学版）,2011,27(2):29-35.
3孙晓,李培峰.领域语言模型及其在中文输入系统中的应用[J].计算机应用与软件,2012,29(8):46-48.
4李翠霞.现代计算机智能识别技术处理自然语言研究的应用与进展[J].科学技术与工程,2012,20(36):9912-9918. 被引量：11

二级引证文献18

1肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：42
2俞士汶,柏晓静.计算语言学与外语教学[J].外语电化教学,2006(5):3-11. 被引量：8
3李珊,何建敏,厉浩.基于本体和加权互信息的专业知识检索[J].情报学报,2006,25(5):559-563. 被引量：9
4郭涛,曲宝胜,郭勇.自然语言处理中的模型[J].电脑学习,2011(2):113-116.
5何贤江,左航,李远红.面向移动平台的FAQD自动问答系统[J].四川大学学报（自然科学版）,2012,49(3):560-564. 被引量：1
6侯亚君.计算机语言识别技术应用的探究[J].电脑开发与应用,2014,27(3):75-78. 被引量：2
7赵蓉英,曾宪琴,陈必坤.全文本引文分析——引文分析的新发展[J].图书情报工作,2014,58(9):129-135. 被引量：62
8陈恬.基于上下位机结构的智能型密集柜的设计与实现[J].电子测试,2015,26(10):1-3.
9张志新.自然语言的计算机处理模型[J].电子世界,2015(15):191-192.
10王玉琢,章成志.考虑全文本内容的算法学术影响力分析研究[J].图书情报工作,2017,61(23):6-14. 被引量：23

1吴云洁,姜玉宪,赵守春.集散型控制系统并行通信的设计与实现[J].自动化仪表,2001,22(12):44-46. 被引量：1
2陈代芳.一种基于云模型的数字图像水印技术[J].电脑知识与技术（过刊）,2009,15(7X):5490-5491. 被引量：1
3高阳,田生伟,吐尔根.依不拉音.非平衡语料下改进的SVM-KNN算法[J].新疆大学学报（自然科学版）,2012,29(1):100-103. 被引量：1
4靖红芳,王斌,杨雅辉,徐燕.基于类别分布的特征选择框架[J].计算机研究与发展,2009,46(9):1586-1593. 被引量：18
5黄伟,范磊.基于多分类器投票集成的半监督情感分类方法研究[J].中文信息学报,2016,30(2):41-49. 被引量：9
6崔彩霞,王素格.基于类内频率的文本分类特征选择方法[J].计算机工程与设计,2007,28(17):4249-4251.
7电子百科[J].世界电子元器件,2007(10):48-48.
8倪晓军.高效Unicode/GB编码转换算法的设计和实现[J].计算机技术与发展,2009,19(9):21-24. 被引量：4
9王海涛,朱洪.改进的二分法查找[J].计算机工程,2006,32(10):60-62. 被引量：39
10童隆恩,孙丽.一种综合的神经网络多范例原型和开发系统──Neuralwork Professional Ⅱ／plus[J].机械工业自动化,1994,16(2):1-3.

哈尔滨工业大学学报

2004年第2期

浏览历史

内容加载中请稍等...

一种面向用户的语言模型及其机器学习方法被引量：4

参考文献7

二级参考文献4

共引文献2

同被引文献87

引证文献4

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

一种面向用户的语言模型及其机器学习方法 被引量：4

参考文献7

二级参考文献4

共引文献2

同被引文献87

引证文献4

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

一种面向用户的语言模型及其机器学习方法被引量：4