一种新的潜在语义分析语言模型被引量：3

A new latent semantic analysis language model

下载PDF

导出

摘要提出了基于聚类的方法实现词的快速量化表示,并由此导出潜在语义分析语言模型预测置信度,同时运用新提出的几何加权静态插值方式同三元文法模型相结合,构建了一种新的潜在语义分析语言模型,并将其应用于汉语语音识别.实验表明其效率和性能均优于传统基于奇异值分解的潜在语义分析语言模型,相比于三元文法模型,识别错误率相对下降为3.6%～7.1%左右,并为有效量化表示词对进一步提高潜在语义分析语言模型性能提供了新的途径. In this paper, latent semantic analysis automatically uncovered the salient semantic relationships between words in a given training corpus by a novel faster method for quantizing word via clustering, it was used for mandarin speech recognition through combining with trigram model via a new proposed static geometric weighting interpolation manner. Experiments show that it outperformed the traditional singular value decomposition-based latent semantic analysis model for its better efficiency and performance. Compared with the trigram model, the reduction of relative recognition error rate is about 3.6% -7.1%. Furthermore, it provides a novel approach for improving latent semantic analysis model through quantizing word pair effectively.

作者任纪生王作英

机构地区清华大学电子工程系

出处《高技术通讯》 CAS CSCD 北大核心 2005年第8期1-5,共5页 Chinese High Technology Letters

基金国家高技术研究发展计划(863计划)

关键词语言模型语音识别 N元文法潜在语义分析奇异值分解汉语语音识别模型性能模型预测插值方式量化表 language model, speech recognition, N-gram, latent semantic analysis, singular value decomposition

分类号 TP311.12 [自动化与计算机技术—计算机软件与理论] TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献7

1Deerwester S, Dumais S T, Furnas G W, et al. Indexing by latent semantic analysis. Journal of the American Society of Information Science, 1990, 41 : 391.
2Bellegarda J R. A mtdtispan language modeling framework for large vocabtdary speech recognition. IEEE Trans Speech Audio Processing, 1998, 6:456.
3Bellegarda J R. Exploiting latent semantic information in statistical language modeling. Proceedings of IEEE, 2000, 8:1279.
4Berry M W. Large-scale sparse singular value computations.The International Journal of Supercomputer Applications, 1992,6:13.
5Martin S, Liermann J, Ney H. Algorithms for bigram andtrigram word clustering. Speech Commutation, 1998, 1 : 19.
6Coccaro N, Jurafsky D. Towards better integration ofsemantic predictors in statistical language modeling. In: Proceedings of ICSLP. Sydney, Australia, 1998,6:2403.
7王作英.基于段长分布的HMM语音识别模型[A]..第二届全国汉字语音识别会议[C].庐山,1989..

共引文献3

1李春,王作英.汉语连续语音识别中一种新的音节间相关识别单元[J].声学学报,2003,28(2):187-191. 被引量：3
2肖熙,王侠,王作英.基于Dialogic语音卡实时数据采集的电话语音识别系统[J].计算机工程与应用,2003,39(17):110-114. 被引量：3
3林建臻,孙甲松,王作英.汉语语音识别的抗噪性前端算法及性能分析[J].电声技术,2004,28(3):45-48. 被引量：1

同被引文献55

1叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
2刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005,45(S1):1783-1786. 被引量：11
3曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
4郑亚非.潜在语义分析与篇章理解[J].浙江工业大学学报（社会科学版）,2006,5(1):70-75. 被引量：1
5顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8
6何明,冯博琴,傅向华.基于Rough集潜在语义索引的Web文档分类[J].计算机工程,2004,30(13):3-5. 被引量：7
7王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术[J].计算机应用研究,2004,21(8):151-154. 被引量：15
8王金凤.一种基于特征聚合理论和LSI的文本分类新方法[J].北京理工大学学报（社会科学版）,2004,6(5):92-94. 被引量：2
9刘云峰,齐欢,代建民.潜在语义分析在中文信息处理中的应用[J].计算机工程与应用,2005,41(3):91-93. 被引量：18
10陈涛,宋妍,谢阳群.基于IIG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005,24(2):203-209. 被引量：14

引证文献3

1孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6
2季铎,常利伟,蔡东风.基于子空间优化的潜在语义标引技术研究[J].沈阳航空航天大学学报,2013,30(2):60-65. 被引量：1
3周洲,侯开虎,姚洪发,张慧.基于TF-IDF及LSI模型的主观题自动评分系统研究[J].软件,2019,40(2):158-163. 被引量：4

二级引证文献11

1武浩,王美姣,冯佳明,裴以建.专家检索研究进展[J].计算机应用研究,2010,27(10):3633-3638. 被引量：5
2谭学清,蔡军,罗琳.基于改进的LSI标签语义检索书目系统[J].图书馆学研究,2014(11):67-72. 被引量：1
3张世博,刘博爱,柳朝阳,张宝全.基于潜在语义分析的文档检索设计方法[J].北京石油化工学院学报,2015,23(2):37-42. 被引量：4
4刘忠宝,赵文娟.融合全局和局部特征的文本特征提取方法研究[J].情报探索,2016(1):1-3. 被引量：2
5龚浩,崔运鹏,钱平.面向农业图书资源语义挖掘的主题模型应用设计研究[J].图书馆理论与实践,2018,0(3):46-51. 被引量：2
6马欣.主题模型的发展及应用研究[J].电脑知识与技术,2018,14(5X):16-18.
7靳娟娟,俞国良.我国家庭教育政策历史进程的文本分析与启示[J].中国人民大学教育学刊,2021(1):114-126. 被引量：17
8马伟彬.TF-IDF模型和LSI模型文本相似度算法的应用[J].电子技术与软件工程,2022(1):130-133. 被引量：7
9蔡迎春,赵心如,朱玉梅,汪秀秀.我国文献标引技术的回顾与展望[J].图书馆杂志,2022,41(3):18-31. 被引量：9
10黎秋艳,刘佳祎,王鹏,王杰.基于GloVe-CNN算法的英语在线考试主观题自动评分模型[J].桂林理工大学学报,2023,43(1):155-160. 被引量：9

1张维明,陈卫东,邓苏,李俊.一个面向对象的形式化描述语言研究[J].国防科技参考,1995,16(1):23-27.
2孙海霞,成颖.信息集成中的字符串匹配技术研究[J].现代图书情报技术,2007(7):22-26. 被引量：10
3陈香华,叶吉祥,谭冠政.利用小波和RBF神经网络进行手写数字识别[J].云南民族大学学报（自然科学版）,2005,14(4):353-355. 被引量：1
4唐煜程,张明君,王浩宇,谢珍珠,康今朝,詹曙.基于GPU的三维人脸数据动态线性快速修复[J].电子测量与仪器学报,2016,30(6):959-967. 被引量：6
5陈鸿,金培权,岳丽华,胡玉娟,殷凤梅.基于上下文特征分类的评论长句切分方法[J].计算机工程,2015,41(9):233-237. 被引量：2
6欧建林,林茜,史晓东.潜在语义分析在连续语音识别中的应用[J].计算机工程与应用,2009,45(32):111-113.
7钱庆庆,吴涛,赵妍,赵蓝天.基于动态双极值模糊软集的群决策方法[J].计算机工程与应用,2014,50(12):38-41. 被引量：3
8许永林,史晓东,蔡骏.利用FP-树构造多词Trigger对语言模型[J].厦门大学学报（自然科学版）,2005,44(B06):243-246. 被引量：2
9赵星,胡晶晶,王晋君,张朋.GPU加速实现的锥束CT高精度正投影算法[J].北京理工大学学报,2010,30(12):1413-1417. 被引量：4
10阳昕,熊江,陶永耀.可配置帧间预测插值新方法[J].中国科技信息,2014(11):119-120.

高技术通讯

2005年第8期

浏览历史

内容加载中请稍等...

一种新的潜在语义分析语言模型被引量：3

参考文献7

共引文献3

同被引文献55

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种新的潜在语义分析语言模型 被引量：3

参考文献7

共引文献3

同被引文献55

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种新的潜在语义分析语言模型被引量：3