采用无标注语料和词“粘连”剔除策略的韵律短语识别

Recognition of Prosodic Phrases Based on Unlabeled Corpus and “Adhesion” Culling Strategy

下载PDF

导出

摘要针对人工标注韵律结构获取大规模语料的困难和问题,利用标点符号能够表示停顿的性质,提出一种采用无标注语料和词"粘连"剔除策略的韵律短语识别方法。对标点符号划分等级,并在利用其模拟韵律边界时对其赋予不同的权重。基于无标注语料构建最大熵模型,并采取Top-K方法实现句子韵律短语边界的自动预测。通过计算相邻语法词词性间的互信息对句子进行"粘连"处理,生成"粘连"单元,并对出现在其内部的韵律边界进行剔除,实现韵律短语的自动识别。实验结果表明,获取无标注语料时对标点进行分级利用及采用"粘连"剔除策略能够明显提升模型性能,该方法能够获得较好的识别效果。 Obtaining large-scale annotated corpus manually is very difficult and has some disadvantages.Based on the pause role of punctuation,this paper proposed a prosodic phrase recognition method which uses unlabeled corpus and＂adhesion＂culling strategy.In the method,punctuation is graded and given different weights when it is used to simulate the prosodic boundaries.For recognizing prosodic phrase boundaries automatically,a max entropy model is constructed based on an unlabeled corpus and a Top-K method is also used.According to the mutual information of two contiguous part of speech tagging,words are bundled into adhesion units and the prosodic boundaries appear in it are eliminated.The experimental results show that hierarchical use of punctuation and＂adhesion＂culling strategy can improve the performance of the model significantly.The method can obtain better recognition results.

作者钱揖丽蔡滢滢

机构地区山西大学计算机与信息技术学院山西大学计算智能与中文信息处理教育部重点实验室

出处《计算机科学》 CSCD 北大核心 2016年第2期51-56,共6页 Computer Science

基金国家自然科学青年基金项目(61005053 61100138) 山西省青年科技研究基金资助项目(2012021012-1) 山西省自然科学基金资助项目(2011011016-2) 山西省回国留学人员科研资助项目(2013-022)资助

关键词无标注语料韵律短语边界最大熵(ME) 互信息 Unlabeled corpus Prosodic phrase boundary Maximum entropy（ME） Mutual information

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1钱揖丽,荀恩东.基于标点信息和统计语言模型的语音停顿预测[J].模式识别与人工智能,2008,21(4):541-545. 被引量：8
2曹剑芬.基于语法信息的汉语韵律结构预测[J].中文信息学报,2003,17(3):41-46. 被引量：41
3郑敏,蔡莲红.基于概率频度的普通话韵律结构预测统计模型[J].清华大学学报（自然科学版）,2006,46(1):78-81. 被引量：3
4赵晟,陶建华,蔡莲红.基于规则学习的韵律结构预测[J].中文信息学报,2002,16(5):30-37. 被引量：25
5董远,周涛,董乘宇,王海拉.条件随机场模型在韵律结构预测中的应用[J].北京邮电大学学报,2009,32(5):36-40. 被引量：2
6钱揖丽,冯志茹.基于语块和条件随机场(CRFs)的韵律短语识别[J].中文信息学报,2014,28(5):32-38. 被引量：6
7王永鑫,蔡莲红.语法信息与韵律结构的分析与预测[J].中文信息学报,2010,24(1):65-70. 被引量：14
8裴雨来,邱金萍,王洪君,吕士楠.基于词类序列的汉语语句韵律结构预测[J].清华大学学报（自然科学版）,2009(S1):1339-1343. 被引量：5
9杨鸿武,王晓丽,陈龙,裴东,郭威彤,蔡莲红.基于语法树高度的汉语韵律短语预测[J].计算机工程与应用,2010,46(36):139-143. 被引量：6
10杨辰雨,朱立新,凌震华,戴礼荣.基于Viterbi解码的中文合成音库韵律短语边界自动标注[J].清华大学学报（自然科学版）,2011,51(9):1276-1281. 被引量：4

二级参考文献116

1冯胜利.论汉语的“自然音步”[J].中国语文,1998(1):40-47. 被引量：238
2冯胜利.论汉语的“韵律词”[J].中国社会科学,1996(1):161-176. 被引量：275
3裴雨来,邱金萍,王洪君,吕士楠.基于词类序列的汉语语句韵律结构预测[J].清华大学学报（自然科学版）,2009(S1):1339-1343. 被引量：5
4CHU Min and LU Shinan(Institute of Acoustics, Academia Sinica, Beijing 100080).A text-to-speech system with high intelligibility and naturalness for Chinese[J].Chinese Journal of Acoustics,1996,15(1):81-90. 被引量：5
5杨锦陈,杨玉芳.言语产生中的韵律生成[J].心理科学进展,2004,12(4):481-488. 被引量：13
6李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
7林茂灿.普通话语句中间断和语句韵律短语[J].当代语言学,2000,2(4):210-217. 被引量：34
8王洪君.汉语的韵律词与韵律短语[J].中国语文,2000(6):525-536. 被引量：106
9周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52. 被引量：41
10胡伟湘,董宏辉,陶建华,黄泰翼.汉语朗读话语重音自动分类研究[J].中文信息学报,2005,19(6):78-83. 被引量：13

共引文献85

1王强.再论汉语并列结构的中心语[J].励耘语言学刊,2020(1):205-225.
2杨国文.汉语小句的尾调及末尾音节的声调变化[J].当代语言学,2021(1):87-96.
3夏耕.声调作为二语习得中的韵律意识和声学意识[J].语文学刊（外语教育与教学）,2013(7):137-140.
4赵永贞,刘挺,王志伟,陈惠鹏,邵艳秋.汉语文语转换系统中停顿指数的自动标注[J].中文信息学报,2004,18(5):48-55. 被引量：6
5李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
6王茂林.汉语自然话语韵律组块的优选论分析[J].暨南学报（哲学社会科学版）,2005,27(4):85-87. 被引量：6
7刘浩杰,杜利民.汉语韵律词F0曲线的优化[J].中文信息学报,2006,20(1):98-104.
8郑敏,蔡莲红.基于概率频度的普通话韵律结构预测统计模型[J].清华大学学报（自然科学版）,2006,46(1):78-81. 被引量：3
9荀恩东,钱揖丽,郭庆,宋柔.应用二叉树剪枝识别韵律短语边界[J].中文信息学报,2006,20(3):1-5. 被引量：4
10邵艳秋,韩纪庆,刘挺,赵永贞.自然风格言语的汉语句重音自动判别研究[J].声学学报,2006,31(3):203-210. 被引量：17

1荀恩东,钱揖丽,郭庆,宋柔.应用二叉树剪枝识别韵律短语边界[J].中文信息学报,2006,20(3):1-5. 被引量：4
2钱揖丽,荀恩东.基于分类回归树CART的汉语韵律短语边界识别[J].计算机工程与应用,2008,44(6):169-171. 被引量：3
3郑敏,蔡莲红.基于概率频度的普通话韵律结构预测统计模型[J].清华大学学报（自然科学版）,2006,46(1):78-81. 被引量：3
4姑丽加玛丽.麦麦提艾力,艾斯卡尔.肉孜,艾斯卡尔.艾木都拉.分层特征模板筛选的维吾尔语韵律边界预测[J].计算机工程与应用,2017,53(8):250-253.
5姑丽加玛丽.麦麦提艾力,艾斯卡尔.肉孜,古力米热.依玛木,艾斯卡尔.艾木都拉.结合分层条件随机场与标点符号的维吾尔语韵律边界预测[J].计算机工程,2015,41(11):299-302. 被引量：4
6杨鸿武,王晓丽,陈龙,裴东,郭威彤,蔡莲红.基于语法树高度的汉语韵律短语预测[J].计算机工程与应用,2010,46(36):139-143. 被引量：6
7张坤丽,韩英杰,昝红英,袁应成.基于统计的介词短语边界识别研究[J].河南大学学报（自然科学版）,2011,41(6):636-640. 被引量：2
8王永鑫,蔡莲红.语法信息与韵律结构的分析与预测[J].中文信息学报,2010,24(1):65-70. 被引量：14
9董祥和.基于情感特征向量空间模型的中文商品评论倾向分类算法[J].计算机应用与软件,2016,33(8):319-322. 被引量：2
10肖泽.计算机网络安全性分析建模研究[J].成功,2012(4):269-269. 被引量：3

计算机科学

2016年第2期

浏览历史

内容加载中请稍等...

采用无标注语料和词“粘连”剔除策略的韵律短语识别

参考文献15

二级参考文献116

共引文献85

相关作者

相关机构

相关主题

浏览历史