基于条件随机域的复杂最长名词短语识别被引量：16

Recognition of Complex Maximal Length Noun Phrase Using Conditional Random Fields

下载PDF

导出

摘要识别句子中的最长名词短语是一个对机器翻译等任务具有重要实际价值的难题.为了克服传统方法在处理词之间的长程关联的不足和标注偏置等问题,本文采用条件随机域建立统计模型,有针对性的研究了复杂最长名词短语的识别,并给出了一种带置信度估计的解码算法,提高了本文工作的实用性. The recognition of Chinese maximal-length noun phrase is a difficult task, which is valuable for many applications such as machine translation. To overcome the deficiency in capturing the long distance relationship between words and label bias with the traditional methods, a statistical model based on conditional random field is constructed with the focus on the complex maximal length noun phrases. And a decoding algorithm with confidence estimation is given, which is proved to be effective for enhancing the practical usability.

作者冯冲陈肇雄黄河燕张亮王江伟

机构地区中国科学技术大学计算机科学与技术系中国科学院计算机语言信息工程研究中心南京理工大学计算机系

出处《小型微型计算机系统》 CSCD 北大核心 2006年第6期1134-1139,共6页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(60272088)资助国家"八六三"基金项目(2002AA11401)资助.

关键词最长名词短语条件随机域机器翻译 maximal-length noun phrase conditional random fields machine translation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献19

1Takao Doi, Eiichiro Sumita. Input sentence splitting and translation[C].HLT-NAACL 2003 Workshops, Building and Using Parallel Texts Data Driven Machine Translation and Beyond,Edmonton, 2003, 104-110.
2Young-Ae Seo, Yoon-Hyung Roh, Ki-Young Lee, Sang-kyu Park. CaptionEye/EK: english-to-korean caption translation system using the sentence pattern [C]. MTSUMMIT-2001,2001.
3Sado Kurohashi, Makoto Nagao.A syntactic analysis method of long japanese sentences based on the dection of conjunctive structures [J].Computational Linguistics, 1994, 20 (4):507-534.
4Didier Bourigault. Surface grammatical analysis for the extraction of terminological noun phrase[C]. In:Proceeding of COLING-92. 1992, 977-981.
5Atro Voutilainen. NPtool: a detector of english noun phrases[C]. In:Proceedings of Workshop on Very Large Corpra: Academic and Industrial Perspectives, 1993, 48-57.
6Chen Kuang-hua, Chen Hsin-Hsi.Extracting noun phrases from large-scale texts: a hybrid approach and its automatic evaluation, 1994.
7Li Wen-jie, Pan Hai-hua, Zhou Ming et al. Are statistics-based approaches good enough for NLP: a case study of maximal-length NP extraction in chinese[C]. In: Proc. of ROCLING-95, Taipei, 1995,137-152.
8周强,孙茂松,黄昌宁.汉语最长名词短语的自动识别[J].软件学报,2000,11(2):195-201. 被引量：37
9Thomas G. Dietterich, Machine learning for sequential data: a review[A]. In:T. Caelli (Ed.) Lecture Notes in Computer Science[M]. Springer-Verlag, 2002.
10John D. Lafferty, Andrew MeCallum, Fernando C. N.Pereira, Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]. In:Proceedings of the Eighteenth International Conference on Machine Learning,June 28-July 01, 2001:282-289.

二级参考文献3

1陈肇雄,高庆狮.智能化英汉机译系统IMT/EC[J].中国科学（A辑）,1989,20(2):186-194. 被引量：16
2黄河燕,陈肇雄,宋继平.一种人机互动的多策略机器翻译系统IHSMTS的设计与实现原理[J].中文信息学报,1999,13(5):43-50. 被引量：11
3王伟,王后雄.《普通高中化学课程标准(2017年版)》中“情境素材建议”内容特点及使用建议[J].化学教学,2018(10):15-19. 被引量：52

共引文献47

1王东波.基于规则的单层单标记联合结构自动识别[J].文教资料,2008(9):29-31. 被引量：6
2冯冲,陈肇雄,黄河燕,王江伟.最大熵模型的树-栅格最优N解码算法[J].计算机科学,2005,32(10):167-169. 被引量：1
3冯冲,黄河燕,陈肇雄,张亮.基于字符层马尔科夫模型的多语种识别[J].计算机科学,2006,33(1):226-228. 被引量：6
4冯冲,陈肇雄,黄河燕.采用主动学习策略的组织机构名识别[J].小型微型计算机系统,2006,27(4):710-714. 被引量：12
5姜韶华,党延忠.无词典中英文混合术语抽取及算法研究[J].情报学报,2006,25(3):301-305. 被引量：2
6钱小飞.“地”字结构识别[J].现代语文（下旬．语言研究）,2006(5):61-63. 被引量：2
7姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
8李荣,郑家恒.基于语料库的名词短语识别方法[J].济南大学学报（自然科学版）,2007,21(3):243-245. 被引量：2
9奚建清,罗强.基于HMM的汉语介词短语自动识别研究[J].计算机工程,2007,33(3):172-173. 被引量：9
10代翠,周俏丽,蔡东风,杨洁.统计和规则相结合的汉语最长名词短语自动识别[J].中文信息学报,2008,22(6):110-115. 被引量：16

同被引文献124

1陈勇.情感语义及其民族文化特点[J].外语与外语教学,2003(5):39-43. 被引量：12
2于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
3陈小荷.从自动句法分析角度看汉语词类问题[J].语言教学与研究,1999(3):63-72. 被引量：23
4刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：201
5程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
6梁颖红,赵铁军,岳琪.英语基本名词短语识别技术研究[J].信息技术,2004,28(12):22-24. 被引量：4
7郭锐.表述功能的转化和“的”字的作用[J].当代语言学,2000,2(1):37-52. 被引量：97
8孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：39
9王立霞,孙宏林.现代汉语介词短语边界识别研究[J].中文信息学报,2005,19(3):80-86. 被引量：11
10干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14

引证文献16

1代翠,周俏丽,蔡东风,杨洁.统计和规则相结合的汉语最长名词短语自动识别[J].中文信息学报,2008,22(6):110-115. 被引量：16
2鉴萍,宗成庆.基于双向标注融合的汉语最长短语识别方法[J].智能系统学报,2009,4(5):406-413. 被引量：8
3钱小飞.以“的”字结构为核心的最长名词短语识别研究[J].计算机工程与应用,2010,46(18):138-141. 被引量：1
4禹龙,田生伟,杨飞宇.汉维语短语搭配的识别和对齐[J].计算机应用与软件,2011,28(6):43-46.
5王晓莉,古里拉.阿东别克.哈萨克语语句情感识别研究初探[J].计算机应用与软件,2011,28(8):20-23. 被引量：2
6于江德,葛彦强,余正涛.基于条件随机场的汉语词性标注[J].微电子学与计算机,2011,28(10):63-66. 被引量：6
7马建军,黄德根.英语功能名词短语研究及其应用[J].大连理工大学学报,2012,52(1):126-131. 被引量：1
8刘维,陈崚.一种新的CpG岛的位置识别算法[J].小型微型计算机系统,2012,33(7):1557-1563. 被引量：1
9赵红改,吕学强,施水才,郑丽.搜索引擎日志中“N+V”和“N_1+N_2+V”型短语自动识别[J].中文信息学报,2012,26(5):20-25. 被引量：2
10钱小飞,侯敏.基于混合策略的汉语最长名词短语识别[J].中文信息学报,2013,27(6):16-22. 被引量：7

二级引证文献43

1热孜瓦姑丽·吾斯曼,艾孜尔古丽·玉素甫.论现代的维吾尔语情感分析方法进展[J].电脑知识与技术,2020,0(4):178-179.
2钱小飞.最长名词短语识别研究[J].现代语文（下旬．语言研究）,2009(7):124-126. 被引量：2
3梁颖红,张文静,周德富.基于混合策略的高精度长术语自动抽取[J].中文信息学报,2009,23(6):26-30. 被引量：18
4孙瑞娜,古丽拉.阿东别克.哈萨克语基本名词短语自动识别研究与实现[J].中文信息学报,2010,24(6):114-119. 被引量：11
5马建军,黄德根.英语功能名词短语研究及其应用[J].大连理工大学学报,2012,52(1):126-131. 被引量：1
6袁里驰.基于改进的隐马尔科夫模型的词性标注方法[J].中南大学学报（自然科学版）,2012,43(8):3053-3057. 被引量：16
7周俏丽,刘新,郎文静,蔡东风.基于分治策略的组块分析[J].中文信息学报,2012,26(5):120-128. 被引量：6
8韩普,王东波.基于汉语树库的名词短语知识计量分析[J].情报科学,2013,31(11):51-56.
9周蓉.一种基于支持向量机预分类的属性选择算法[J].计算机应用与软件,2013,30(11):218-220.
10郑霞.汉语词性标注特征模板设定定量分析[J].安阳师范学院学报,2013(5):53-56.

1李荣.基于隐马尔可夫模型的汉语非嵌套名词短语识别[J].忻州师范学院学报,2004,20(5):122-124. 被引量：1
2张惠春.基于最大熵模型的中文名词短语识别[J].电脑知识与技术（过刊）,2009,15(3X):1928-1930.
3李业刚,黄河燕,史树敏,鉴萍,苏超.基于双语协同训练的最大名词短语识别研究[J].软件学报,2015,26(7):1615-1625. 被引量：5
4林晓帆,丁晓青,吴佑寿.最近邻分类器置信度估计的理论分析[J].科学通报,1998,43(3):322-325. 被引量：10
5钱小飞,侯敏.基于混合策略的汉语最长名词短语识别[J].中文信息学报,2013,27(6):16-22. 被引量：7
6李荣,郑家恒,郭梅英.基于遗传算法的隐马尔可夫模型在名词短语识别中的应用研究[J].计算机科学,2009,36(10):244-246. 被引量：4
7姜亚辉,姬东鸿.结合半监督与主动学习的复杂名词短语识别[J].计算机工程与设计,2015,36(2):498-501. 被引量：1
8桑乐园,黄德根.基于简单名词短语的汉语介词短语识别研究[J].中文信息学报,2015,29(6):8-12. 被引量：2
9田雪,黄德根.一种混合的汉语简单名词短语识别方法[J].小型微型计算机系统,2017,38(4):749-754. 被引量：1
10王建华,徐伟,路为,阎杰.多维系统仿真模型的置信度估计[J].弹箭与制导学报,2005,25(SB):626-627.

小型微型计算机系统

2006年第6期

浏览历史

内容加载中请稍等...

基于条件随机域的复杂最长名词短语识别被引量：16

参考文献19

二级参考文献3

共引文献47

同被引文献124

引证文献16

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于条件随机域的复杂最长名词短语识别 被引量：16

参考文献19

二级参考文献3

共引文献47

同被引文献124

引证文献16

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于条件随机域的复杂最长名词短语识别被引量：16