SSD模型及其在汉语词性标注中的应用被引量：3

Symbol-and-Statistics Decoding Model and Its Application in Chinese POS Tagging

下载PDF

导出

摘要该文提出了一种以符号解码与数值解码并举的SSD(Symbol-and-Statistics Decoding Model)模型,该模型被用于汉语词性标注任务,其标注正确率在封闭测试中达到97.08%,开放测试中达到95.67%,较二阶HMM的95.56%和94.70%都有较为显著提高。SSD模型的正确率虽然不及最大熵模型和CRF模型,但它的训练时间远少于后者,说明SSD模型在处理自然语言中的特定任务时是一种较强的实用模型。 A statistical language model named Symbol-and-Statistics Decoding （SSD） language model is presented in this article. The 2-gram SSD model is applied to the Chinese POS tagging task with a quite good result. The precision is as high as 97. 08% in the closed test and 95.67% in the open test is, which are both significantly higher than the HMM at 95.56% and 94.70%, respectively. Although the performance of SSD model is not as good as the conditional models such as Maximum Entropy Model and CRF model, the training time of SSD is much less than the conditional models, which makes SSD model more applicable to certain tasks in natural language processing.

作者邢富坤宋柔罗智勇

机构地区北京语言大学语言信息处理研究所解放军外国语学院

出处《中文信息学报》 CSCD 北大核心 2010年第1期20-24,共5页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60572159 60872121)

关键词计算机应用中文信息处理 SSD模型 HMM 词性标注 computer application Chinese information processing SSD model HMM POS tagging

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Daniel Jurafsky, James H. Martin. Speech and Languge Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition[M]. USA: Prentice Hall,2000.
2Doug Cutting, Julian Kupiec, Jan Pedersen, Penelope Sibun. A Practical Part of-Speech Tagger [C]//Proceedings of the Third Conference on Applied Natural Language Processing, 1992: 133-140.
3Adwait Ratnaparkhi. A maximum entropy model for Part-of-speech Tagging[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 1996: 133-141.
4俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(5):49-64. 被引量：133
5梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
6屈刚,陆汝占.一个改进的汉语词性标注系统[J].上海交通大学学报,2003,37(6):897-900. 被引量：7
7洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：58
8姜维,关毅,王晓龙.基于条件随机域的词性标注模型[J].计算机工程与应用,2006,42(21):13-16. 被引量：12
9Kristina Toutanova, Dan Klein, Christopher Manning, and Yoram Singer. Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network[C]//Proceedings of HLT-NAACL, 2003: 252-259.

二级参考文献35

1周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
2杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
3赵岩,王晓龙,刘秉权,关毅.融合聚类触发对特征的最大熵词性标注模型[J].计算机研究与发展,2006,43(2):268-274. 被引量：20
4Rosenfeld R. Adaptive statistical language modeling: maximum entropy approch [D]. Pittsburgh:Carnegie Mellon Univ, 1994.
5Brown R F, Della-Pietray V J,de Sousa P V,et al.Class-based N-gram models onatural language [J].Computational Linguistics, 1992,18 (4) : 467 - 479.
6Jelinek F. Self-organizing language models for speech recognition [A]. Reading in Speech Reognition [C]. USA: Morgan Kaufman Publishers, Inc,1990. 450-506.
7Morialdo B. Tagging english text with a problistic model [J]. Computational Linguistics, 1994. 20 (2) :155-171.
8Berger A L,Della P, Pietra S A, et al. A maximum entropy approach to natrual language processing [J].Computational Linguistics, 1996,22 ( 1 ) : 450- 480.
9Kuhn R, Mori R. A cache-based natural language model for speech recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1990,PAMI- 12(6) :570-583.
10Eric Brill.Some Advances in Transformation-Based Part of Speech Tagging[C].In:Proceedings of the Twelfth National Conference on Artificial Intelligence,1994:722～727

共引文献215

1杨丽姣,肖航,刘智颖.《信息处理用现代汉语词类标记规范》修订研究[J].语言文字应用,2021(3):111-120. 被引量：2
2吴先,胡俊峰.基于历时语料库的在线词典编纂系统设计[J].中文信息学报,2020(5):27-35. 被引量：2
3程勇,徐德宽,董军.基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J].中文信息学报,2020(4):101-110. 被引量：17
4谭晓平.现代汉语文本语料库建设及应用现状研究[J].对外汉语研究,2018,0(1):20-29.
5姚露露,李云岭,宋凯丽.中文地名地址标注方法研究[J].测绘地理信息,2021,46(S01):182-184. 被引量：1
6化振红.建立中古汉语语料库分词规范的若干问题[J].语言研究集刊,2021(2):151-167. 被引量：4
7方浩,许鸿文,蔡益宇.一种基于语义关系改进的隐马尔可夫模型研究[J].通信技术,2008,41(5):157-159. 被引量：3
8刘亮.现代汉语广义助词知识库构建与应用[J].光盘技术,2008(4):14-16. 被引量：2
9杨芸,周昌乐,王雪梅,戴帅湘.基于机器理解的汉语隐喻分类研究初步[J].中文信息学报,2004,18(4):31-36. 被引量：15
10于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1

同被引文献28

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：202
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：98
3梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
4张锋,樊孝忠.基于最大熵模型的交集型切分歧义消解[J].北京理工大学学报,2005,25(7):590-593. 被引量：6
5赵岩,王晓龙,刘秉权,关毅.融合聚类触发对特征的最大熵词性标注模型[J].计算机研究与发展,2006,43(2):268-274. 被引量：20
6姜维,关毅,王晓龙.基于条件随机域的词性标注模型[J].计算机工程与应用,2006,42(21):13-16. 被引量：12
7洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：58
8姜维,王晓龙,关毅,赵健.基于多知识源的中文词法分析系统[J].计算机学报,2007,30(1):137-145. 被引量：29
9BROWN R F, DELLA-PIETRA V J, DESOUSA P V, et al. Class-based n-gram models of natural language [ J ]. Computational Linguistics, 1992, 18 (4) :467-479.
10BERGER A L, DELLA-PIETRA S A, DELLA-PIETRA V J. A maximum entropy approach to natural language processing [ J ]. Computational Linguistics, 1996, 22 ( 1 ) :39-71.

引证文献3

1于江德,周宏宇,余正涛.汉语词性标注的特征工程[J].山东大学学报（工学版）,2011,41(6):12-17.
2袁里驰.基于改进的隐马尔科夫模型的词性标注方法[J].中南大学学报（自然科学版）,2012,43(8):3053-3057. 被引量：16
3YUAN Lichi.A Part-of-speech Tagging Model Employing Word Clustering and Syntactic Parsing[J].Chinese Journal of Electronics,2014,23(1):109-114. 被引量：1

二级引证文献17

1聂金慧,苏红旗,时志远.中文新词提取与过滤研究综述[J].中国科技博览,2013(30):209-210. 被引量：1
2石翠.基于条件随机场的动词细分类研究[J].智能计算机与应用,2014,4(1):83-84.
3董跃华,邓文龙.基于BP-HMM的词性标注方法的研究[J].计算机工程与设计,2014,35(4):1424-1428. 被引量：1
4梁喜涛,顾磊.中文分词与词性标注研究[J].计算机技术与发展,2015,25(2):175-180. 被引量：49
5王国龙,杜建强,郝竹林,程春雷,蔡良俊,张鑫.中医诊断古文的词性标注与特征重组[J].计算机工程与设计,2015,36(3):835-840. 被引量：12
6张亚军,刘宗田,周文.基于深度信念网络的事件识别[J].电子学报,2017,45(6):1415-1423. 被引量：15
7刘博,杜建强,聂斌,刘蕾,张鑫,郝竹林.基于二阶HMM的中医诊断古文词性标注[J].计算机工程,2017,34(7):211-216. 被引量：9
8翟东升,胡等金,张杰,何喜军,刘鹤.专利发明等级分类建模技术研究[J].数据分析与知识发现,2017,1(12):63-73. 被引量：2
9段青玲,张璐,刘怡然,王沙沙.基于农业网络信息分类的热词自动提取方法[J].农业机械学报,2018,49(7):160-167. 被引量：10
10张春荣,赵琦.领域自适应的合成词词性标注研究[J].计算机应用研究,2018,35(5):1350-1354. 被引量：2

1魏欧,孙玉芳.汉语词性标注方法的研究[J].计算机科学,2000,27(7):71-75. 被引量：6
2刘海天,赵政文,盛光磊.隐马尔可夫模型及其在自然语言处理中的应用[J].微处理机,2009,30(3):74-76. 被引量：3
3许长志,闵帆.带权约简及其在汉语词性标注自动校对中的应用[J].控制与决策,2007,22(7):740-744. 被引量：1
4韩霞,黄德根.基于半监督隐马尔科夫模型的汉语词性标注研究[J].小型微型计算机系统,2015,36(12):2813-2816. 被引量：7
5谷川,田喜平.基于条件随机场的汉语词性标注方法研究[J].安阳师范学院学报,2010(5):6-8.
6林红,苑春法,郭树军.基于最大熵方法的汉语词性标注[J].计算机应用,2004,24(1):14-16. 被引量：8
7袁萍,周铁军.一种汉语词性标注规则获取算法的实现[J].湖南大学学报（自然科学版）,2003,30(S1):200-202.
8吴昊,叶昊,万一鸣.Improved Algorithm for Calculating Contributions to D-statistic[J].Journal of Shanghai Jiaotong university(Science),2011,16(4):385-390.
9捷波智尊系列Odin P6A8G主板[J].电脑爱好者,2007,0(21):107-107.
10王素格,张永奎.汉语词性标注排歧方法探讨[J].计算机工程与应用,2001,37(7):70-72. 被引量：7

中文信息学报

2010年第1期

浏览历史

内容加载中请稍等...

SSD模型及其在汉语词性标注中的应用被引量：3

参考文献9

二级参考文献35

共引文献215

同被引文献28

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

SSD模型及其在汉语词性标注中的应用 被引量：3

参考文献9

二级参考文献35

共引文献215

同被引文献28

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

SSD模型及其在汉语词性标注中的应用被引量：3