基于语料库的字母词语自动提取研究被引量：10

The Research on Lettered-word Extraction in Chinese Texts

下载PDF

导出

摘要目前 ,很多最新的术语和专有名词 ,首先以字母词语的形式出现在汉语中 ,并日益广泛应用。而字母词语多数是汉语自动分词中的未登录词 ,其正确识别 ,将有助于提高中文分词、信息检索、搜索引擎、机器翻译等应用软件的质量。本文在对字母词语进行先期考察的基础上 ,分析了字母词语组成情况的复杂特征和自动识别的难点 ,结合字母词语的各种统计特征和其独有的特点———字母串“锚点” ,提出了从中心往两边扩展的规则加统计辅助的字母词语自动提取的算法。并且对字母词语的双语同现问题进行了处理。算法简单 ,但有效。召回率为 10 0 % ,准确率在 80 %以上。 Nowadays, more and more lettered words are used in Chinese texts, most of which are new terms or proper nouns. And this may become a trend quite obvious to us. Usually, lettered words are unknown phrases or words in automatic Chinese segmentation. Based on the observation of lettered words in our Chinese corpus, the correct identification of them will improve the quality of Chinese segmentation, information retrieval, searching technology, machine translation, etc. This paper analyzes the complex features of Chinese lettered words, and discusses the difficulties in extracting them. An algorithm for the automatic identification of Chinese lettered words is presented here, which uses a letter string as the anchor and search its left and right contexts for the boundaries of the lettered word. The algorithm is simple, but it is effective. Our experiment on the corpus of the Peoples Daily (Year 2002) shows the precision and the recall rates being 80% and 100% respectively.

作者郑泽之张普杨建国

机构地区太原师范学院计算机系北京语言大学DCC博士研究室

出处《中文信息学报》 CSCD 北大核心 2005年第2期78-85,共8页 Journal of Chinese Information Processing

基金 "国家语言资源监测与研究中心"项目资助 (0 4L2 0 0 4 - 0 1- 0 1- 0 3)

关键词人工智能自然语言处理字母词语自动提取 artificial intelligence natural language processing lettered-word automatic extracting

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1刘秉伟,黄萱菁,郭以昆,吴立德.基于统计方法的中文姓名识别[J].中文信息学报,2000,14(3):16-24. 被引量：48
2.语言文字规范手册[M](第三版)[M].北京:语文出版社,1997年9月..
3刘涌泉.关于汉语字母词的问题[J].语言文字应用,2002(1):85-90. 被引量：225
4国家技术监督局.GB/T12200．2-94汉语信息处理词汇02部分:汉语和汉字[S].北京:中国标准出版,1994．12．7..
5孙茂松张维杰.中国地名的自动识别[A]..计算语言学进展与应用[C].,1995..
6赵军黄昌宁.汉语基本名词短语识别研究[A]..汉语计量与计算研究[C].,1998..
7郑家恒,李鑫,谭红叶.基于语料库的中文姓名识别方法研究[J].中文信息学报,2000,14(1):7-12. 被引量：43
8孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：88

二级参考文献15

1郑家恒,刘开瑛.汉语姓名自动辨识初探[J].语言文字应用,1994(2):65-68. 被引量：4
2沈孟璎.浅议字母词的入典问题[J].辞书研究,2001(1):30-38. 被引量：67
3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：88
4[6]中国社会科学院语言文字应用研究所.姓氏人名用字分析统计.北京:语文出版社,1990
5宋柔，计算语言学研究与应用，1993年
6孙茂松，计算语言学研究与应用，1993年
7郑家恒，计算语言学研究与应用，1993年
8张俊盛，中文信息学报，1992年，6卷，3期
9团体著者，姓氏人名用字分析统计，1990年
10汪惠迪.新加坡华语字母词语用简论[N].联合早报,2000-08-06(13).

共引文献364

1高可柔.浅析新型字母词的出现及发展[J].文化创新比较研究,2020,0(6):91-92.
2王姣.从字母词的存亡规律浅析其广泛使用的社会意义[J].汉字文化,2024(3):25-27.
3刘雨.《现代汉语词典》第7版字母词相关问题研究[J].南昌教育学院学报,2019,34(3):109-112.
4张仰奋.字母词在汉语中流行的根据及存在的问题[J].嘉应学院学报,2008,26(2):112-114. 被引量：5
5周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
6王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
7张玲.汉语中字母词使用的语用理据分析[J].西安外国语大学学报,2009,17(1):53-56. 被引量：6
8张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
9杨霞,黄陈英.基于HMM的中文姓名识别方法研究[J].硅谷,2009,2(3).
10付妮妮.汉语拼音字母词的名称、性质及其界说[J].华章（初中读写）,2007(2).

同被引文献115

1曹学林.字母词语也是汉语词语[J].语文建设,2000(7):11-12. 被引量：53
2曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
3任岚岚.汉语形借外来词研究[J].社科纵横,2005,20(1):144-120. 被引量：4
4杨挺.直用原文──现代汉语外来语运用中的一个新趋势[J].中国语文,1999(4):263-266. 被引量：18
5郭伏良.字母词与词典二题[J].河北大学学报（哲学社会科学版）,1997,22(2):24-28. 被引量：24
6张普.关于语感与流通度的思考[J].语言教学与研究,1999(2):83-96. 被引量：61
7王吉辉.字母词语的外来词语性质分析[J].汉语学习,1999(5):36-41. 被引量：30
8杨华,蒋可心.浅议新外来词及其规范问题[J].语言文字应用,1995(1):97-99. 被引量：28
9王吉辉.非汉字词语研究[J].南京师大学报（社会科学版）,1996(2):120-123. 被引量：11
10慧生.也谈字母词[J].语文建设,1995(7):11-11. 被引量：20

引证文献10

1郑泽之,张普.汉语真实文本字母词语考察[J].语言科学,2005,4(6):65-74. 被引量：9
2何婷婷,朱薏,张勇,任函.基于词语属性的计算机辅助获取流行词语研究[J].中文信息学报,2006,20(6):38-45. 被引量：4
3姜韶华,党延忠.自动提取含字母词语的领域新术语的研究[J].计算机工程,2007,33(2):47-49. 被引量：3
4高霄云,杨建林.基于规则的中文时间词和数词的自动识别算法[J].现代图书情报技术,2007(3):46-50. 被引量：2
5薛笑丛.现代汉语中字母词研究综述[J].汉语学习,2007(2):62-69. 被引量：18
6郑泽芝.一种字母词语自动标注算法[J].厦门大学学报（自然科学版）,2007,46(5):630-634. 被引量：2
7王超.我国主流报纸中字母词接受度的测试——以《人民日报》和《南方都市报》为例[J].现代语文（下旬．语言研究）,2012(5):112-116.
8余正红,伍永豪,邓娟,王俊.基于Hadoop与XMPP的云翻译系统的研究与实现[J].计算机与数字工程,2014,42(2):239-242. 被引量：2
9王秋萍.面向语言监测的字母词自动获取研究[J].辽宁教育行政学院学报,2016,33(1):91-93.
10杨森.军事文献中复杂字母词语的形式分析[J].社科纵横（新理论版）,2010(3):315-316. 被引量：1

二级引证文献40

1吴映妍.日语字母词分类、使用现状及其规范问题研究[J].日语教育与日本学,2020(2):83-92.
2高可柔.浅析新型字母词的出现及发展[J].文化创新比较研究,2020,0(6):91-92.
3张仰奋.字母词在汉语中流行的根据及存在的问题[J].嘉应学院学报,2008,26(2):112-114. 被引量：5
4薛笑丛.现代汉语中字母词研究综述[J].汉语学习,2007(2):62-69. 被引量：18
5廉站俊,吕学强,张玉杰,施水才.基于句子相似度计算的信息抽取[J].现代图书情报技术,2007(6):38-41. 被引量：4
6高剑华.谈外来字母词的汉化及影响[J].现代教育科学（普教研究）,2007(5):85-86. 被引量：2
7韩莎莎.混入“土豆”里的“洋葱”——谈谈汉语中的字母词[J].现代语文（下旬．语言研究）,2007(12):108-108.
8石磊.浅谈汉语中的英语字母词规范[J].科教文汇,2008(13):51-52.
9刘星星,何婷婷,龚海军,陈龙.网络热点事件发现系统的设计[J].中文信息学报,2008,22(6):80-85. 被引量：31
10郑泽芝.字母词语跟踪研究[J].语言文字应用,2009(1):69-78. 被引量：25

1骆剑尔.云技术的安全性及其在办公管理系统中的应用[J].电子世界,2013(8):7-7.
2郑泽芝.一种字母词语自动标注算法[J].厦门大学学报（自然科学版）,2007,46(5):630-634. 被引量：2
3姜韶华,党延忠.自动提取含字母词语的领域新术语的研究[J].计算机工程,2007,33(2):47-49. 被引量：3
4王妍.ASP设计实例之——公司局域网论坛[J].中国新技术新产品,2008(16):13-13.
5佘永发.人力资源信息系统设计[J].电子世界,2014(16):183-184.
6裴宏广,郑荣,袁学庆.用于AUV收放装置的变幅机构研究[J].机械设计与制造,2006(3):114-116. 被引量：2
7朱浩波.证券行业数据中心解决方案[J].自动化技术与应用,2001,20(5):52-54.
8唐亮.数据中心机房监控系统设计与应用[J].信息系统工程,2014,0(10):47-47. 被引量：2
9杨晓龙,刘文娟.天魊音域音乐网站中的界面、用户信息管理模块的开发与设计[J].西江教育论丛,2008(2):12-15.
10薛亚培.宇通:始终领先的校车第一品牌[J].商用汽车新闻,2012(6):2-2.

中文信息学报

2005年第2期

浏览历史

内容加载中请稍等...

基于语料库的字母词语自动提取研究被引量：10

参考文献8

二级参考文献15

共引文献364

同被引文献115

引证文献10

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于语料库的字母词语自动提取研究 被引量：10

参考文献8

二级参考文献15

共引文献364

同被引文献115

引证文献10

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于语料库的字母词语自动提取研究被引量：10