汉语自动分词中中文地名识别被引量：10

Chinese place names recognition for Chinese automatic segmentation

下载PDF

导出

摘要以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句子最佳切分时识别句子中的中文地名.对真实语料进行封闭和开放测试,封闭测试结果为召回率93.55%,精确率94.14%,F-1值93.85%;开放测试结果为召回率91.27%,精确率73.48%,F-1值81.42%.取得了比较令人满意的结果. Aiming at identifying word-level Chinese place names, Chinese place name candidates are generated with statistics information and internal characteristics of place names. In segmentation, Chinese place name candidates with higher confidence are treated as common word candidates obtained from the dictionary. Various segmentations of a sentence are evaluated with word candidates＇ confidence and context information. Chinese place names are recognized when determining the optimal segmentation of the sentence. Close and open tests were conducted on real corpus： the close test results are the recall-back rate 93.55%, accurate rate 94. 14%, F-1 value 93.85%; the open test results are 91.27%, 73. 48%, 81.42% respectively. Experimental results are satisfactory.

作者高红黄德根杨元生

机构地区大连理工大学计算机科学与工程系

出处《大连理工大学学报》 EI CAS CSCD 北大核心 2006年第4期576-581,共6页 Journal of Dalian University of Technology

基金国家自然科学基金资助项目(60373095 60373096 60573022) 高等学校博士学科点专项科研基金资助项目(20030141003)

关键词中文地名识别汉语自动分词未登录词识别 Chinese place names recognition Chinese automatic segmentation unknown words recognition

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1GOH Chooi-ling, ASAHARA Masayuki, MATSUMOTO Yuji. Chinese unknown word identification using character-based tagging and chunking [C] // The Companion Volume to the Proceedings of 41st Annual Meeting of the Association for Computational Linguistics. Sapporo, Japan, 2003. Morristown, N J, USA: The Association for Computational Linguistics, 2003: 197-200
2张华平,刘群.基于角色标注的中国人名自动识别研究[J].计算机学报,2004,27(1):85-91. 被引量：105
3俞士汶段慧明朱学锋等.北大语料库加工规范：切分·词性标注·注音[J].汉语语言与计算学报,2003,13(2):121-158.
4国家测绘局地名研究所.中国地名录[M].北京.中国地图出版社,1997,1～318.
5吕雅娟,赵铁军,杨沐昀,于浩,李生.基于分解与动态规划策略的汉语未登录词识别[J].中文信息学报,2001,15(1):28-33. 被引量：43
6黄德根,朱和合,王昆仑,杨元生,钟万勰.基于最长次长匹配的汉语自动分词[J].大连理工大学学报,1999,39(6):831-835. 被引量：14
7沈达阳，孙茂松，黄昌宁．中文地名的自动辨识[C]／／陈力为，袁琦．计算语言学进展与应用．北京：清华大学出版社，1995：68—74
8EPPSTEIN D. Finding the k shortest paths [J].SIAM J on Comput, 1998, 28(2):652-673
9谭红叶，郑家恒，刘开瑛．中国地名的自动识别方法研究[C]∥黄昌宁，董振东．计算语言学文集．北京：清华大学出版社，1999：174—179
10谭红叶,郑家恒,刘开瑛.基于变换的中国地名自动识别研究(英文)[J].软件学报,2001,12(11):1608-1613. 被引量：23

二级参考文献21

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：88
2沈达阳孙茂松黄昌宁.中文地名的自动识别[A]..计算语言学进展与应用[C].北京:清华大学出版社,1995..
3罗智勇,宋柔.现代汉语自动分词中专名的一体化、快速识别方法[C]//Ji Dong-Hong.国际中文电脑学术会议,新加坡,2001:323-328.
4郑家恒，语言工程，1997年
5白栓虎，计算语言学进展与应用，1995年
6揭春雨，中文信息学报，1989年，3卷，1期，1页
7Tan Hongye，Proc Computational Linguistics，1999年，174页
8中国地名委员会，中国地名录，1994年
9国家测绘局地名研究所.中国地名录[M].北京:中国地图出版社,1997.1-318.
10Ji Heng, Luo Zhen-Shen. Inverse name frequency model and rules based on Chinese name identifying. In: Huang ChangNing, Zhang Pu ed.. Natural Language Understanding and Machine Translation. Beijing: Tsinghua University Press,2001, 123 - 128( in Chinese)(季姮,罗振声.基于反比概率模型和规则的中文姓名自动辨识系统.见:黄昌宁,张普编.自然语言理解与机器翻译.北京:清华大学出版社,2001,123-128)

共引文献210

1成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
2宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：5
3周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
4王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
5钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：31
6张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
7罗安,王勇,张福浩,刘纪平.基于角色标注的中文POI名称语义分类方法[J].测绘通报,2012(S1):521-524. 被引量：4
8刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：201
9俞士汶,段慧明,朱学锋,张化瑞.综合型语言知识库的建设与利用[J].中文信息学报,2004,18(5):1-10. 被引量：31
10张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60

同被引文献72

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：21
2陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：85
4孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
6陈细谦,迟忠先,金妮.城市地理编码系统应用与研究[J].计算机工程,2004,30(23):50-52. 被引量：30
7李琦,罗志清,郝力,安真臻.基于不规则网格的城市管理网格体系与地理编码[J].武汉大学学报（信息科学版）,2005,30(5):408-411. 被引量：41
8邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6
9胡传成.维语语词的重叠与语义模糊[J].喀什师范学院学报,2005,26(4):63-65. 被引量：1
10黄德根,孙迎红.中文地名的自动识别[J].计算机工程,2006,32(3):220-222. 被引量：10

引证文献10

1胡宜敏,宋良图,黄河,武民民,黄伟.农产品市场名称地理定位的设计与实现[J].计算机系统应用,2009,18(3):88-91. 被引量：1
2扎依达.木沙,吐尔根.依布拉音.基于规则的维吾尔语对偶词识别算法研究[J].新疆大学学报（自然科学版）,2009,26(2):221-226. 被引量：2
3李诺,张全.利用地名用字分析的中文地名识别处理[J].计算机工程与应用,2009,45(28):230-232. 被引量：7
4於建峰,吴正升.文本地名自动识别的空间信息检索研究[J].测绘科学技术学报,2011,28(3):227-230. 被引量：4
5林梦虹.PHP简易中文分词系统对闽菜名的分词实验与结果分析[J].现代语文（下旬．语言研究）,2012(4):118-121.
6HU Yi-min,SONG Liang-tu,WEI Yuan-yuan,HUANG He,WANG Xue.Agricultural Market Name Geo-Locating System Based on an Administrative Ontology and Web Search Engine[J].Journal of Integrative Agriculture,2012,11(5):849-857. 被引量：2
7郭文龙.数据清洗中中文地址分词技术研究[J].齐齐哈尔大学学报（自然科学版）,2012,28(5):14-18.
8梁恒.地址编码系统设计中关于中文分词的研究[J].华东科技（学术版）,2012(12):493-493.
9王勇,刘纪平,郭庆胜,罗安.顾及位置关系的网络POI地址信息标准化处理方法[J].测绘学报,2016,45(5):623-630. 被引量：12
10颜敏,程婷,张庆轩.中文分词名称匹配与数据分层更新方法探讨[J].测绘地理信息,2020,45(6):129-131. 被引量：2

二级引证文献29

1钟顺杰,葛小三.多权组与双半径结合的异源POI融合方法[J].测绘科学,2023,48(11):230-244.
2朱锁玲,包平.方志类古籍地名识别及系统构建[J].中国图书馆学报,2011,37(3):118-124. 被引量：36
3尹驰东,黄生叶,鄂智丰.寻路算法在中文金融机构名匹配中的应用[J].计算技术与自动化,2011,30(2):83-88.
4吐尔根·依布拉音,袁保社.新疆少数民族语言文字信息处理研究与应用[J].中文信息学报,2011,25(6):149-156. 被引量：26
5WEI Yuan-yuan,WANG Ru-jing,HU Yi-min,WANG Xue.From Web Resources to Agricultural Ontology:a Method for Semi-Automatic Construction[J].Journal of Integrative Agriculture,2012,11(5):775-783. 被引量：5
6朱锁玲,包平.方志类古籍地名识别及分析研究——以《方志物产》(广东分卷)为例[J].图书馆论坛,2012,32(4):171-176. 被引量：7
7张瑞霞,杨国增,闫新庆.基于知网的汉语普通未登录词语义分析模型[J].计算机应用与软件,2012,29(8):126-130. 被引量：4
8王俊超,徐立,李媛媛,冯毅.基于几何匹配的地名匹配更新技术研究[J].地理信息世界,2012,10(6):54-57. 被引量：1
9胡宜敏,宋良图,陈鹏,魏圆圆,苏雅茹.一种基于Markov逻辑网的中文地理名称实体解析方法[J].模式识别与人工智能,2013,26(1):114-122. 被引量：2
10李颖,王青海,池毓焕.句类分析准则在作战文书地名识别中的应用[J].计算机工程与设计,2013,34(8):2903-2907. 被引量：3

1高国洋,戚银城,潘德锋.基于条件随机场与规则相结合的中文地名识别[J].电脑开发与应用,2009,22(8):26-28. 被引量：2
2李丽双,黄德根,陈春荣,杨元生.用支持向量机进行中文地名识别的研究[J].小型微型计算机系统,2005,26(8):1416-1419. 被引量：11
3林雄鹰,黄宇光.基于规则和混合统计模型的中文地名识别研究[J].高性能计算技术,2012,0(1):31-35.
4孙虹,陈俊杰.双层CRF与规则相结合的中文地名识别方法研究[J].计算机应用与软件,2014,31(11):175-177. 被引量：9
5李丽双,党延忠,廖文平,黄德根,张颖.CRF与规则相结合的中文地名识别[J].大连理工大学学报,2012,52(2):285-289. 被引量：17
6王凡秀.基于条件随机场的中文地名识别[J].中国西部科技,2008,7(28):8-8.
7邱莎,阿圆,王付艳,丁海燕.基于统计的中文地名自动识别研究[J].计算机技术与发展,2011,21(11):35-38. 被引量：13
8黄德根,岳广玲,杨元生.基于统计的中文地名识别[J].中文信息学报,2003,17(2):36-41. 被引量：49
9李诺,张全.利用地名用字分析的中文地名识别处理[J].计算机工程与应用,2009,45(28):230-232. 被引量：7
10李丽双,黄德根,陈春荣,杨元生.SVM与规则相结合的中文地名自动识别[J].中文信息学报,2006,20(5):51-57. 被引量：32

大连理工大学学报

2006年第4期

浏览历史

内容加载中请稍等...

汉语自动分词中中文地名识别被引量：10

参考文献11

二级参考文献21

共引文献210

同被引文献72

引证文献10

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

汉语自动分词中中文地名识别 被引量：10

参考文献11

二级参考文献21

共引文献210

同被引文献72

引证文献10

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

汉语自动分词中中文地名识别被引量：10