一种基于条件随机场的中文公司名识别方法被引量：2

Method for Chinese Company Name Recognition Based on Conditional Random Fields

导出

摘要随着信息化的发展,在智能信息处理领域,对自然语言处理的要求在不断提高,其中命名实体识别是一项极其重要的研究课题。本文在对信息产业新闻本文深入地研究和分析的基础上,总结出了公司名称的基本特点,分别针对公司名全称和简称,设计了不同的两种标注方式,并提出了一种基于条件随机场的双模型两次扫描识别策略,第一次扫描使用公司名全称识别模型,同时提取出公司名关键字;第二次扫描利用第一次扫描中提取出的公司名关键词改善分词和词性标注结果,在此基础上使用公司名全简称识别模型对公司名进行识别。最终的实验结果表明这种识别方法是有效的。 With the development of information society, the recognition of named entity plays a signification role in intelligent information processing.Based on the investigations and analysis of the IT news articles, the structure features and contextual constraints were obtained.In this paper, after a careful distinction of company names into two categories, i.e.fiaU names and abbreviated names, two corresponding tagging methods are designed to represent this dichotomy and used to annotate a training corpus.This training corpus is then fed to a double-scan CRF-based company name identification system.In the first scan, flail names and the keyword of the company names are recognized and extracted.In the second scan, the flail names and the abbreviated names are identified based on the optimized segmentation and POS tagging result benefited from the first scan.The experimental results prove the effectiveness of this recognition method.

作者哈寅晨孟凡坤

机构地区北京工业大学多媒体与智能软件北京重点实验室

出处《网络安全技术与应用》 2014年第4期13-14,共2页 Network Security Technology & Application

关键词命名实体识别信息抽取公司名条件随机场 Named Entity Identification Information Extraction Company Name Conditional Random Fields

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：102
2王宁,葛瑞芳,苑春法,黄锦辉,李文捷.中文金融新闻中公司名的识别[J].中文信息学报,2002,16(2):1-6. 被引量：54
3Lafferty, John D, ; McCallum, Andrew; Pereira, Fernando C.N. : Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data.In: Proceedings of the Eighteenth International Conference on Machine Learning ( ICML 2001 ), Morgan Kaufmann Publishers, 2001, pp.282-289.
4张祝玉,任飞亮,朱靖波.基于条件随机场的中文命名实体识别特征比较研究[C].见:第4届全国信息检索与内容安全学术会议论文集.2008.
5邱莎,王付艳,申浩如,段玻,阿圆,丁海燕.基于含边界词性特征的中文命名实体识别[J].计算机工程,2012,38(13):128-130. 被引量：7
6黄利科刘群.基于条件随机场的中文产品名自动识别方法.计算机应用研究,2008,:1829-1831.

二级参考文献35

1罗智勇 ,宋柔 .一种基于可信度的人名识别方法[J].中文信息学报,2005,19(3):67-72. 被引量：20
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：88
3刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：48
4俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：168
5毛婷婷,李丽双,黄德根.基于混合模型的中国人名自动识别[J].中文信息学报,2007,21(2):22-28. 被引量：10
6Chinchor N. MUC - 7 Named Entity Task Definition[C]. In :Proceedings of the 7th Message Understanding Conference, Virginia. 1998.
7Sproat R, Emerson T. The First International Chinese Word Segmentation Bakeoff[ C ]. In : Proceedings of the 2rid SIGHAN Workshop on Chinese Language Processing, Sapporo, Japan. 2003 : 133 - 143.
8Rau L F. Extracting Company Names from Text [ C ]. In : Proceedings of the 7th IEEE Conference on Artificial Intelligence Applicatiorts. 1991:29 -32.
9Grishman R, Sundheim B. Message Understanding Conference- 6 : A Brief History [ C ]. In : Proceedings of the 16th International Conference on Computational Linguistics. 1996.
10Chinchor N A. Overview of MUC - 7/MET - 2 [C]. In : Proceedings of the 7th Message Understanding Conference. 1998.

共引文献159

1贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
2孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：9
3张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：17
4毛姝洁,张雪虎.基于兴趣点简称的检索方法研究[J].太原理工大学学报,2008,39(S1):52-55. 被引量：1
5车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5
6俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：168
7宇缨,王晓龙,刘秉权.一种基于SVM／RS的中文机构名称自动识别方法[J].电子与信息学报,2006,28(5):895-900. 被引量：4
8钟良伍,郑方.基于中文机构名简称的检索方法研究[J].中文信息学报,2007,21(1):38-42. 被引量：7
9沈嘉懿,李芳,徐飞玉,Hans Uszkoreit.中文组织机构名称与简称的识别[J].中文信息学报,2007,21(6):17-21. 被引量：32
10荆涛,左万利,孙吉贵,车海燕.中文网页语义标注：由句子到RDF表示[J].计算机研究与发展,2008,45(7):1221-1231. 被引量：29

同被引文献20

1尹继豪,樊孝忠,于江德.基于类语言模型的中文机构名称自动识别[J].计算机科学,2006,33(11):212-214. 被引量：3
2百度百科[EB/OL] .http://www.hudong.com/wiki/%E4% BA%9 l%E8%AE%A 1%E7%AE%97#3,2011.
3叶琳莉,黄日茂.结合决策树方法的中文机构名称识别[J].福建电脑,2007,23(12):184-184. 被引量：4
4郭建宏.重视科研机构评价[N].中国社会科学报,2014-08-13(A05).
5中国农业大学[EB/OL].[2015-03-13].http://www.Call.edu.cn/col/co110247/index.html.
6Applet D,et. al. SRI Internation FASTUS system MUC-6 test re- suits and analysis. Proceeding of the MUC-6[C]. NIST Morgan -Kaufmann Publisher, Columbia.
7George Krupka and Kevin Hansman. IsoQuest Inc. : Description of the NetOwlTM Extractor System as Used for MUC-7 [ C ]. In Processing of the Seventh Message Understanding Conference, 1998.
8Borthwick A. Maximum Entropy Approach to Named Entity Recognition. PhD Dissertation[D]. New York University, 1999 : 18-25.
9Eunji Yi. SVM-based Biological Named Entity Recognition u- sing Minimum Edit-Distance Feature Boosted by Virtual Exam- ples[J]. IJCNLP, 2004:807-814.
10Lafferty J, McCallum A, Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data [A]//Proceedings of the 18th International Conference on Ma- chine Learning[C]. San Francisco, CA, USA: Morgan Kauf- mann Publishers Inc. ,2001:282-289.

引证文献2

1杨瑞仙,毛一雷.面向知识评价的我国科研机构命名识别方法研究[J].情报杂志,2015,34(7):179-183. 被引量：6
2郑国伟,吕学强,夏红科,周建设.基于LSTM的金融新闻倾向性[J].计算机工程与设计,2018,39(11):3462-3467. 被引量：4

二级引证文献10

1罗银秀,黄叶莉,李玉清,朱荔.护理学会承接政府转移职能的现况调查[J].中国护理管理,2016,16(10):1363-1366. 被引量：1
2梁志剑,谢红宇,安卫钢.基于BiGRU和贝叶斯分类器的文本分类[J].计算机工程与设计,2020,41(2):381-385. 被引量：16
3杨昭,任娟.中文文献题录数据机构名称归一化研究[J].图书情报工作,2020,64(4):95-102. 被引量：6
4李福鹏,付东翔.基于Transformer编码器的金融文本情感分析方法[J].电子科技,2020,33(9):10-15. 被引量：7
5杨昭.基于元路径的机构名称归一化研究[J].情报学报,2020,39(10):1069-1080. 被引量：11
6XIANG Yidan,ZHANG Pengzhu,WU Shuang.Content-Based Knowledge Quality Assessment and Its Application in Health Management System[J].Journal of Shanghai Jiaotong university(Science),2021,26(1):116-128. 被引量：2
7杨秀璋,李晓峰,袁杰,李坤琪,杨鑫,罗子江.一种融合语义知识和BiLSTM-CNN的短文本分类方法[J].计算机时代,2021(11):49-54. 被引量：3
8杨秀璋,郭明镇,候红涛,袁杰,李晓峰,李坤琪,汪威,何世群,罗子江.融合情感词典的改进BiLSTM-CNN+Attention情感分类算法[J].科学技术与工程,2022,22(20):8761-8770. 被引量：24
9刘燕,孙月萍,侯丽.融合多策略的中文科技文献机构名称规范化研究与实践[J].医学信息学杂志,2022,43(12):32-38. 被引量：2
10王茜,方安,娄培,杨雨生,王蕾.融合提示工程与图卷积网络的机构名称对齐研究[J].数据分析与知识发现,2025,9(8):125-136. 被引量：1

1产业新闻[J].消费电子,2009(11):88-88.
2数字[J].电脑迷,2011(3):5-5.
3产业新闻[J].网管员世界,2005(7):1-1.
4产业新闻[J].消费电子,2009(14):89-89.
5事件[J].电脑迷,2011(24):5-5.
6产业新闻[J].消费电子,2012(7):9-9.
7产业新闻[J].消费电子,2010(10):25-25.
8产业新闻[J].消费电子,2010(4):63-63.
9产业新闻[J].消费电子,2009(10):24-24.
10产业新闻[J].消费电子,2009(13):27-27.

网络安全技术与应用

2014年第4期

浏览历史

内容加载中请稍等...

一种基于条件随机场的中文公司名识别方法被引量：2

参考文献6

二级参考文献35

共引文献159

同被引文献20

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种基于条件随机场的中文公司名识别方法 被引量：2

参考文献6

二级参考文献35

共引文献159

同被引文献20

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种基于条件随机场的中文公司名识别方法被引量：2