面向文本挖掘的植物生长发育实体识别研究被引量：1

Research on Plant Growth and Development Stage Named Entity Recognition for Text Mining

导出

摘要【目的】研究从文本中识别植物生长发育实体(Plant Growth and Development Stage Named Entity,PDSE)的抽取。【应用背景】PDSE从本质上来说是一种命名实体。目前有关命名实体的识别已经成为自然语言处理领域最有价值的基础技术之一,被广泛应用于多种自然语言处理系统中。【方法】采用基于条件随机场和规则的混合策略,提出并实现针对PDSE特征的CRF特征模板、特征函数以及抽取规则的方法,并利用PubMed数据库收录的论文进行抽取效果测试。【结果】实验表明本文提出的混合策略能取得较高的准确率和召回率。【结论】本研究对生物学文本抽取具有一定的借鉴意义。 [Objective] This paper researches in the extraction that identifies plant growth and development stage entity from text. [Context] PDSE is a kind of named entity essentially. Named entities recognition has become one of most valuable basic technologies in Natural Language Processing field, which is used widely in many Natural Language Processing systems. [Methods] It adopts multiple strategies based on conditional random field and rules, with putting forward and realizing a method of CRF template, characteristic function and extraction rules for the features of plant growth and development stage entity. Also, it tests the extraction effect by articles from the PubMed database. [Results] The experiment shows that the proposed hybrid strategies can obtain high accuracy and recall rate. [Conclusions] This research has a certain significant reference for biology text extraction.

作者汪润何琳王东波黄水清范远标

机构地区南京农业大学信息科学技术学院

出处《现代图书情报技术》 CSSCI 北大核心 2014年第1期22-27,共6页 New Technology of Library and Information Service

基金国家社会科学基金"面向知识服务的科学数据组织与应用研究"(项目编号:13CTQ035) 中央高校基本科研业务费资助项目"面向qRT-PCR实验的内参基因挖掘技术研究"(项目编号:KYZ201159) 南京农业大学SRT计划项目"基于混和策略的植物生长发育时期识别"(项目编号:1219A11)的研究成果之一

关键词植物生长发育时期命名实体识别条件随机场特征选择 Plant growth and development stage Named entity recognition CRF Feature selection

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1朱莎莎,刘宗田,付剑锋,朱芳.基于条件随机场的中文时间短语识别[J].计算机工程,2011,37(15):164-167. 被引量：16
2贺瑞芳,秦兵,潘越群,刘挺,李生.基于启发式错误驱动学习的中文时间表达式识别[J].高技术通讯,2008,18(12):1258-1262. 被引量：3
3宗萍,施水才,王涛,吕学强.基于条件随机场的英文地理行政实体识别[J].现代图书情报技术,2009(2):51-55. 被引量：5
4张朝胜,郭剑毅,线岩团,余正涛,雷春雅,王海雄.基于条件随机场的英文产品命名实体识别[J].计算机工程与科学,2010,32(6):115-117. 被引量：13
5周雅倩,郭以昆,黄萱菁,吴立德.基于最大熵方法的中英文基本名词短语识别[J].计算机研究与发展,2003,40(3):440-446. 被引量：63
6孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：102
7许旭阳,李弼程,张先飞,席耀一.基于条件随机场与自定义规则的时间表达式识别[J].情报学报,2011,30(10):1065-1071. 被引量：3

二级参考文献98

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：89
2刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：48
3俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：167
4WuML, LiWJ, Lu Q, etal. CTEMP: A Chinese temporal parser for extracting and normalizing temporal Information. In: Proceeding of the International Joint Conference on Natural language Processing, Jeju Island, Korea, 2005. 694-706
5Ye Y, Fossum V L, Abney S. Latent features in automatic tense translation between Chinese and English. in: Proceedings of the 5th SIGHAN Workshop on Chinese Language Processing, Sydney, Australia, 2006.48-55
6ACE2007 evaluation plan. http://projects. ldc. upenn. edu/ace/intro. html. 2006-11-6
7SemEval-2007. http://nlp. cs. swarthmore.edu/semevaL/index. shtml. 2007-1
8Jang S B, Baldwin J, Mind I. Automatic TIMEX2 tagging of Korean news. ACM Transaction on Asian Language Information processing,2004, 3 (1):51-65
9Vazov N. A system for extraction of temporal expressions French Texts based on syntactic and semantic constraints. In: Proceedings d the Association for Computational Linguistics Workshop on Temporal and Spatial Information Processing, Toulouse, France, 2001. 96-103
10Estela S, Martinez-Barco, Patricio, et al. Recognizing and tagging temporal expressions in Spanish. In: Proceedinss of the Workshop on Annotation Standards for Temporal Information in Natural Language, The International Conference on Language Resources and Evaluation, Las Palmas, Spain, 2002

共引文献195

1贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
2孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：9
3李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
4陈晓明,周渝.汉语部分句法分析的研究和发展趋势[J].贵州大学学报（自然科学版）,2004,21(4):384-386. 被引量：2
5干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
6王建会,王雷,胡运发.词语间依存关系的定量识别[J].中文信息学报,2005,19(4):31-38. 被引量：3
7冯丽萍,焦莉娟.基于最大熵的中文组织机构名识别模型[J].计算机与数字工程,2010,38(12):36-40. 被引量：2
8蔡华利,刘鲁,李红.基于规则推理的突发事件发生地点识别研究[J].情报学报,2011,30(2):219-224. 被引量：9
9余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
10冯冲,陈肇雄,黄河燕,王江伟.最大熵模型的树-栅格最优N解码算法[J].计算机科学,2005,32(10):167-169. 被引量：1

同被引文献37

1赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：558
2关晓炟,吕学强,李卓,郑略省.用户查询日志中的中文机构名识别[J].现代图书情报技术,2014(1):72-78. 被引量：4
3李慧林,柴玉梅,孙穆祯.面向文本命名实体识别的深层网络模型[J].小型微型计算机系统,2019,40(1):50-57. 被引量：11
4秦娅,申国伟,赵文波,陈艳平.基于深度神经网络的网络安全实体识别方法[J].南京大学学报（自然科学版）,2019,55(1):29-40. 被引量：22
5石翠,王杨,杨彬,姚晔.面向中文专利文献的单层并列结构识别[J].现代图书情报技术,2014(10):76-83. 被引量：3
6孙瑞娜.基于CRFs的哈萨克语名词短语自动获取[J].图书馆理论与实践,2015(8):101-105. 被引量：1
7姜春涛.自动标注中文专利的引文信息[J].现代图书情报技术,2015(10):81-87. 被引量：2
8何宇,吕学强,徐丽萍.新能源汽车领域中文术语抽取方法[J].现代图书情报技术,2015(10):88-94. 被引量：12
9王密平,王昊,邓三鸿,吴志祥.基于CRFs的冶金领域中文专利术语抽取研究[J].现代图书情报技术,2016(6):28-36. 被引量：14
10王汀,冀付军,徐天晟.一种面向中文网络百科非结构化信息的知识获取方法[J].图书情报工作,2016,60(13):126-133. 被引量：6

引证文献1

1余本功,范招娣.面向自然语言处理的条件随机场模型研究综述[J].信息资源管理学报,2020,10(5):96-111. 被引量：24

二级引证文献24

1闫博.基于HanLP关键词抽取与句法分析的图谱构建[J].电子元器件与信息技术,2022,6(9):77-80. 被引量：4
2苏晓红.建立统一的国债回购市场[J].金融理论与实践,2000(3):18-19.
3郭凡莎,杨风暴.基于CRF的交通肇事诉讼案件关键要素抽取[J].计算机与现代化,2021(3):77-81. 被引量：2
4吴恪涵,张雪英,叶鹏,怀安,张航.基于BERT-BiLSTM-CRF的中文地址解析方法[J].地理与地理信息科学,2021,37(4):10-15. 被引量：9
5林振,秦宇辰,秦婴逸,李冬冬,吴骋,贺佳.基于缺血性脑卒中患者出院小结的协变量提取方法[J].第二军医大学学报,2021,42(11):1273-1278.
6曹卫东,徐秀丽.民航不文明旅客实体识别方法研究[J].中国民航大学学报,2022,40(2):24-30.
7翟羽佳,田静文,赵玥.基于BERT-BiLSTM-CRF模型的算法术语抽取与创新演化路径构建研究[J].情报科学,2022,40(4):71-78. 被引量：34
8尹文萍,高宸,樊辉,谢菲,张鑫.一种融合文本中地理位置和土地利用/覆被信息的野生动物活动细粒度定位方法[J].地球信息科学学报,2022,24(7):1363-1374. 被引量：1
9范钰程,梁凤梅,邬志勇.基于ALBERT-CAW模型的时政新闻命名实体识别方法[J].电子设计工程,2022,30(15):49-54.
10郭继峰,费禹潇,孙文博,谢培浇,张健.一种融合主题的PGN-GAN文本摘要模型[J].小型微型计算机系统,2023,44(1):199-203. 被引量：2

1张建萍,刘希玉.基于聚类分析的K-means算法研究及应用[J].计算机应用研究,2007,24(5):166-168. 被引量：128
2李福清,黄福员.树结构在植物形态建模中的扩展及其应用[J].上海工程技术大学学报,2005,19(3):244-246.
3李福清,黄福员.一种新的树结构及其在植物形态建模中的应用[J].电脑知识与技术,2005(9):70-71.
4柴粲.初中英语互动交流教学模式浅谈[J].中学生英语（教师版）,2014(6):38-39.
5赵理珍.论图书馆在促进学生信息素养与心理健康发展中的功能[J].教育界（教师培训）,2013(5):12-12.
6申小龙,周海芳,窦勇.基于色彩特征的森林火灾火焰分割方法[J].计算机应用,2013,33(A02):197-199. 被引量：3
7张建萍,刘希玉.聚类分析在儿童发育时期分析中的应用[J].信息技术与信息化,2005(6):84-87. 被引量：1
8张洁.脑瘫儿童心理康复的方法与建议的探讨[J].学生之友（小学版）,2013(4):96-96.
9电脑视觉技术可以控制植物生长基因[J].广西科学,2012,19(1):76-76.
10毛丽萍,郭尚.回归相关法测定西葫芦叶面积研究[J].上海蔬菜,2008(5):74-75. 被引量：21

现代图书情报技术

2014年第1期

浏览历史

内容加载中请稍等...

面向文本挖掘的植物生长发育实体识别研究被引量：1

参考文献7

二级参考文献98

共引文献195

同被引文献37

引证文献1

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

面向文本挖掘的植物生长发育实体识别研究 被引量：1

参考文献7

二级参考文献98

共引文献195

同被引文献37

引证文献1

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

面向文本挖掘的植物生长发育实体识别研究被引量：1