基于职业特征的人名消歧算法被引量：2

Name Disambiguation Algorithm Based on Clustering Occupational Characteristics

下载PDF

导出

摘要职业是人物实体的代表性特征,能够有效地区分人物实体。传统人名消歧算法仅把职业当作一个普通的特征,忽视了它的重要性。针对以上问题,提出了基于职业特征的人名消歧算法。首先通过互联网手动构建基础职业词典;其次以维基百科的所有中文页面为训练语料,通过词激活力模型扩展基础职业词典得到职业特征词典;然后从文本中提取职业特征,并抽取人名和作品名作为其补充特征,弥补文本中职业特征缺失和同一人物具有多个职业的问题;最后采用凝聚层次聚类实现人名消歧。在CLP2010的人名消歧训练语料上进行实验,结果表明文章算法能够有效地实现人名消歧。 Occupation is the representative feature of character entities and can effectively distinguish them. Considering that the traditional algorithm of name disambiguation takes the occupation as a common feature and ignores its importance, this paper puts forward an algorithm of name disambiguation based on occupation. Firstly, a basic occupation dictionary is built manually through the internet; secondly, all Chinese Wikipedia pages are used as training corpus and a basic occupation dictionary is derived by extending the word activation force model; then, occupation is extracted as a feature from the text, supplemented by names and works to make up for the problems of occupation missing and the same person having multiple occupations; finally, name disambiguation is imple-mented by agglomerative hierarchical clustering. Experimental results on CLP2010 of Chinese names disambiguation evaluation corpus show that our algorithm is effective.

作者阳怡林周杰李弼程李爱国

机构地区信息工程大学 [

出处《信息工程大学学报》 2016年第5期548-554,共7页 Journal of Information Engineering University

基金国家社会科学基金资助项目(14BXW028)

关键词职业特征亲和度人名消歧词激活力凝聚层次聚类 occupational characteristics affinity name disambiguation word activation force agglomerative hierarchical clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1李广一,王厚峰.基于多步聚类的汉语命名实体识别和歧义消解[J].中文信息学报,2013,27(5):29-34. 被引量：17
2陈晨,王厚峰.基于社会网络的跨文本同名消歧[J].中文信息学报,2011,25(5):75-82. 被引量：13
3李琦,马军.基于人物相关社区的重名消解研究[J].山东大学学报（理学版）,2012,47(3):33-37. 被引量：5

二级参考文献42

1J. Artiles, J. Gonzalo, S. Sekine. The SemEval- 2007WePS Evaluation.. Establishing a benchmark for the Web People Search Task [C]//SemEval, 2007.
2A. Bagga, B. Baldwin. Entity-based cross-document coreferencing using the Vector Space Model[C]//Proceedings of the 17th international conference on Computational linguistics-Volume 1, 1998: 79-85.
3G. S. Mann, D. Yarowsky. Unsupervised personal name disambiguation [C]//Proceedings of the seventh conference on Natural language learning at HLT- NAACL, 2003.. 33-40.
4M. B. Fleischman, E. Hovy. Multi-document person name resolution[C]//Proceedings of ACL-42, Reference Resolution Workshop, 2004.
5B. Malin. Unsupervised Name Disambiguation via Social Network Similarity [C]//Workshop Notes on Link Analysis, Counterterrorism, and Security, 2005.
6T. Pedersen, K. Anagha. Automatic Cluster Stopping with Criterion Functions and the Gap Statistic[C]// Proceedings of the Demonstration Session of the Human Language Technology Conference and the Sixth Annual Meeting of the North American Chapter of the Association for Computational Linguistic, New York City. 2006.
7Scott J. Social network analysis: A handbook (2nd ed. ) [M]. Thousands Oaks, CA: Sage. 2000.
8Ng A, Jordan M,Weiss Y. On spectral clustering: Analysis and an algorithm. Advances in Neural Information Precessing Systems 14 [C]//MIT Press, 2002.
9Z. Wu, R. Leahy. An Optimal Graph Theoretic Approach to Data Clustering: Theory and Its Application to Image Segmentation[J]. IEEE Trans. Pattern Analysis and Machine Intelligence, 1993, 15 (11) : 1101-1113.
10Shi J, Malik J. Normalized cuts and image segmentation [J]. IEEE Trans. Pattern Analysis and Machine Intelligence,2000, 22(8) : 888-905.

共引文献26

1于东,荀恩东.基于Word Embedding语义相似度的字母缩略术语消歧[J].中文信息学报,2014,28(5):51-59. 被引量：6
2郭喜跃,周琴,陈前军.基于CRF与规则的工程领域命名实体识别方法[J].软件导刊,2014,13(11):28-30. 被引量：3
3朱云霞.中文文献题录数据作者重名消解问题研究[J].图书情报工作,2014,58(23):143-148. 被引量：9
4许华,刘茂福,姜丽,顾进广.基于语言规则的病症菌实体抽取[J].武汉大学学报（理学版）,2015,61(2):151-155. 被引量：9
5陈晨,王厚峰.中文跨文本人名同名同指消解研究[J].江西师范大学学报（自然科学版）,2015,39(2):111-116. 被引量：1
6张晗,罗森林,邹丽丽,石秀民.融合句义分析的跨文本人名消歧[J].浙江大学学报（工学版）,2015,49(4):717-723. 被引量：1
7孙雪闵,李晓戈,周晓辉.信息抽取中地点归一化研究[J].软件导刊,2015,14(7):26-29. 被引量：1
8阳怡林,周杰,李弼程,席耀一.基于分步聚类的人名消歧算法[J].数据采集与处理,2016,31(1):213-222. 被引量：3
9珠杰,李天瑞,刘胜久.基于条件随机场的藏文人名识别技术研究[J].南京大学学报（自然科学版）,2016,52(2):289-299. 被引量：16
10刘建华,郭红梅.实体名称规范的研究探索[J].数字图书馆论坛,2016(5):57-63. 被引量：1

同被引文献24

1马月坤,刘鑫,裴嘉诚,秦帅波.基于BERT的中文关系抽取方法[J].计算机产品与流通,2019,0(12):251-251. 被引量：5
2陈晨,王厚峰.基于社会网络的跨文本同名消歧[J].中文信息学报,2011,25(5):75-82. 被引量：13
3李琦,马军.基于人物相关社区的重名消解研究[J].山东大学学报（理学版）,2012,47(3):33-37. 被引量：5
4肖晶,梁冰,张晓丹,吕世炅.一种面向篇级数据的作者名消歧规则和算法[J].现代图书情报技术,2012(5):55-59. 被引量：10
5李广一,王厚峰.基于多步聚类的汉语命名实体识别和歧义消解[J].中文信息学报,2013,27(5):29-34. 被引量：17
6陈真勇,徐州川,李清广,吕卫锋,熊璋.一种新的智慧城市数据共享和融合框架——SCLDF[J].计算机研究与发展,2014,51(2):290-301. 被引量：35
7张菲菲,李宗海,周晓辉,李晓戈.基于层次聚类的跨文本中文人名消歧研究[J].计算机工程与应用,2014,50(6):106-111. 被引量：8
8任景华.利用优化的DBSCAN算法进行文献著者人名消歧[J].图书馆理论与实践,2014(12):61-65. 被引量：10
9化柏林,李广建.大数据环境下多源信息融合的理论与应用探讨[J].图书情报工作,2015,59(16):5-10. 被引量：106
10林翠萍,吴扬扬.采用改进最长公共子序列的人名消歧[J].华侨大学学报（自然科学版）,2016,37(2):201-206. 被引量：5

引证文献2

1程世清,王思宇,曹林.基于Albert的联合训练文书信息提取方法研究[J].信息工程大学学报,2021,22(2):228-233.
2昌宁,窦永香,徐薇.基于多源数据的科技文献作者同名消歧研究[J].情报科学,2021,39(6):108-116. 被引量：6

二级引证文献6

1朱玉强,江涛,李翼飞.外文数据库英译中文作者姓名消歧实践[J].数字图书馆论坛,2022(2):33-39.
2曹思萌,李春旺.作者名称增量消歧研究综述[J].数据分析与知识发现,2022,6(5):10-19. 被引量：1
3朱容辉,刘树林.中国金奖专利的发明者团队构建规律研究[J].科学学研究,2022,40(7):1285-1293. 被引量：1
4刘华玲,孙毅.基于实体识别和信息融合的知识图谱研究——以新冠肺炎疫情为例[J].计算机技术与发展,2022,32(9):107-113. 被引量：2
5王世奇,刘智锋,王继民.学者画像研究综述[J].图书情报工作,2022,66(20):73-81. 被引量：19
6张力,胡经璇,刘细文,陆伟.CHEN-AND:中英文科学文献联合作者消歧数据集与评测基准[J].数据分析与知识发现,2025,9(9):88-101.

1第二届全国计算机应用型人才培养论坛征文通知[J].计算机教育,2010(16):160-160.
2第二届全国计算机应用型人才培养论坛征文通知[J].计算机教育,2010(15):160-160.
3冯婷婷.对提高计算机教学效果的几点思考[J].青少年日记（教育教学研究）,2016,0(1):65-65.
4蒋方纯.机器学习应用中特征缺失研究[J].深圳信息职业技术学院学报,2012,10(3):28-32. 被引量：1
5汉口人家.Chrome,请不要翻译非中文页面[J].网友世界,2010(14):37-37.
621世纪经济报道.Facebook中国脸姗姗来迟定位难[J].计算机应用文摘,2008(15):4-4.
7范海雁.高校专业课课堂教学方法探究[J].科技信息,2009(21). 被引量：4
8Google Toolbar 4 Beta 快来创建自己的“网络版”收藏夹![J].数字技术与应用,2006(4):23-23.
9祁瑞华,杨德礼,胡润波.基于特征缺失补偿最大熵模型的文本分类[J].情报杂志,2010,29(5):141-143. 被引量：2
10王志军.申请QQ号码走捷径[J].网友世界,2008(6):36-36.

信息工程大学学报

2016年第5期

浏览历史

内容加载中请稍等...

基于职业特征的人名消歧算法被引量：2

参考文献3

二级参考文献42

共引文献26

同被引文献24

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于职业特征的人名消歧算法 被引量：2

参考文献3

二级参考文献42

共引文献26

同被引文献24

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于职业特征的人名消歧算法被引量：2