基于网页文本依存特征的人名消歧被引量：6

Name Disambiguation Based on Dependency Feature in Web Page Text

下载PDF

导出

摘要研究互联网中的人名消歧问题。抽取与网页文本中人名关键字实体相关的依存特征及命名实体等辅助特征,利用二层聚类算法,根据依存特征将可信度高的文档聚类,使用辅助特征将剩余文档加到现有聚类结果中,由此实现人名消歧。实验结果证明,该方法消歧效果优于其他人名消歧方法。 This paper works on the common ambiguity problem on Internet.The following is the proposed method： extract the dependency features which are related to the key name entities in the Web page text,while extract supporting features such as named entity extraction;cluster these features by a two-step cluster algorithm which clusters the documents with high reliability in the first stage and then merges the other documents to the existing clustering results.Experimental result shows that the proposed disambiguation system has better performance than common methods.

作者杨欣欣李培峰朱巧明

机构地区苏州大学计算机科学与技术学院江苏省计算机信息处理技术重点实验室

出处《计算机工程》 CAS CSCD 2012年第19期133-136,共4页 Computer Engineering

基金国家自然科学基金资助项目(60970056 61070123 61003155) 江苏省自然科学基金资助项目(BK2008160) 高等学校博士学科点专项基金资助项目(20093201110006) 模式识别国家重点实验室开放课题基金资助项目

关键词人名歧义依存特征人名消歧命名实体聚类 name ambiguity dependency feature name disambiguation named entity clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Malin B, Airoldi E, Carley K M. A Network Analysis Model for Disambiguation of Names in Lists[J]. Computational & Mathematical Organization Theory, 2005, 11(2): 119-139.
2Bagga A, Baldwin B. Entity-based Cross-document Corefe- rencing Using the Vector Space Model[C]//Proc. of the 17th International Conference on Computational Linguistics. [S. l.]: IEEE Press, 1998: 75-85.
3Chen Ying, Jin Peng, Li Wenjie, et al. The Chinese Persons Name Disambiguation Evaluation: Exploration of Personal Name Disambiguation in Chinese News[C]//Proc. of CIPS- SIGHAN Joint Conference on Chinese Language Processing. Beijing, China: Chinese Information Processing Society of China, 2010: 346-352.
4Mann G, Yarowsky D. Unsupervised Personal Name Disambigu- ation[C]//Proc. of CoNLL’03. Edmonton, Canada: Association for Computational Linguistics, 2003: 33-40.
5Fleischman M, Hovy E. Multi-document Person Name Resolution[C]//Proc. of the 42nd Annual Meeting of the Association for Computational Linguistics. Madrid, Spain: [s. n.], 2004: 1-8.
6Chen Ying, Martin J. Towards Robust Unsupervised Personal Name Disambiguation[C]//Proc. of 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Pargue, Czech: [s. n.], 2007: 190-198.
7Ono S, Sato I, Yoshida M, et al. Person Name Disambiguation in Web Pages Using Social Network, Compound Words and Latent Topics[C]//Proc. of the 12th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining. Heidelberg, Germany: Springer-Verlag, 2008: 260-271.
8Malin B. Unsupervised Name Disambiguation via Social Network Similarity[C]//Proc. of 2005 SIAM International Conference on Data Mining. Newport Beach, USA: [s. n.], 2005: 93-102.
9Romano L, Buza K, Giuliano C. XMedia: Web People Search by Clustering with Machinely Learned Similarity Measures[C]// Proc. of Web People Search Evaluation Workshop at World Wide Web Conference. Madrid, Spain: [s. n.], 2009.
10王厚峰.指代消解的基本方法和实现技术[J].中文信息学报,2002,16(6):9-17. 被引量：46

二级参考文献4

1秦洪武.第三人称代词在深层回指中的应用分析[J].当代语言学,2001,3(1):55-64. 被引量：34
2马彦华黄昌宁等.汉语中人称代词指代问题研究.1998年中文信息处理国际会议论文集[M].北京,1998..
3郭志立.人称代词指代主体的辨析及其在摘要提取中的应用.1998年中文信息处理国际会议会论文集[M].北京清华大学出版社,1998.310-315.
4王厚峰,何婷婷.汉语中人称代词的消解研究[J].计算机学报,2001,24(2):136-143. 被引量：36

共引文献45

1吴敏.指代消解在普通语言学理论与课程实践上的应用研究[J].大家,2010(11):135-136.
2何甫权.英语指代与翻译[J].安徽文学（下半月）,2008(8):296-297.
3王厚峰.汉语篇章的指代消解浅论[J].语言文字应用,2004(4):113-119. 被引量：13
4王厚峰,梅铮.鲁棒性的汉语人称代词消解[J].软件学报,2005,16(5):700-707. 被引量：36
5李国臣,罗云飞.采用优先选择策略的中文人称代词的指代消解[J].中文信息学报,2005,19(4):24-30. 被引量：33
6周俊生,黄书剑,陈家骏,曲维光.一种基于图划分的无监督汉语指代消解算法[J].中文信息学报,2007,21(2):77-82. 被引量：19
7庞宁,杨尔弘.基于统计模型与规则的指代消解研究[J].太原科技,2007(5):61-62. 被引量：2
8张美娜,亓超,迟呈英,战学刚.基于汉语篇章结构的自动摘要方法研究[J].情报杂志,2007,26(8):34-36. 被引量：3
9冯元勇,孙乐,董静,李文波.基于分类信心重排序的中文共指消解研究[J].中文信息学报,2007,21(6):22-28.
10庞宁,杨尔弘.基于最大熵模型的共指消解研究[J].中文信息学报,2008,22(2):24-27. 被引量：4

同被引文献47

1曹犟,邬晓钧,夏云庆,郑方.基于拼音索引的中文模糊匹配算法[J].清华大学学报（自然科学版）,2009(S1):1328-1332. 被引量：14
2张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
3俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：168
4周波,杨国纬.基于贝叶斯算法的中国人名识别[J].计算机应用,2006,26(4):998-1000. 被引量：12
5李丽双,黄德根,毛婷婷,徐潇潇.基于支持向量机的中国人名的自动识别[J].计算机工程,2006,32(19):188-190. 被引量：9
6Chen Ying, Jin Peng, l.i Wenjie, et al. Exploration of personal name disambiguation in Chinese news [C]ffCIPS-SIGHAN Joint Conference on Chinese Language Processing. Bejing,China:ACL, 2010: 20-26.
7He Zhengyan, Wang Houfeng. l.i Sujian. The task 2 of CIPS-SIGHAN 2012 named entity recognition and disambiguation in Chinese bakeoff [C3//C'IPS-SIC; H AN J oint Conference on Chinese Language Processing. Tianiin, China : ACL, 2012 : 108-114.
8()no S, Sato I, Yoshida M, et al. Person name disambiguation in web pages using social network, compound words and latent topics [C]//Advances in Knowledge Discovery and Data Mining. E S. 1.1: Springer Berlin Heidelberg: 2008: 260-271.
9Long C, Shi L. Web person name disambiguation by relevance weighting of extended feature sets[C]//11 th Workshop of the Cross-Language Evaluation Forum. Padua: ACL, 2010 : 1-13.
10Fan Xiaoming, Wang Jianyong, Pu Xu, et al. On graph-based name disambiguation [J]. Journal of Data and Information Quality, 2011, 2(2): 1-23.

引证文献6

1朱敏,贾真,左玲,吴安峻,陈方正,柏玉.中文微博实体链接研究[J].北京大学学报（自然科学版）,2014,50(1):73-78. 被引量：12
2阳怡林,周杰,李弼程,席耀一.基于分步聚类的人名消歧算法[J].数据采集与处理,2016,31(1):213-222. 被引量：3
3曾剑平,刘华.一种基于聚集系数的人名识别方法[J].计算机工程,2016,42(7):203-208.
4刘林.面向科技人才情报的多策略组合模型同名消歧方法[J].通信技术,2018,51(8):1836-1843. 被引量：2
5王新,卢垚,袁雪,赵婉婧,陈莉,刘敏娟.学术论文作者同名消歧方法研究进展[J].农业图书情报学报,2022,34(10):82-90. 被引量：2
6张静,张志强,赵亚娟.基于专利发明人人名消歧的研发团队识别研究[J].知识管理论坛,2016(3):217-225. 被引量：3

二级引证文献21

1舒佳根,惠浩添,钱龙华,朱巧明.一个中文实体链接语料库的建设[J].北京大学学报（自然科学版）,2015,51(2):321-327. 被引量：7
2韩春燕,刘玉娇,琚生根,李若晨,苏翀.中文微博命名体识别[J].四川大学学报（自然科学版）,2015,52(3):511-516. 被引量：9
3李钝,薛昊原,李伦,郑志蕴.面向教学资源的实体链接算法[J].南京大学学报（自然科学版）,2015,51(4):901-908. 被引量：2
4汪沛,线岩团,郭剑毅,文永华,陈玮,王红斌.一种结合词向量和图模型的特定领域实体消歧方法[J].智能系统学报,2016,11(3):366-375. 被引量：8
5冯冲,石戈,郭宇航,龚静,黄河燕.基于词向量语义分类的微博实体链接方法[J].自动化学报,2016,42(6):915-922. 被引量：13
6黄峻福,李天瑞,贾真,景运革,张涛.中文异构百科知识库实体对齐[J].计算机应用,2016,36(7):1881-1886. 被引量：8
7吴玲玲,翟恒志,周子力,种晓阳.基于知识图谱库的中文影评实体链指[J].电子技术（上海）,2016,43(12):98-101.
8王桂平,赵康,许祥平.浅谈我国钎焊材料的专利分析[J].焊接技术,2017,46(2):54-57. 被引量：1
9王旭阳,姜喜秋.基于上下文信息的中文命名实体消歧方法研究[J].计算机应用研究,2018,35(4):1072-1075. 被引量：7
10王超,王峥.基于改进分词标注集的中文微博命名实体识别方法[J].计算机与数字工程,2019,47(1):211-215. 被引量：3

1于明,苗晓峰,范书瑞.基于纹理的文本依存的离线笔迹鉴别[J].河北工业大学学报,2007,36(5):95-100. 被引量：2
2李永红,卢昭金,刘哲,石海杰.基于直线和SIFT融合特征的物体识别研究[J].国外电子测量技术,2009,28(6):31-34. 被引量：3
3陈睿,唐雁.基于关键词提取的手写汉字文本依存笔迹鉴别技术[J].四川大学学报（自然科学版）,2013,50(4):719-727. 被引量：4
4黄坤,王丹丹,崔强,郝春亮,王青.基于辅助特征的Web服务QoS预测[J].计算机系统应用,2016,25(10):154-161.
5李媛,卡米力.毛依丁.维吾尔语笔迹鉴别方法研究[J].计算机技术与发展,2008,18(5):9-11. 被引量：6
6王凤岭,韦智勇,刘连芳.基于纹理分析笔迹鉴别系统的设计与实现[J].广西民族大学学报（自然科学版）,2007,13(3):97-103. 被引量：2
7沈洁,卡米力.木依丁,张祖莲.维吾尔文笔迹鉴别预处理及边缘提取方法研究[J].计算机技术与发展,2012,22(4):65-68.
8赵璐芳,成思源,张湘伟,杨雪荣.逆向工程曲面模型辅助特征提取技术研究[J].现代制造工程,2012(4):6-9. 被引量：2
9周祥曼,田启华,杜义贤.基于Pro/E的箱体类零件三维参数化造型系统设计[J].矿业装备,2012(6):66-67. 被引量：1
10黄志仁,陈楸,何颖,李岁劳.基于下视序列图像的无人机测速方法[J].弹箭与制导学报,2014,34(2):172-174. 被引量：2

计算机工程

2012年第19期

浏览历史

内容加载中请稍等...

基于网页文本依存特征的人名消歧被引量：6

参考文献11

二级参考文献4

共引文献45

同被引文献47

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于网页文本依存特征的人名消歧 被引量：6

参考文献11

二级参考文献4

共引文献45

同被引文献47

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于网页文本依存特征的人名消歧被引量：6