从Web获取部分整体关系语料的方法被引量：4

A Method for Acquiring Corpus Rich in Part-Whole Relation from the Web

下载PDF

导出

摘要部分整体关系获取是知识获取中的重要组成部分。Web逐步成为知识获取的重要资源之一。搜索引擎是从Web中获取部分整体关系知识的有效手段之一,我们将Web中包含部分整体关系的检索结果集合称为部分整体关系语料。由于目前主流搜索引擎尚不支持语义搜索,如何构造有效的查询以得到富含部分整体关系的语料,从而进一步获取部分整体关系,就成为一个重要的问题。该文提出了一种新的查询构造方法,目的在于从Web中获取部分整体关系语料。该方法能够构造基于语境词的查询,进而利用现有的搜索引擎从Web中获取部分整体关系语料。该方法在两个方面与人工构造查询方法和基于语料库查询构造查询方法所获取的语料进行对比,其一是语料中含有部分整体关系的语句数量;二是从语料中进一步获取部分整体关系的难易程度。实验结果表明,该方法远远优于后两者。 The acquisition of part-whole relations is an important problem of knowledge acquisition.The Web becomes an important resource of knowledge acquisition.Search engine is an effective way to mining knowledge from the Web.The retrieval results containing part-whole relations are called corpus rich in part-whole relation in our paper.Because the current search engine is not semantic-based retrieval,it becomes a challenging issue to construct an effective query to retrieve documents containing part-whole relation from web.This paper gives a novel method of constructing query for acquiring corpus rich in part-whole relations from the Web.We use search engine and query string with context words related to part-whole relation to acquire corpus rich in knowledge about part-whole relation.By contrasting the method of manually constructing query and the method of constructing query based on corpus on the number of retrieve documents containing part-whole relation and the difficult degree expected from the retrieve documents,the result shows that our method was superior to others.

作者曹馨宇曹存根

机构地区中国科学院计算技术研究所智能信息处理重点实验室中国科学院研究生院

出处《中文信息学报》 CSCD 北大核心 2011年第5期17-23,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60773059)

关键词部分整体关系获取语料获取查询构造 part-whole relation acquisition corpus acquisition query formulation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Marti A. Hearst, Automatic Acquisition of hyponyms from large text corpora[C]//Proceedings of the 14th International Conference on Computational Linguistics, 1992, 539-545.
2Morton E. Winston, Roger Chaffin, and Douglas Hermann. A taxonomy of part-whole relations[J]. Cognitive Science, 1987, 417-444.
3张森,王斌.Web检索查询意图分类技术综述[J].中文信息学报,2008,22(4):75-82. 被引量：16
4袁毓林.用同义表达形式来扩充信息检索的查询语句例证研究——对于一种基于语义的搜索方式的若干设想[J].语言文字应用,2008(2):123-131. 被引量：6
5Christiane Fellbaum. WordNet.. An Electronic Lexical Database[M]. 1998. MIT Press.
6知网:http://www.keenage.com/[DB/OL].
7Matthew Berland and Eugene Charniak. Finding Parts in Very Large Corpora[C]//Proceedings of the the 37th Annual Meeting of the Association for Computational Linguistics. 1999.
8Roxana Girju, Adriana Badulescu and Dan Moldovan, Automatic Discovery of Part-Whole Relations [J]. Computational Linguistics, 2006, 32(1): 83-135.
9Xinyu Cao, Cungen Cao, Shi Wang and Han Lu. Extracting Part-Whole Relations from Unstructured Chinese Corpus[C]//Proceedings 4th International Conference on Natural Computation and 5th International Conference on Fuzzy Systems and Knowledge Discovery. 2008.
10Robert Van Hage Willem, Hap Kolb and Guus Schreiber. A method for learning part-whole relations [C]//Proceedings of the 5th Int. Semantic Web Conf. , 2006: 723-736.

二级参考文献32

1[1]Miller G A, et al. Introduction to WordNet:an on-line lexical database, International Journal of Lexicography, 1990,3(4) :235 - 312
2[2]Rila Mandala,Takenobu Tokunaga,Hozumi Tanaka,Combining multiple evidence from different types of thesaurus for query expansion,SIGIR, 1999:191 - 197
3[3]Voorhees E M, Harman D K,The sixth Test REtrieval Conferenee(TREC-6) ,Gaithersburg,NIST, 1998
4[4]Salton G, The SMART retrieval system-experiments in automatic document processing, Prentice Hall, 1971:115 -411
5[5]http: ∥ morph. ldc. upenn. edu/Projects/Chinese
6[6]Gao J F, Nie J Y, Zhang J, et al, Improving query translation for CLIR using statistical models, ACM SIGIR'01 ,New Orleans,2001:96- 104
7[7]David Hull, Using statistical testing in the evaluation of retrieval performance, In Proc. of the 16th ACM/ SIGIR Conference, 1993: 329 - 338
8毕玉德,崔杞鲜,刘扬.多语种词汇语义网建设中的几个问题[A].孙茂松,陈群秀.全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C].2005:253-259.
9陈沛.搜索的未来[A].孙茂松,陈群秀.全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C].2005:24-33.
10蒋严.形式语用学与显义学说-兼谈显谓与汉语配价研究的关系[A].刘丹青.语言学前沿与汉语研究[C].上海:上海教育出版社,2005:143-170.

共引文献42

1徐莹,杜习英.一种基于遗传算法的查询优化方法[J].电脑知识与技术（过刊）,2007(20):524-526. 被引量：1
2左家莉,王明文,王希.基于Markov网络的信息检索扩展模型[J].清华大学学报（自然科学版）,2005,45(S1):1847-1852. 被引量：9
3张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9
4郑庆华,王朝静,孙霞.一种基于结构化语料库的概念语义网络自动生成算法[J].计算机研究与发展,2005,42(3):478-485. 被引量：7
5李智,李敏强.基金项目评审管理中智能交互式文档检索[J].研究与发展管理,2005,17(3):106-110. 被引量：5
6余正涛,樊孝忠,宋丽荣.基于特定问题类别的汉语问答系统查询扩展[J].北京理工大学学报,2005,25(10):880-884. 被引量：3
7吕碧波,赵军.基于相关文档池建模的查询扩展[J].中文信息学报,2006,20(3):78-83. 被引量：7
8章成志,苏兰芳,苏新宁.基于多语境的相关词自动提取系统的设计与实现[J].现代图书情报技术,2006(9):23-28. 被引量：7
9在发展中追求和谐——从统计数字看浙江科学发展[J].今日浙江,2006(20):22-23.
10武子英,郑家恒.现代汉语缩略语自动识别的方法研究[J].计算机工程与设计,2007,28(16):4052-4054. 被引量：8

同被引文献56

1俞士汶,段慧明,朱学锋,张化瑞.综合型语言知识库的建设与利用[J].中文信息学报,2004,18(5):1-10. 被引量：31
2吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13. 被引量：50
3王海涛,曹存根,高颖.基于领域本体的半结构化文本知识自动获取方法的设计和实现[J].计算机学报,2005,28(12):2010-2018. 被引量：31
4雪艳.关于用XML语言组织蒙古语语料库的设想[J].内蒙古大学学报（哲学社会科学版）,2006,38(1):13-16. 被引量：4
5Serger Brin. Extraction Patterns and Relations from the World Wide Web [C]//WebDB workshop at 6th Intl. Conf. on Extending Database Technology, 1998.
6Keiji Shinzato, Kentaro Torisawa. Acquiring Hyponymy Relations from Web Documents [C]//Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Compu tational Linguistics. Boston, MA, 2004:73 -80.
7Kosuke Tokunaga, Jun'ichi Kazama, Kentaro Torisawa. Automatic Discovery of Attribute Words from Web Documents[C]//Proceedings of the 2 International Joint Conference on Natural Language Processing (IJCNL-05), Jeju Island, Korea,2005 : 106-118.
8Harith Alani, Sanghee Kim, David E Millard, et al. Automatic Extraction of Knowledge from Web Documents[C]//Workshop on Human Language Techonology for the Semantic Web and Web Services, 2nd Int. Semantic Web Conf. Sanibel Island, Florida, USA, 2003.
9Cindy Xide Lin, Bo Zhao, Tim Weninger, et al. Entity Relation Discovery from Web Tables and Links [C]//Proceeding of the 19th International Conference on World Wide Web. New York, USA, 2010.
10Graeme Shanks, Elizabeth Tansley, Jasmina Nuredini, et al. Representing Part-Whole Relationships in Conceptual Modeling: An Empirical Evaluation[C]//Proceedings of 23rd International Conference on Information Systems: ICIS 2002. 2002 : 89-100.

引证文献4

1曹馨宇,曹存根,吴昱明.从Web中获取部分整体关系[J].中文信息学报,2013,27(2):26-33. 被引量：3
2贾真,何大可,尹红风,李天瑞.基于无监督学习的部分-整体关系获取[J].西南交通大学学报,2014,49(4):590-596. 被引量：9
3陆叶,张晓如.基于语义文法的属性知识获取[J].信息技术,2017,41(2):38-42. 被引量：1
4王成平.彝语言语料资源数据库的设计与共享的实现[J].中文信息学报,2016,30(1):129-132 139. 被引量：6

二级引证文献19

1贾真,何大可,尹红风,李天瑞.基于无监督学习的部分-整体关系获取[J].西南交通大学学报,2014,49(4):590-596. 被引量：9
2翟东海,崔静静,聂洪玉,杜佳.基于语义相似度的话题关联检测方法[J].西南交通大学学报,2015,50(3):517-522. 被引量：6
3王李冬,张引,吕明琪.基于词组主题建模的文本语义压缩算法[J].西南交通大学学报,2015,50(4):755-763. 被引量：4
4梁军,张飞云,陈龙,李世浩,顾胜强,张婉婉.一种新型多核判别分析方法[J].西南交通大学学报,2015,50(6):1122-1129.
5徐庆,段利国,李爱萍,阴桂梅.基于实体词语义相似度的中文实体关系抽取[J].山东大学学报（工学版）,2015,45(6):7-15. 被引量：4
6刘婧,赵嵩正,张小娣.基于核的关系抽取研究综述[J].计算机应用研究,2016,33(2):321-329. 被引量：3
7王旭阳,姜喜秋.特定领域概念属性关系抽取方法研究[J].吉林大学学报（信息科学版）,2017,35(4):430-437. 被引量：1
8李慧,柴亚青.基于属性特征的评论文本情感极性量化分析[J].数据分析与知识发现,2017,1(10):1-11. 被引量：17
9杨巍.物联网架构下数据库信息远程共享方法仿真[J].计算机仿真,2018,35(4):457-461. 被引量：9
10阳小华,张硕望,欧阳纯萍.中文关系抽取技术研究[J].南华大学学报（自然科学版）,2018,32(1):66-72. 被引量：3

1曹馨宇,曹存根,吴昱明.从Web中获取部分整体关系[J].中文信息学报,2013,27(2):26-33. 被引量：3
2夏飞,曹馨宇,符建辉,王石,曹存根.基于并列结构的部分整体关系获取方法[J].中文信息学报,2015,29(1):88-96. 被引量：2
3张扬嵩.递归查询构造树形结果集的通用方法[J].电脑编程技巧与维护,2011(15):18-20.
4林海伦,杨晓刚,熊锦华,王元卓,贾岩涛,程学旗.Deep Web数据采集查询构造方法研究[J].计算机科学与探索,2015,9(9):1025-1033. 被引量：2
5郭宇航,车万翔,刘挺.基于语言模型验证的词义消歧语料获取[J].中文信息学报,2008,22(6):38-42. 被引量：4
6陈基漓,牛秦洲.基于用户反馈的兴趣模型在信息检索中的应用[J].信息技术,2008,32(2):19-21.
7赵林亮,王光兴.关系知识表达模式及在专家系统中的应用[J].小型微型计算机系统,1998,19(5):31-35. 被引量：8
8赵林亮,王光兴.关系知识表达模式及在智能管理系统中的应用[J].东北大学学报（自然科学版）,1998,19(3):272-274. 被引量：2
9谢蕙.搜索引擎中结果网页排序方法研究[J].福建电脑,2012,28(5):85-86.
10胡嘉海.基于Lucene的全文搜索引擎的设计与实现[J].安徽科技,2012(12):46-47.

中文信息学报

2011年第5期

浏览历史

内容加载中请稍等...

从Web获取部分整体关系语料的方法被引量：4

参考文献11

二级参考文献32

共引文献42

同被引文献56

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

从Web获取部分整体关系语料的方法 被引量：4

参考文献11

二级参考文献32

共引文献42

同被引文献56

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

从Web获取部分整体关系语料的方法被引量：4