基于浅层文本分析的中文Web信息检索被引量：1

Chinese Web Information Retrieval System Based on Shallow Parsing

下载PDF

导出

摘要为了提高信息检索效率,在中文Web信息检索中引入了浅层文本分析技术。首先提取文本句子的谓词及与谓词直接关联的前置体词和后继体词。然后在将谓词转换成概念化表达的基础上,获取表达文本语义的语义向量。提出了一个语义向量相似度计算算法,用语义向量的相似度来度量文档之间的语义相似度。与主流网络搜索引擎比较,系统查准率方面有了较大提高。 To improve the retrieval performance,shallow parsing technique for text was introduced for Chinese web information retrieval.Firstly,predicate,prepositive nominal and succedent nominal close to the predicate were extracted from Chinese sentence.Then,semantic vector of Chinese text was acquired based on converting predicate and nominal to conception.An algorithm was presented for similarity calculating of semantic vector.Similarity of semantic vector measures semantic similarity between documents.Experimenta...

作者谌志群张国煊

机构地区杭州电子科技大学计算机应用技术研究所

出处《杭州电子科技大学学报（自然科学版）》 2008年第1期48-51,共4页 Journal of Hangzhou Dianzi University：Natural Sciences

基金浙江省自然科学基金资助项目(M603025)

关键词中文信息处理浅层文本分析信息检索语义检索相似度计算 Chinese information processing shallow parsing for text information retrieval semantic-based retrieval similarity calculating

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1[1]Salton G,Fox E A,H Wu.Extended Boolean Information Retrieval[J].Communications of the ACM,1983,26(12):1022-1036.
2[2]Salton G.Introduction to Modern Information Retrieval[M].Boston:McGraw-Hill,1983:36-89.
3[3]Crestani F,Rijsbergen C J.A study of probability kinematics in information retrieval[J].ACM Transactions on Information Systems,1998,16(3):225-255.
4[4]Deerwester S,Dumais S T A.Indexing by Latent Semantic Analysis[J].Journal of the Society for Information Science,1990,41(6):391-407.
5[5]Fung R,Favero B Del.Applying Bayesian Networks to Information Retrieval[J].Communications of the ACM,1995,38(3):42-57.
6孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：39
7梅家驹.同义词词林[M].上海:上海辞书出版社,1989..

二级参考文献29

1周强.一个汉语短语自动界定模型[J].软件学报,1996,7(A00):315-322. 被引量：9
2Abney, 1996b. Partial parsing via finite-state cascades. In Proceedings of the ESSLLI '96 Robust Parsing Workshop.
3Argamon, S., I. Dagon and Y. Krymolowsky. 1998. A memory-based approach to learning shallow natural language patterns. In Proceedings of COLING-ACL '98. Pp. 67-73.
4Brill, Eric. 1995. Unsupervised learning of Disambiguation Rules for part of speech tagging. In Proceedings of the 3rd Workshop on Very Large Corpora. Pp. 1-13.
5Cardie, Claire and David Pierce. 1998. Error-driven pruning of treebank grammars for base noun phrase identification. In Proceedings of COLING-ACL '98. Pp. 218-224.
6Chen, Kuang-hua and Chen, Hsin-Hsi. 1994. Extracting noun phrases from large-scale texts: a hybrid approach and its automatic evaluation. In Proceedings of the 32nd Annual Meeting of the Association for Computational binguistics. Pp. 234-241.
7Chen, Hsin-Hsi and Lee, Yue-Shi. 1995. Development of a partially bracketed corpus with part-of- speech information only. In Proceedings of the 3rd Workshop on Very Large Corpora. Pp. 162-172.
8Church, K. 1988. A stochastic parts program and noun phrase parser for unrestricted text. In Proceedings of the Second Conference on Applied Natural Language Processing. Pp. 136-143.
9Collins, M. 1996. A new statistical parser based on bigram lexical dependencies. In Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics. Pp. 184-191.
10Fano, R. M. 1961. Transmission of lnformation, A Statistical Theory of Communication. MIT Press.

共引文献42

1刘云,俞士汶.“句管控”与中文信息处理[J].汉语学报,2004(2):56-62. 被引量：5
2罗三定,廖程锋.一种新的搜索引擎探讨[J].情报学报,2004,23(4):428-432. 被引量：2
3程葳,赵军,刘非凡,徐波.面向口语翻译的双语语块自动识别[J].计算机学报,2004,27(8):1016-1020. 被引量：3
4许云,樊孝忠,张锋.基于生成语法的英语时态判断[J].计算机工程与应用,2004,40(26):226-228. 被引量：3
5孙广范,宋金平,袁琦.基于混合策略的汉英双向机器翻译系统的设计[J].中文信息学报,2006,20(B03):25-30. 被引量：2
6王蕾,杨季文.基于属性标记的专有名词自动识别研究[J].计算机技术与发展,2006,16(11):195-198.
7黄德根,王莹莹.基于SVM的组块识别及其错误驱动学习方法[J].中文信息学报,2006,20(6):17-24. 被引量：6
8徐昉,宗成庆,王霞.中文Base NP识别:错误驱动的组合分类器方法[J].中文信息学报,2007,21(1):115-119. 被引量：7
9王蕾,李培峰,朱巧明,杨季文.一种基于框架结构的专有名词自动识别方法[J].计算机工程与科学,2007,29(7):141-144.
10徐建军,吴玲达,司光亚,张昱,谢毓湘.战略态势叙事性表现技术研究[J].系统仿真学报,2007,19(11):2500-2502. 被引量：4

同被引文献9

1杨晓兰,钟义信.基于文本理解的自动文摘系统研究与实现[J].电子学报,1998,26(7):155-158. 被引量：18
2王录梅.思维导图:优化学习的有效工具[J].淮阴师范学院学报（自然科学版）,2014,13(1):80-82. 被引量：7
3王新玲,徐健霞,郑清友,张宏.循证医学中文证据检索策略构建的方法[J].中国循证心血管医学杂志,2015,7(1):118-120. 被引量：3
4余一骄,刘芹.大规模中文语料库检索技术研究[J].计算机科学,2015,42(2):217-223. 被引量：4
5张永库,李云峰,孙劲光.基于改进颜色聚合向量与贡献度聚类的图像检索算法[J].计算机科学,2015,42(2):311-315. 被引量：8
6王莉军.海量数据下的文本信息检索算法仿真分析[J].计算机仿真,2016,33(4):429-432. 被引量：16
7汪升华,唐国纯.基于HTML5的三维思维导图软件开发技术研究[J].软件工程,2017,20(10):4-7. 被引量：6
8高源.自然语言处理发展与应用概述[J].中国新通信,2019,21(2):117-118. 被引量：8
9荣垂田,李银银,王琰.中文关键短语自动提取方法研究[J].计算机科学与探索,2019,13(9):1481-1492. 被引量：3

引证文献1

1魏胡弋昕,杨苗苗.关于中文模式下三维思维导图的研究[J].电脑编程技巧与维护,2021(9):149-151.

1牛四强,贺兴时,王慧敏.基于粒子群的大量信息模糊检索[J].西南科技大学学报,2013,28(4):53-56. 被引量：1
2刘晓.提高信息检索效率的途径——提高查全率与查准率[J].科技信息,2013(22):236-236. 被引量：1
3李明江.基于SOA的线性回归散布型数据一致性集成分析[J].科技通报,2015,31(4):73-75. 被引量：1
4田正军,张鸿彦.文本自动分类在邮件过滤系统中的应用[J].郑州经济管理干部学院学报,2005,20(2):90-92.
5杨佳,张金广,杨龙,江萍,魏晓莉.基于本体概念集合相似度的语义Web服务匹配[J].计算机技术与发展,2012,22(8):56-59. 被引量：1
6许丽莉,贾保先,李寰.Web数据挖掘在农业电子商务中的应用[J].安徽农业科学,2012,40(7):4444-4445. 被引量：3
7田丰,桂小林,杨攀,王刚,郭岳龙.采用类别相似度聚合的关联文本分类方法[J].西安交通大学学报,2012,46(12):6-11. 被引量：8
8李琼.基于本体的语义网检索模型技术研究[J].信息系统工程,2016,29(1):132-132.
9周炎涛,唐剑波,吴正国.基于向量空间模型的多主题Web文本分类方法[J].计算机应用研究,2008,25(1):142-144. 被引量：13
10吕小勇,石洪波.基于频繁项集的多标签文本分类算法[J].计算机工程,2010,36(15):83-85. 被引量：4

杭州电子科技大学学报（自然科学版）

2008年第1期

浏览历史

内容加载中请稍等...

基于浅层文本分析的中文Web信息检索被引量：1

参考文献7

二级参考文献29

共引文献42

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于浅层文本分析的中文Web信息检索 被引量：1

参考文献7

二级参考文献29

共引文献42

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于浅层文本分析的中文Web信息检索被引量：1