期刊文献+

中文信息检索引擎中的分词与检索技术 被引量:48

Word Segment and Search Techniques for Chinese Information Search Engines
在线阅读 下载PDF
导出
摘要 文中论述了在开发中文信息检索系统中所涉及到的两项关键技术 ,即中文分词技术和检索技术。针对中文分词技术 ,介绍了一种改进的正向最大匹配切分算法 ,以及为消除歧义引入的校正策略 ,并在此基础上结合统计方法处理未登录词。针对检索技术 ,综述了几种最常用的检索模型的原理 ,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试 。 Two key techniques in the development of Chinese Information Retrieval System are discussed in this paper, i.e., Chinese word segmentation and search technique. For Chinese word segmentation, the paper presents an improved MM segmentation algorithm, the revise strategy for disambiguation, and the statistic method for unknown words recognition based on the previous methods. For search technique, the paper summarizes the principle of several kinds of search models, and analyzes the advantages and disadvantages of each model simply. At last, the given segmentation algorithm is evaluated, and the results reveal that the veracity and efficiency of the algorithm can satisfy the applied request.
作者 吴栋 滕育平
出处 《计算机应用》 CSCD 北大核心 2004年第7期128-131,共4页 journal of Computer Applications
关键词 信息检索 搜索引擎 分词技术 检索技术 information retrieval search engine word segmentation search technique
  • 相关文献

参考文献4

  • 1Salton G, Wong A, Yang CS. On the specification of term values in automatic indexing[ J]. Journal of Documentation, 1973, 29 (4):351 - 372.
  • 2严威,赵政.开发中文搜索引擎汉语处理的关键技术[J].计算机工程,1999,25(6):5-6. 被引量:24
  • 3姚天顺 朱靖波.自然语言理解[M](第2版)[M].北京:清华大学出版社,2002..
  • 4MitchellTM著 曾华军 张银奎译.机器学习[M].北京:机械工业出版社,2003..

二级参考文献6

  • 1江志军.用JAVA实现Internet中文搜索引擎:硕士学位论文[M].天津:天津大学,1998..
  • 2王永成.中文信息处理技术及其应用基础[M].上海:上海交通大学出版社,1992..
  • 3张晓辉,小型微型计算机系统,1998年
  • 4江志军,硕士学位论文,1998年
  • 5王永成,中文信息处理技术及其应用基础,1992年
  • 6张晓辉,邵华,常桂然.WWW上的信息发现与搜索引擎技术[J].小型微型计算机系统,1998,19(6):66-71. 被引量:39

共引文献67

同被引文献240

引证文献48

二级引证文献148

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部