期刊文献+

词性标注对信息检索系统性能的影响 被引量:9

Effects of POS Tagging on Performance of IR Systems
在线阅读 下载PDF
导出
摘要 在信息检索中引入NLP技术是信息检索发展的主要趋势 ,本文将NLP中较为成熟的词性标注技术加入信息检索 ,采用大规模TREC数据集 ,试图发现词性标注对检索系统性能的影响。笔者在SMART检索系统上使用不同标注集、不同索引项权重进行了检索实验。实验表明 ,在信息检索中加入词性标注信息可能会对某些特定Topic和Document的检索效果有所改进 ,但词性标注的影响能力弱于索引项权重选择的影响能力。词性标注对检索性能的影响涉及到Topic和Document中的具体用词 ,普遍规律有待进一步研究。 NLP technology combined with information retrieval has become mainstream in the IR field.In this article,the authors combine POS tagging with IR,in an attempt to find the effects of POS tagging on the performance of IR systems.Using the SMART system,the authors performed experiments with different tagsets and different term vector weighting schemes.According to the experiments,we found that retrieval performance using tags improved in certain topics and documents.The effects,however,are inferior to the assignment of appropriate term weighting.The effects concern concrete words in topics and documents.We still need further research to find general rules.
出处 《中文信息学报》 CSCD 北大核心 2005年第2期58-65,共8页 Journal of Chinese Information Processing
基金 国家"86 3"计划资助项目 (2 0 0AA114 2 10 2 0 0 2AA1170 10 - 8) 国家自然科学基金资助项目 (6 0 2 0 30 2 2 )
关键词 人工智能 自然语言处理 信息检索 向量空间模型 词性标注 SMART artificial intelligence natural language processing information retrieval vector space model part-of-speech tagging SMART
  • 相关文献

参考文献1

二级参考文献4

  • 1王惠 朱学锋.现代汉语名词子类的划分[A]..1998现代汉语语法学国际学术会议论文集[C].济南:山东教育出版社,1998.852-863.
  • 2王惠 刘群 詹卫东.现代汉语语义词典的设计与概要[A]..1998中文信息处理国际会议论文集[C].北京:清华大学出版社,1998.361-367.
  • 3童翔.[D].北京:清华大学图书馆,1999.
  • 4刘开瑛.汉语全文检索中的义项标注技术研究[A]..计算语言学进展与应用[C].北京:清华大学出版社,1995..

共引文献4

同被引文献112

引证文献9

二级引证文献98

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部