摘要
在信息检索中引入NLP技术是信息检索发展的主要趋势 ,本文将NLP中较为成熟的词性标注技术加入信息检索 ,采用大规模TREC数据集 ,试图发现词性标注对检索系统性能的影响。笔者在SMART检索系统上使用不同标注集、不同索引项权重进行了检索实验。实验表明 ,在信息检索中加入词性标注信息可能会对某些特定Topic和Document的检索效果有所改进 ,但词性标注的影响能力弱于索引项权重选择的影响能力。词性标注对检索性能的影响涉及到Topic和Document中的具体用词 ,普遍规律有待进一步研究。
NLP technology combined with information retrieval has become mainstream in the IR field.In this article,the authors combine POS tagging with IR,in an attempt to find the effects of POS tagging on the performance of IR systems.Using the SMART system,the authors performed experiments with different tagsets and different term vector weighting schemes.According to the experiments,we found that retrieval performance using tags improved in certain topics and documents.The effects,however,are inferior to the assignment of appropriate term weighting.The effects concern concrete words in topics and documents.We still need further research to find general rules.
出处
《中文信息学报》
CSCD
北大核心
2005年第2期58-65,共8页
Journal of Chinese Information Processing
基金
国家"86 3"计划资助项目 (2 0 0AA114 2 10
2 0 0 2AA1170 10 - 8)
国家自然科学基金资助项目 (6 0 2 0 30 2 2 )
关键词
人工智能
自然语言处理
信息检索
向量空间模型
词性标注
SMART
artificial intelligence
natural language processing
information retrieval
vector space model
part-of-speech tagging
SMART