摘要
Web文档聚类在Web信息检索中起着重要的作用。文中提出了一种新的Web文档聚类和检索算法。该算法采用有序聚类的方法,根据Web文档的物理结构概括其语义段落和提取相应的语义特征,并以此作为文档检索的基础;在此基础上,根据用户的检索要求直接在文档的语义段落层次计算其相似性,大大提高了检索的精度和效率。实验结果表明,文中提出的算法具有一定的实用性。
This paper adopts a clustering and merging method to form semantic structural of Web document.Information retrieval is implemented by matching
出处
《计算机工程与应用》
CSCD
北大核心
2001年第20期7-9,共3页
Computer Engineering and Applications
基金
国家高技术研究发展计划863项目(编号863-306-QN2000-5)
关键词
文档聚类
语义结构
信息检索
文档检索
Web
Internet
语义特征
and semantic character structure correspond to documents according to similarity.and feeds back interested content to user directly.Keywords :Web document clustering,Semantic structure,Information retrieve