摘要
在电子商务网络资讯管理系统中,为了将用户检索结果网页按照不同主题划分显示给用户,帮助用户快速定位所需信息,有效完善用户体验,针对电子商务领域网页文本聚类面临的问题,提出融合自定义领域词典、基于聚类特征词典的特征选择和基于类别领域词表的初始中心点构造等策略的解决方案。实验结果表明,该方案能有效提高电子商务领域的网页文本聚类质量。对于其它特定领域文本聚类研究具有一定的参考价值。
In management information system for EC network resources, in order to display Web pages retrieval results according to different topics to help the users quickly locating the required information and effectively improving user experience, the solution was put forword for related problems. The solution includes user-defined domain dictionary, feature selection based on clustering features dictionary and initial center point construction based on topics domain words. From experimental results, this solution can effectively improve the quality of text clustering for EC Web pages. The text clustering solution can be extended to other specific domains.
出处
《计算机与现代化》
2014年第5期70-73,共4页
Computer and Modernization
基金
北京高等学校青年英才计划项目(YETP1379)
中华女子学院2010年度科研规划课题终期成果(KG10-04005)
关键词
文本聚类
分词
特征选择
网页检索
text clustering
k-means
segmentation
feature selection
Web pages retrieval