基于聚类的文本过滤模型被引量：9

Text filtering model based on clustering analysis

下载PDF

导出

摘要为了帮助用户在因特网上搜索感兴趣的在线文本 ,提出了基于聚类的文本过滤模型 .其基本思想是 :在预定的层次目录之下 ,根据用户给出的过滤模板进行动态扩张 ,以便于全面地反映用户信息需求 .然后 ,通过对扩张模板的聚类分析 ,使得每一类由表达相同或相近兴趣的用户模板组成 .匹配时 ,先将文本推送到相应的模板类中 ,再计算与具体模板的相似度 ,获得最终的匹配结果。 The paper presents the text filtering model based on clustering in order to help users search the texts related to their interests on the internet. Its main idea is shown as follows: Under the hierarchical categories pre\|arranged by the model, it applied the query expansion approach to the user profiles based on the co\|occurrence matrix, and then it divided the expanded user profiles into several classes by clustering analysis. In the course of matching texts and user profiles, it first pushes the texts to the relevant profile classes, and it ranks the texts according to the similarities between texts and user profiles. The experiments show that it remarkably improves the efficiency of the text filtering.

作者林鸿飞马雅彬

机构地区大连理工大学计算机系内蒙古民族大学外语系

出处《大连理工大学学报》 CAS CSCD 北大核心 2002年第2期249-252,共4页 Journal of Dalian University of Technology

关键词语言处理聚类分析文本过滤模型用户模板查询扩张模板扩张 speech processing clustering analysis/text filtering user profile query expansion

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1林鸿飞,李业丽,姚天顺.中文文本过滤的信息分流机制[J].计算机研究与发展,2000,37(4):470-476. 被引量：16
2林鸿飞,战学刚,姚天顺.基于概念扩充的中文文本过滤模型[J].计算机科学,2000,27(2):88-90. 被引量：7

二级参考文献11

1吴立德，大规模中文文本处理，1997年
2Yan T W，Proc of the 1995 USENIX Technical Conf，1995年
3姚天顺，自然语言理解，1995年
4Yan T W，Proc of the Third Intl Conf on Parallel and Distributed Information System，1994年，89页
5Eichstaedt M，6th International Workshop on Solving Irregularly Structured Problems in Paralle，1998年，17页
6程学旗，中文信息处理国际会议论文集，1998年，418页
7Lu Qi，Computer Networks ISDN Systems，1997年，30卷，7期，443页
8姚天顺，自然语言理解，1995年
9Yan T W，Proc of 3 rd International Conference on Parallel andDistributed Information Sys，1994年，89页
10Yan T W，Proc of 1995 U SENIX Technical Conf.Http://www-db.standford.edu/pub/yan

共引文献17

1胡俊华,杨波,李金屏.自然语言理解研究略述[J].济南大学学报（社会科学版）,2001,11(5):58-62. 被引量：8
2梁开健.基于DCSSM的文本特征提取及文本挖掘研究[J].自动化技术与应用,2005,24(5):54-56. 被引量：2
3白丽君.基于内容和协作的信息过滤方法研究[J].情报学报,2005,24(3):304-308. 被引量：14
4刘小冬.自然语言理解综述[J].统计与信息论坛,2007,22(2):5-12. 被引量：14
5明均仁,张帆.网络文本信息过滤的意义及其模型初探[J].图书与情报,2007(4):37-42. 被引量：4
6林鸿飞,杨志豪,赵晶.中文文本的信息自动抽取和相似检索机制[J].小型微型计算机系统,2007,28(11):2074-2079. 被引量：3
7李晓婷,张磊,沈建京.基于LSA的Web信息采集和统计服务[J].计算机工程,2008,34(15):83-84.
8何利益,邱勇刚.互联网特定领域信息搜集系统设计[J].信息安全与通信保密,2008,30(10):55-56. 被引量：1
9郝海涛.基于向量机的文本分类中词典结构研究[J].福建电脑,2009,25(3):83-84.
10王鑫,安东洪,姜丽,王洪军.影像诊断结论词频统计研究[J].吉林医学,2009,30(7):662-663. 被引量：1

同被引文献96

1杨寿勋.《统计自然语言处理基础》评介[J].外语教学与研究,2001,33(4):317-319. 被引量：6
2常青.文本挖掘挖掘知识[J].中国计算机用户,2004(24):49-50. 被引量：10
3刘泉凤,陆蓓,王小华.文本挖掘中聚类算法的比较研究[J].计算机时代,2005(6):7-8. 被引量：8
4陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
5郭庆琳,樊孝忠,柳长安.基于文本聚类的自动文摘系统的研究与实现[J].计算机工程,2006,32(4):30-32. 被引量：8
6贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：235
7赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：24
8黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
9赵鹏,蔡庆生.一种基于《知网》的中文文本聚类算法的研究[J].计算机工程与应用,2007,43(12):162-163. 被引量：7
10何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究[J].中文信息学报,2007,21(4):55-60. 被引量：11

引证文献9

1张玉叶,李连,王春歆.个性化主动信息服务实现研究[J].情报杂志,2005,24(8):71-72. 被引量：2
2刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
3刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
4吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量：21
5张浩.基于向量空间模型的层次聚类算法在文本挖掘中的应用[J].温州职业技术学院学报,2013,13(1):84-86. 被引量：1
6史梦洁.文本聚类算法综述[J].现代计算机,2014,20(2):3-6. 被引量：7
7姚长青,杜永萍.降维技术在专利文本聚类中的应用研究[J].情报学报,2014,33(5):491-497. 被引量：13
8于童.文本聚类在搜索引擎中的应用研究[J].科技经济市场,2016(8):187-188.
9吴湘华,曹丽君.可变属性粒度的中文文本概念格聚类研究[J].电脑知识与技术,2019,15(9Z):27-28.

二级引证文献131

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
3庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量：10
4冯小婵.基于用户隐性需求显化的互动式服务组织[J].情报杂志,2006,25(10):90-92. 被引量：13
5孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
6汪琴,安贺意,秦颖.网络信息过滤和个性化信息服务[J].情报科学,2007,25(6):858-863. 被引量：8
7张云,冯博琴,麻首强,刘连梦.蚁群-遗传融合的文本聚类算法[J].西安交通大学学报,2007,41(10):1146-1150. 被引量：15
8王晓东,郭雷,方俊,杨宁,邓涛.一种基于本体的抽象度可调文档聚类[J].计算机工程与应用,2007,43(29):172-175. 被引量：3
9王凌峰.基于构成要素的聚类算法[J].统计与决策,2007,23(19):26-28. 被引量：1
10谷波,李济洪,刘开瑛.基于COSA算法的中文文本聚类[J].中文信息学报,2007,21(6):65-70. 被引量：9

1尤文建,李绍滋,李堂秋.基于词汇链的文本过滤模型[J].计算机应用研究,2003,20(9):32-35. 被引量：9
2朱振方,刘培玉,李少辉,赵静,王乾龙.基于遗传算法的文本过滤模型及收敛性分析[J].中文信息学报,2011,25(5):83-88.
3陈江兵,张巍.基于状态转换方法的不良信息文本过滤模型[J].江西教育学院学报,2005,26(6):22-24.
4赵丰年,刘林,商建云.基于概念的文本过滤模型[J].计算机工程与应用,2006,42(4):186-188. 被引量：11
5李嘉俊,郑宇,吴耿锋.基于领域本体的文本过滤模型[J].计算机工程与设计,2008,29(21):5555-5558. 被引量：4
6尤文建,李绍滋,李堂秋.基于概念扩充的文本过滤模型[J].计算机工程与应用,2003,39(25):74-77. 被引量：9
7滕少华,张巍,黎嘉喜.基于规则演算的不良信息文本过滤模型[J].计算机应用与软件,2004,21(3):83-85. 被引量：3
8李虎,邹鹏,贾焰,周斌.一种基于MapReduce的分布式文本数据过滤模型研究[J].信息网络安全,2011(9):91-93.
9许满英,张永奎.基于突发事件新闻标题的文本过滤模型[J].电脑开发与应用,2010,23(4):1-2.
10刘斌,张楠.基于LS-SVM的在线文本识别方法[J].微电子学与计算机,2009,26(3):192-194. 被引量：2

大连理工大学学报

2002年第2期

浏览历史

内容加载中请稍等...

基于聚类的文本过滤模型被引量：9

参考文献2

二级参考文献11

共引文献17

同被引文献96

引证文献9

二级引证文献131

相关作者

相关机构

相关主题

浏览历史

基于聚类的文本过滤模型 被引量：9

参考文献2

二级参考文献11

共引文献17

同被引文献96

引证文献9

二级引证文献131

相关作者

相关机构

相关主题

浏览历史

基于聚类的文本过滤模型被引量：9