基于潜在语义分析的BBS文档Bayes鉴别器被引量：17

Bayes Discriminator for BBS Documents Based on Latent Semantic Analysis

下载PDF

导出

摘要电子公告栏 (BBS)的滥用是一种以信息污染为特色的社会问题 ,对BBS文档进行鉴别已成为信息安全重要内容之一 .该文融合了数据挖掘技术、数理统计技术和自然语言理解技术 ,提出了基于潜在语义分析与Bayes分类的BBS文档鉴别方法 :利用自然语言处理技术从训练文档中抽取典型短语集 ;通过潜在语义分析进行典型短语同义归约 ,应用关联规则采掘技术提高典型短语间的独立性 ;用Bayes分类器对BBS文档进行鉴别 .该文还对影响系统的关键参数进行了大量的讨论和测试 ,实验表明该方法对于BBS文档的鉴别是可行而有效的 . With the rapid development of Internet, the abuse and misuse of BBS become a social problem of information pollution and call on the demand to the discrimination techniques for BBS document. Borrowing the techniques from data mining, probability-statistics and Natural Language Understanding, this paper proposes a new discrimination method for BBS document, called Bayes Discrimination based on Latent Semantic Analysis(BDLSA). The main steps of the new method includes following steps: (1)Makes typical phrase set by extracting the typical sentences from training documents in preprocessing stage with natural language understanding techniques.(2)Applies synonymy reduction on typical phrases by Latent Semantic Analysis.(3)Discovers the association rules between typical phrases to increase the independency of phrases so that the traditional Bayes discriminator works efficiently.(4)Discriminates BBS document by Bayes classifier. The algorithms to construct typical phrase set and to reduce synonymy are proposed and implemented. The experiment is based on real document form Web, with training data of 583 documents and test-data of 308 documents, the correctness is up to 75%. This shows the effetiveness and validation of the new method.

作者刘昌钰唐常杰于中华杜永萍郭颖

机构地区四川大学计算机科学系山西大学计算机科学系

出处《计算机学报》 EI CSCD 北大核心 2004年第4期566-572,共7页 Chinese Journal of Computers

基金国家自然科学基金 ( 60 0 73 0 46) 高等学校博士学科点专项科研基金( 2 0 0 2 0 610 0 0 7)资助

关键词数据挖掘关联规则 BAYES分类潜在语义分析 BBS 电子公告栏 data mining associate rule Bayes classifier latent semantic analysis BBS

分类号 TP393.094 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Lang K.,News Weeder. Learning to filter net-news. In: Proceedings of the 12th International Conference on Machine Learning, 1995, 331～339
2Chakrabarti S., Dom B., Agrawal R., Raghavan P.. Using taxonomy, discriminates and signatures for navigating in text databases. In: Proceedings of the 23rd International Conference on Very Large Databases, Athens, Greece 26-29, 1997, 446～455
3Tang Chang-Jie, Li Tong, Liu Chang-Yu, Ge Yin. Classify web document by key phrase understanding. In: Proceedings of WIAM2001(International conference for Web Information Age 2001), 2001, 80～88
4Deerwester S., Dumais S T et al.. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990, 41(6): 391～407
5Dumais S.T..Latent Semantic Indexing(LSI) and TREC-2. In:Harman D.ed..The second text retrieval conference(TREC2), National Institute of Standards and Technology Special Publication, Maryland, USA, 1994, 105～116
6Sturt G.W.. Introduction to Matrix Computing. Shanghai: Shanghai Publishing Company, 1980(in Chinese)(G.W.斯图尔特.矩阵计算引论.上海:上海科学技术出版社,1980)
7李通刘昌钰唐常杰.基于自然语言理解技术的Web文件分类与过滤[A]..第17界全国数据库学术会议论文集[C].保定,2000,27.136-140.
8Agrawal R., Srikant R.. Fast algorithms for mining association rules. In: Proceedings of the 20th Very Large Database Conference, Santiago, Chile, 1994, 487～499
9于中华,唐常杰,张天庆,朱敏,廖果,李志蜀,沙芦华.“信译”英汉机器翻译系统的语法分析策略[J].小型微型计算机系统,2000,21(3):316-318. 被引量：4
10Zuo Jie, Tang Chang-Jie, Zhang Tian-Qing. Mining Predicate Association Rule by Gene Expression Programming. LNCS(Lecture Notes in Computer Science) 2419, Berling Heidelberg: Springer-Verlag, 2002, 92～103

二级参考文献3

1Tang Changjie，J Comput Sci Technol，1996年，11卷，4期，365页
2刘开瑛，自然语言处理，1991年
3牛津现代高级英汉双解词典，1988年

共引文献3

1张天庆,唐常杰,左劼.基于自然语言语义分析的Internet文件分类与过滤[J].计算机应用,2001,21(9):4-7. 被引量：5
2蔡霞,张森.自然语言理解在Web数据挖掘中的应用[J].计算机工程与设计,2003,24(11):1-3. 被引量：4
3周梦麟,张森.一种基于自然语言理解的Web挖掘模型[J].浙江工业大学学报,2004,32(1):95-98. 被引量：1

同被引文献188

1刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005,45(S1):1783-1786. 被引量：11
2万小军,杨建武.在线新闻主题检测系统的设计与应用[J].华南理工大学学报（自然科学版）,2004,32(z1):42-46. 被引量：7
3贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：59
4李良炎,何中市,易勇.基于词联接的语义分析原理及其算法[J].重庆大学学报（自然科学版）,2004,27(8):69-74. 被引量：2
5钱铁云,王元珍,冯小年.结合类频率的关联中文文本分类[J].中文信息学报,2004,18(6):30-36. 被引量：12
6苏贵洋,马颖华,李建华.一种基于内容的信息过滤改进模型[J].上海交通大学学报,2004,38(12):2030-2034. 被引量：22
7刘云峰,齐欢,代建民.潜在语义分析在中文信息处理中的应用[J].计算机工程与应用,2005,41(3):91-93. 被引量：18
8王海明,韩瑞霞.国内BBS研究现状述评[J].兰州石化职业技术学院学报,2004,4(4):25-29. 被引量：13
9奚伟鹏,李昕,蒋凯,武港山.面向网上论坛的信息抽取技术[J].计算机工程,2005,31(4):66-68. 被引量：8
10孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：39

引证文献17

1郑佳谦,徐隽,姚静,牛军钰.论坛社区用户时空特征建模与挖掘[J].计算机研究与发展,2007,44(z3):7-12. 被引量：1
2郭庆琳,樊孝忠,柳长安.文本聚类在自动文摘中的应用研究[J].计算机应用,2005,25(5):1036-1038. 被引量：4
3郭庆琳,樊孝忠,柳长安.基于文本聚类的自动文摘系统的研究与实现[J].计算机工程,2006,32(4):30-32. 被引量：8
4张秋余,张博,迟宁.自然语言语义理解在反垃圾邮件中的应用[J].计算机应用,2006,26(6):1315-1317. 被引量：5
5余正涛,樊孝忠,郭剑毅,耿增民.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1889-1893. 被引量：46
6谌志群,张国煊.文本挖掘与中文文本挖掘模型研究[J].情报科学,2007,25(7):1046-1051. 被引量：55
7王素格,李伟.面向中日关系论坛的情感分类问题研究[J].计算机工程与应用,2007,43(32):174-177. 被引量：4
8程亮,何志浩,李龙.内容安全监控下的中文BBS结构和用语研究[J].科技情报开发与经济,2008,18(1):96-98. 被引量：1
9吴昊,耿焕同,吴祥.一种基于聚类分析的BBS主题发现算法研究[J].安徽师范大学学报（自然科学版）,2009,32(1):9-13. 被引量：7
10张珩.浅析基于BBS数据挖掘的研究[J].科技信息,2009(15):58-58. 被引量：1

二级引证文献171

1沈昕怡,柯艺璐,徐成龙.基于文本挖掘的我国全民健身政策量化评价[J].体育视野,2023(24):6-8.
2余洋.聚类在信息检索领域中的应用研究[J].情报理论与实践,2007,30(3):405-408. 被引量：3
3陈明晶.潜在语义分析方法在主观题评判中的应用[J].浙江科技学院学报,2007,19(2):93-96. 被引量：2
4李建锋,陈佳良,张美华.一种基于聚类-遗传算法的文摘提取方法研究[J].计算技术与自动化,2007,26(3):38-40. 被引量：1
5孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6
6袁占亭,张秋余,李丹,张博.基于语义网格的反垃圾邮件应用架构设计[J].计算机工程与设计,2007,28(21):5206-5209. 被引量：1
7蒋秋香,叶苗,麦范金.垃圾邮件过滤技术的发展与现状[J].电脑知识与技术,2007(11):708-709. 被引量：3
8肖建国.试论文本挖掘及其应用[J].图书馆学研究,2008(4):22-24. 被引量：10
9刘建强.“机设基础”精品课程智能答疑系统研究与设计[J].西安航空技术高等专科学校学报,2008,26(3):77-80. 被引量：1
10魏保子,王儒敬.隐含语义索引在农业技术问答系统中的应用[J].微电子学与计算机,2008,25(7):48-51. 被引量：1

1孔鹏.基于Struts框架的企业BBS系统设计[J].福建电脑,2011,27(5):96-97. 被引量：1
2张嫣,姚耀文.Linux下电子公告栏系统的实现[J].计算机应用,2001,21(z1):92-94.
3BBS[J].科技展望（幻想大王）,2005(02X):26-26.
4刘子轶,郝玲.反垃圾邮件策略的研究[J].机电产品开发与创新,2009,22(2):115-117.
5王旭仁,何发镁.基于Nave Bayes分类的网络安全审计数据分析研究[J].计算机工程与应用,2007,43(31):154-155.
6付小勇,杨建祥,谭靖.基于统计的遥感图像分类方法[J].林业调查规划,2005,30(6):20-22. 被引量：2
7范美英.基于MVC架构的BBS的设计与实现思路[J].光盘技术,2009(6):47-48.
8晓满.因特网功能简介(三)[J].中国商检,1998(6):15-15.
9罗可,吴杰.怎样获得有效的关联规则[J].小型微型计算机系统,2002,23(6):711-713. 被引量：12
10朱群雄,李芳.过程工业中关联规则的采掘[J].计算机工程与应用,2002,38(14):188-189. 被引量：3

计算机学报

2004年第4期

浏览历史

内容加载中请稍等...

基于潜在语义分析的BBS文档Bayes鉴别器被引量：17

参考文献10

二级参考文献3

共引文献3

同被引文献188

引证文献17

二级引证文献171

相关作者

相关机构

相关主题

浏览历史

基于潜在语义分析的BBS文档Bayes鉴别器 被引量：17

参考文献10

二级参考文献3

共引文献3

同被引文献188

引证文献17

二级引证文献171

相关作者

相关机构

相关主题

浏览历史

基于潜在语义分析的BBS文档Bayes鉴别器被引量：17