使用否定选择算法改进文本过滤被引量：2

Using a Negative-Selection Algorithm to Improve Text Filtering

下载PDF

导出

摘要本文针对基于关联规则的文本过滤器设计做了如下探索:(1)针对中文网络语言的特点,引入n-Gram方法提取文本的特征;(2)提出边界样本的概念;(3)在设计基于关联规则的文本过滤器时,引进了否定选择算法,采用否定选择算法对过滤器的检测器集合进行自体耐受,最终建立高准确率的文本过滤器。实验表明,经过自体耐受的过滤器可以有效地提高过滤准确率。 As for the text filter design based on association rules, the paper makes the following efforts：（1）As for the charateristics of the Chinese web language, we introduce the n-Gram method to extract text features; （2）We propose the concept of edge sample; （3）When designing the text filters based on association rules, we introduce a negative-selection algorithm to make the filters＇ detector set tolerant, and finally build a high-precision text filter. Experiments show that the filters after proper toleration can effectively increase the precision of filtering.

作者张红梅王利华

机构地区宁波工程学院电子与信息工程学院攀枝花学院电气信息与工程学院

出处《计算机工程与科学》 CSCD 2008年第8期61-64,共4页 Computer Engineering & Science

关键词文本过滤否定选择算法 N-GRAM 关联规则 text filtering negative-selection algorithm n-Gram association rule

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Gonzalez F. Combining Negative Selection and Classification Techniques for Anomaly Detection [C]//Proc of the 2002 Congress on Evolutionary Computation, 2002.
2Liu B, Hsu W,Ma Y. Integrating Classification and Association Rule Mining[C]//Proc of KDD'98,1998.
3Zipf George K. Human Behavior and the Principle of Least Effort: An Introduction to Human Ecology[M]. Reading Mass: Addison-Wesley, 1949.
4Cavnar W B. N-Grarrr-Based Text Categorization [C]//Proc of the Syrnp on Document Analysis and Information Retrieval, 1994:171-179,
5Han J, Pei J, Yin Y. Mining Frequent Patterns without Candidate Generation[C]//Proc of SIGMOD'00,2000.

同被引文献15

1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：27
2刘新斌,李俊.一种基于N-gram组合的中文垃圾邮件过滤方法[J].微电子学与计算机,2004,21(12):85-91. 被引量：5
3孙铁利,刘延吉.中文分词技术的研究现状与困难[J].信息技术,2009,33(7):187-189. 被引量：39
4姚全珠,宋志理,彭程.基于LDA模型的文本分类研究[J].计算机工程与应用,2011,47(13):150-153. 被引量：62
5张培晶,宋蕾.基于LDA的微博文本主题建模方法研究述评[J].图书情报工作,2012,56(24):120-126. 被引量：61
6刘海峰,刘守生,姚泽清.文本分类中基于训练样本空间分布的K近邻改进算法[J].情报学报,2013,32(1):80-85. 被引量：9
7崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究[J].计算机仿真,2013,30(2):299-302. 被引量：85
8张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(6):1587-1590. 被引量：80
9刘颖.用隐马尔柯夫模型对汉语进行切分和标注排歧[J].计算机工程与设计,2001,22(4):58-62. 被引量：11
10李湘东,巴志超,黄莉.基于语料信息度量的文本分类性能影响研究[J].情报杂志,2014,33(9):157-162. 被引量：5

引证文献2

1李湘东,高凡,丁丛.LDA模型下不同分词方法对文本分类性能的影响研究[J].计算机应用研究,2017,34(1):62-66. 被引量：9
2高森,严曙,崔超远,孙丙宇,汪六三.基于联合分类器过滤噪声的微博主题发现[J].计算机系统应用,2018,27(1):132-136. 被引量：3

二级引证文献12

1袁创国.浓香型白酒生产如何改造低产质窖池[J].酿酒科技,2000(3):40-41.
2韩耀廷,许志伟,刘利民.基于Storm云平台的增量文本分类机制研究[J].内蒙古工业大学学报（自然科学版）,2018,37(4):279-286.
3董放,刘宇飞,周源.基于LDA-SVM论文摘要多分类新兴技术预测[J].情报杂志,2017,36(7):40-45. 被引量：38
4高森,严曙,崔超远,孙丙宇,汪六三.基于联合分类器过滤噪声的微博主题发现[J].计算机系统应用,2018,27(1):132-136. 被引量：3
5曹奔,夏勉,任志洪,林秀彬,徐升,赖丽足,王琪,江光荣.大数据时代心理学文本分析技术--“主题模型”的应用[J].心理科学进展,2018,26(5):770-780. 被引量：17
6李心蕾,王昊,刘小敏,邓三鸿.面向微博短文本分类的文本向量化方法比较研究[J].数据分析与知识发现,2018,2(8):41-50. 被引量：17
7王飞雪,李芳.基于主题加权LDA模型的情感分类方法[J].西南师范大学学报（自然科学版）,2018,43(9):38-44. 被引量：4
8杨捷,段明明,洪峰,张思路,江雄.浅谈文本智能分析技术在电网客户工单语义分析中的应用[J].科学与信息化,2019,0(1):9-10.
9尤众喜,华薇娜,潘雪莲.中文分词器对图书评论和情感词典匹配程度的影响[J].数据分析与知识发现,2019,3(7):23-33. 被引量：23
10谢红霞,陈创奇.基于数据分析的抖音短视频对杭州西湖旅游的影响研究[J].计算机时代,2020,0(5):112-115. 被引量：4

1李运田,吴琼,郑献卫.改进的TF-IDF模型在特征抽取中的应用[J].工业控制计算机,2014,27(2):51-51. 被引量：3
2王小华.如何正确对待网络语言[J].中国新技术新产品,2008(10):180-180.
3王航,邢松.浅析网络语言的特点、局限性及其规范[J].电脑知识与技术,2012,8(3):1524-1525. 被引量：4
4金兴玉.浅议网络语言[J].黑龙江科技信息,2010(28):204-204.
5王鸿,余建桥.基于N-Gram的Deep Web接口属性抽取[J].计算机与现代化,2010(12):135-138. 被引量：1
6熊伟,吴钊,李兵,谷琼,宁彬.一种基于语义的时空敏感社会关系模型[J].小型微型计算机系统,2016,37(6):1207-1211. 被引量：1
7周霜菊,孙济庆.基于Agent的Web知识过滤器设计[J].计算机与数字工程,2005,33(3):85-89.
8夏成锋.基于n-gram及SVM的中文垃圾邮件过滤[J].广东广播电视大学学报,2008,17(1):100-103.
9罗毅,李利,谭松波,程学旗.基于中文微博语料的情感倾向性分析[J].山东大学学报（理学版）,2014,49(11):1-7. 被引量：11
10杨维东.网络语言的特点和发展趋势分析[J].西安邮电学院学报,2009,14(2):173-175. 被引量：3

计算机工程与科学

2008年第8期

浏览历史

内容加载中请稍等...

使用否定选择算法改进文本过滤被引量：2

参考文献5

同被引文献15

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

使用否定选择算法改进文本过滤 被引量：2

参考文献5

同被引文献15

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

使用否定选择算法改进文本过滤被引量：2