文本分类器性能评估指标被引量：33

Performance Evaluation Metric for Text Classifiers

下载PDF

导出

摘要讨论了用传统性能评估指标(精度和错误率)评估文本分类器时面临的困难,分析了目前几种常用的文本分类器性能评估指标:查全率-查准率曲线、AUROC、F1值以及BEP值的优点与不足,并提出了两种新的可用于文本分类器的性能评估指标。 Afterdiscussing on the deficiency of accuracy and error rate as performance metrics for text categorization problems, this paper analyzes the strength and shortcoming of recall-precision curve, area under the ROC curve, F1value and break-even point, which are the most prevailing performance metrics for text classifiers, and proposes two kinds of new performance metric for text classifier.

作者宋枫溪高林

机构地区炮兵学院南京理工大学计算机系

出处《计算机工程》 CAS CSCD 北大核心 2004年第13期107-109,127,共4页 Computer Engineering

关键词文本分类性能评估 BEP值 ROC曲线 Text categorization Performance evaluation Breaks-even point Receiver operating characteristic curve

分类号 TP302 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1Sebastiani F. Machine Learning in Automated Text Categorization.ACM Computing Surveys, 2002, 34(1): 1-47
2YANG Yiming. An Evaluation of Statistical Approaches to Text Categorization. Information Retrieval, 1999, 1(1-2): 69-903.周水庚.一个无须词典支持和切词处理的中文文档分类系统.计算机研究与发展,2001,38(7):839-844

同被引文献349

1闫晓婧,闫浩文,王小龙,王卓,马文骏.微地图符号的智能化匹配——“识图配符”[J].测绘科学,2022,47(10):205-212. 被引量：11
2廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
3付雪峰,王明文.基于模糊-粗糙集的文本分类方法[J].华南理工大学学报（自然科学版）,2004,32(z1):73-76. 被引量：8
4曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
5刘宝银,张杰.海洋科学的前沿—“数字海洋”[J].地球信息科学,2000,2(1):8-11. 被引量：12
6侯汉清.分类法的发展趋势简论[J].情报科学,1981,2(1):58-63. 被引量：15
7王健,甘国辉.多维农业信息分类体系[J].农业工程学报,2004,20(4):152-156. 被引量：27
8宋枫溪,陈才扣,刘树海,杨静宇.文本表示方式对线性支持向量机分类性能的影响[J].模式识别与人工智能,2004,17(2):161-166. 被引量：4
9宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
10王承忠.实验室间比对的能力验证及稳健统计技术第四讲　能力验证试样的均匀性和稳定性检验[J].理化检验（物理分册）,2004,40(10):533-538. 被引量：34

引证文献33

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2侯宇豪,杨维芳,马文骏,王卓,余懿韬,闫香蓉,闫浩文.一种利用VSM检索微地图的方法[J].测绘科学,2023,48(12):225-233. 被引量：1
3秦锋,杨波,程泽凯.分类器性能评价标准研究[J].计算机技术与发展,2006,16(10):85-88. 被引量：29
4项涛,龚俭,丁伟.垃圾邮件过滤系统的评估模型研究[J].计算机工程与设计,2007,28(18):4487-4490.
5张运良,张全.基于句类向量空间模型的自动文本分类研究[J].计算机工程,2007,33(22):45-47. 被引量：6
6张运良,张全.柔性KNN算法研究[J].计算机工程与应用,2007,43(34):25-28. 被引量：3
7徐大伟,董渊,张素琴.文本分类技术在海洋信息处理领域中的应用[J].计算机科学,2008,35(11):144-146. 被引量：1
8高秀梅,陈芳,宋枫溪,金忠.特征权对贝叶斯分类器文本分类性能的影响[J].计算机应用,2008,28(12):3080-3083. 被引量：3
9刘海峰,姚泽清,张述祖,王元元.文本分类中一种基于核的最大散度差特征抽取方法[J].计算机应用研究,2009,26(1):102-104.
10张运良,朱礼军,乔晓东,张全.基于句类特征的作者写作风格分类研究[J].计算机工程与应用,2009,45(22):129-131. 被引量：20

二级引证文献206

1王家琪,张莉.面向文本特征选择的去冗余相对判别准则[J].山西大学学报（自然科学版）,2021,44(4):688-694. 被引量：2
2蓝海英,何昊林,李玉翠,李千颖,李伊苧.基于文本聚类的煤矿安全事故类型分析[J].长江技术经济,2021(S01):199-202. 被引量：1
3陈志贤.作者发文情况在投稿真实性审查中的应用[J].编辑学报,2021,33(5):515-517.
4刘锋,白凡.一种改进的K近邻算法在网页分类中的应用[J].电子技术（上海）,2010(7):30-31. 被引量：1
5张璐,王景中.基于改进贝叶斯算法的文本广告邮件过滤[J].网络安全技术与应用,2009(1):55-57. 被引量：1
6姜彬,王正华,王勇献,贺细平.k子串离散源结合加权KNN算法预测膜蛋白类型[J].激光生物学报,2009,18(1):121-127.
7李爰媛,孟相如,张立,庄凌屹.基于数值型属性约简的SVM网络故障诊断[J].计算机工程,2009,35(7):273-276. 被引量：2
8何维,王宇.基于句子的文本表示及中文文本分类研究[J].情报学报,2009,28(6):839-843. 被引量：3
9秦锋,黄俊,程泽凯,杨帆.多标签分类器准确性评估方法的研究[J].计算机技术与发展,2010,20(1):46-49. 被引量：9
10张玲珠,周忠眉.结合属性值贡献度与平均相似度的KNN改进算法[J].计算机工程与应用,2010,46(18):130-131. 被引量：1

1张启蕊,董守斌,张凌.文本分类的性能评估指标[J].广西师范大学学报（自然科学版）,2007,25(2):119-122. 被引量：7
2王勇献,王正华,张振慧.蛋白质结构预测算法的评估[J].计算机工程与科学,2005,27(8):62-64.
3朱香卫,肖亮,吴慧中.数字图像水印性能评估指标的研究[J].通信技术,2009,42(1):256-258. 被引量：5
4解冲锋,李星.基于序列的文本自动分类算法[J].软件学报,2002,13(4):783-789. 被引量：35
5虞晓庆.数字图像水印性能评估方法研究[J].电脑知识与技术,2011,7(11):7742-7743.
6穆原子.浅析网络安全中的内容过滤计算研究[J].网络安全技术与应用,2013(6):33-34. 被引量：1
7龚亚信,杨宏文,胡卫东,郁文贤.融合跟踪系统性能的综合评估[J].火力与指挥控制,2006,31(9):4-7. 被引量：6
8李元锋,李正生,王洋.基于模糊综合评判的多指标匹配算法性能评估[J].光电工程,2010,37(8):92-97. 被引量：4
9袁继会.刍议面向大数据分析的分布式文件系统关键技术[J].电子世界,2016,0(18):163-163. 被引量：2
10李禹,计科锋,粟毅.合成孔径雷达图像分割技术综述[J].宇航学报,2008,29(2):407-412. 被引量：22

计算机工程

2004年第13期

浏览历史

内容加载中请稍等...

文本分类器性能评估指标被引量：33

参考文献2

同被引文献349

引证文献33

二级引证文献206

相关作者

相关机构

相关主题

浏览历史

文本分类器性能评估指标 被引量：33

参考文献2

同被引文献349

引证文献33

二级引证文献206

相关作者

相关机构

相关主题

浏览历史

文本分类器性能评估指标被引量：33