改进的TFIDF标签提取算法被引量：5

Label Extraction Algorithm Based on Enhanced TFIDF

下载PDF

导出

摘要 TFIDF算法作为一种加权算法,在信息检索和数据挖掘等自然语言处理领域发挥了巨大的作用。它的计算模型相对简单,适合大数据并行计算,适用领域广泛,且拥有很好的解释性。基于以上这些特点,本文在TFIDF算法基础之上,利用监督的学习,并通过引入加权因子和词贡献度,来修正TFIDF算法结果权值。利用这个算法可以在自然语言处理中有效地提取特征标签,并且改进后的算法在这一细分领域具有极高准确度。 As a word weighting algorithm,TFIDF plays an important role in natural language processing such as information retrieval and data mining.TFIDF has relatively simple computational model,suitable for large data parallel computation,applied widely in many fields,and with good explanatory characteristics.Based on the above-mentioned characteristics,this paper proposes to amend the weighted results of TFIDF by means of supervised learning based on TFIDF algorithm as well as by introducing weighting factors and word contribution.This algorithm can effectively extract feature labels in natural language processing,and improve the degree of accuracy in this segmentation field.

作者王杰李旭健 WANG Jie;LI Xujian(Shandong University of Science and Technology,Qingdao 266590,China;The Key Laboratory of Digital Mine in Shandong,Qingdao 266590,China)

机构地区山东科技大学山东省数字矿山重点实验室

出处《软件工程》 2018年第2期4-6,共3页 Software Engineering

基金国家重点研发计划课题(课题编号:2017YFC080446)

关键词自然语言处理 TFIDF 词加权算法标签提取监督学习 natural language processing TFIDF word weighting algorithm label extraction supervised learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1韩冬煦,常宝宝.中文分词模型的领域适应性方法[J].计算机学报,2015,38(2):272-281. 被引量：59
2初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14
3刘勘,周丽红,陈譞.基于关键词的科技文献聚类研究[J].图书情报工作,2012,56(4):6-11. 被引量：18
4施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：229
5陈力丹,霍仟.互联网传播中的长尾理论与小众传播[J].西南民族大学学报（人文社会科学版）,2013(4):148-152. 被引量：115
6刘欣,佘贤栋,唐永旺,王波.基于特征词向量的短文本聚类算法[J].数据采集与处理,2017,32(5):1052-1060. 被引量：9
7刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617. 被引量：141
8谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
9莫建文,郑阳,首照宇,张顺岚.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802-1807. 被引量：40
10黄栋,徐博,许侃,林鸿飞,杨志豪.基于词向量和EMD距离的短文本聚类[J].山东大学学报（理学版）,2017,52(7):66-72. 被引量：11

二级参考文献106

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：21
2徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
3谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
4顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：38
5许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
6肖红,许少华,李欣.具有三级索引词库结构的中文分词方法研究[J].计算机应用研究,2006,23(8):49-51. 被引量：16
7柴玉梅,王宇.基于TFIDF的文本特征选择方法[J].微计算机信息,2006,22(08X):24-26. 被引量：32
8张培颖,李村合.一种中文分词词典新机制——四字哈希机制[J].微型电脑应用,2006,22(10):35-36. 被引量：16
9张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
10张科.多次Hash快速分词算法[J].计算机工程与设计,2007,28(7):1716-1718. 被引量：22

共引文献674

1王琳,姜立新,杨天青,张维佳.地震应急信息自动分类方法研究[J].震灾防御技术,2019,14(4):907-916. 被引量：9
2席志武,范龙燕,于瑞.县级融媒体中心招聘需求对新闻教育改革的启示——基于2022年240则县级融媒体中心招聘信息文本的词频考察[J].中国新闻传播研究,2023(2):17-30. 被引量：1
3田栩冉,马笑笑,李玉海.我国文献资源保障体系论文主题识别与演化分析[J].知识管理论坛,2021(6):303-314.
4林剑,贺盈琪,黄益军,陈燕彬,彭超越.基于长尾理论的文化微纪录片传播模式研究——以《了不起的匠人2》为例[J].泉州师范学院学报,2022,40(3):69-74. 被引量：1
5吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：5
6王胜源,谭棋,何江林.物流服务质量对生鲜电商顾客购买意愿的影响研究——基于京东生鲜商品在线评论的用户情感分析[J].辽宁工程技术大学学报（社会科学版）,2023(3):174-181. 被引量：5
7陈小妹,赵华,武浩.基于证据理论的多特征融合Web API推荐[J].计算机应用研究,2020,37(S01):221-223. 被引量：2
8李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
9胡晓菲,丁咏妍.营与销合一:美食类自媒体内容影响因素分析[J].大众文艺（学术版）,2020(6):148-149.
10杨海晨,康益豪.基于网络议程设置理论的体育争议性事件研究——以“飞盘争议”为例[J].北京体育大学学报,2023,46(3):73-87. 被引量：6

同被引文献49

1罗桂琼,费洪晓,戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,18(1):80-83. 被引量：18
2周宏宇,张政.中文分词技术综述[J].安阳师范学院学报,2010(2):54-56. 被引量：7
3奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：106
4王东波,苏新宁,朱丹浩,年洪东.基于支持向量机的医学期刊文章自动分类研究[J].情报理论与实践,2011,34(4):115-118. 被引量：13
5黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：231
6李明涛,罗军勇,尹美娟,路林.结合词义的文本特征词权重计算方法[J].计算机应用,2012,32(5):1355-1358. 被引量：10
7杨红梅.朋辈心理辅导在中学心理健康教育中的运用[J].思想理论教育,2012(8):71-74. 被引量：8
8韩煦.以心理委员制度为代表的高校朋辈心理辅导模式的发展与反思[J].思想理论教育,2012(11):64-67. 被引量：11
9伍多·朵勃里希(Udo Doebrich),罗兰·海德尔(Roland Heidel),惠敦炎(译).网络物理系统描述模型[J].中国仪器仪表,2013(10):41-47. 被引量：2
10王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：106

引证文献5

1彭佳丽,闫凯丽,宗思雨,谢俐萨.数据驱动下面向产品设计的需求识别研究[J].科技经济导刊,2019(35):3-4. 被引量：1
2王卫斌,陆嘉铭,周韡烨,屈志坚,姚嵘,瞿海妮.面向设备质量提升的电力设备缺陷大数据分析研究[J].电力大数据,2021,24(6):76-83. 被引量：2
3王海燕,陶皖,王鸣鹃.基于主题词频统计的高校朋辈心理委员制度演化趋势[J].宿州学院学报,2021,36(11):32-35. 被引量：2
4黄冠维,潘伟东.5G技术应用于医疗领域发展趋势的研究[J].科技与创新,2023(9):95-98. 被引量：3
5王庆,杨万哲,张聪.基层社会网格治理异构数据字典融合优化方法研究[J].计算机科学,2025,52(S1):577-583.

二级引证文献8

1詹启生,夏天宇.基于CiteSpace的心理委员研究演进路径分析[J].心理学探新,2022,42(3):241-251. 被引量：9
2杨凌,张天荣.基于MAXcomputer+DSC前置机的行业公共数据链的设计与应用[J].电脑知识与技术,2022,18(30):66-67.
3任继承,张倩,游祥辉.基于保障性生产模式的若干供应链数据应用场景[J].现代商业,2023(6):27-30.
4万金金,文屹,吕黔苏,张迅,范强,肖书舟,万云林.基于大数据深度挖掘电网设备缺陷体外循环的模型研制与应用[J].电力大数据,2023,26(3):61-68. 被引量：4
5宰婷.高校辅导员参与大学生心理健康教育的作用与策略探赜[J].成才之路,2023(24):37-40. 被引量：2
6中国医师协会急救复苏与灾难医学专业委员会,中国医学救援协会救援防护分会,航空救援医学专家共识组,韩伟,樊毫军,王志翔,周强,吴静.5G+直升机航空医学救援流程中国专家共识(2024版)[J].中华危重病急救医学,2024,36(3):225-230. 被引量：10
7牛牧青,耿水英,易拿云.医疗行业中“5G+物联网”融合应用方案的研究与思考[J].信息与电脑,2024,36(11):141-143. 被引量：2
8陈硕,蒋宝虎,陈思思,戴标,周吉,邹圣强.5G技术联合移动设备在团队心肺复苏教学中的应用[J].中国继续医学教育,2025,17(3):116-120.

1王子鹤,朱怀英.风电机组预警技术[J].科技风,2017,0(25):110-110.
2刘晓豫,朱东华,汪雪锋,黄颖.多专长专家识别方法研究——以大数据领域为例[J].图书情报工作,2018,62(3):55-63. 被引量：11
3张立伟.法治社会建设进程中司法程序的系统完善[J].当代工人（C版）,2017,0(11):97-99.
4郭博,李守光,王昊,张晓军,龚伟,于昭君,孙宇.电商评论综合分析系统的设计与实现——情感分析与观点挖掘的研究与应用[J].数据分析与知识发现,2017,1(12):1-9. 被引量：10
5郝建林,黄章进,顾乃杰.基于用户评论的自动化音乐分类方法[J].计算机系统应用,2018,27(1):154-161. 被引量：2
6徐璐瑶,姜增祺,黄婷婷,刘云鹏.基于大数据的用户画像系统概述[J].电子世界,2018,0(2):64-65. 被引量：8
7记健康完成6000万元天使轮融资[J].国际融资,2017,0(11):79-79.
8严婷,文欣秀,赵嘉豪,王家辉,杜傲,白瑞杰.基于Python的可视化数据分析平台设计与实现[J].计算机时代,2017(12):54-56. 被引量：20
9王俊,赵凤.基于半监督的多目标进化模糊聚类算法[J].计算机工程与应用,2017,53(22):40-44. 被引量：3
10刘向娇,王晓燕,李亚,李英.模板匹配算法的并行化[J].电脑迷,2017(10):195-195.

软件工程

2018年第2期

浏览历史

内容加载中请稍等...

改进的TFIDF标签提取算法被引量：5

参考文献12

二级参考文献106

共引文献674

同被引文献49

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

改进的TFIDF标签提取算法 被引量：5

参考文献12

二级参考文献106

共引文献674

同被引文献49

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

改进的TFIDF标签提取算法被引量：5