基于卷积与双向简单循环单元的文本分类模型被引量：2

Text classification model based on convolution and bidirectional simple recurrent unit

下载PDF

导出

摘要针对基于词粒度的长短时记忆(LSTM)网络模型存在着无法充分学习上下文语义信息的问题,提出一种基于卷积和双向简单循环单元的文本分类模型(Conv-BSA)。利用卷积和局部池化操作提取并筛选n-gram信息,使用双向简单循环单元结构提取文本深层次语义特征,通过注意力机制对深层语义特征进行加权得到最终文本表示,借助softmax函数进行分类,达到高效分辨文本类别的目的。实验结果表明,Conv-BSA模型的分类准确率高达96.09%,优于即有主流模型。简单循环单元(SRU)能够提升分类准确率,降低训练耗时。 To address the problem of being unable to fully learn long contextual semantic information in the model of word-level long short-term memory(LSTM)network,a text classification model based on convolution and bidirectional simple recurrent unit(Conv-BSA)was proposed.The n-gram information was extracted and filtered using convolution and local pooling operations.The deep semantic features of the text were extracted using the bidirectional simple recurrent unit.The deep semantic features were weighted using the attention mechanism to obtain the final text representation.The softmax function was used for classification to achieve the purpose of efficiently distinguishing text categories in the last step.Experimental results show that the classification accuracy of the Conv-BSA model is as high as 96.09%,which is better than that of the mainstream model.The simple recurrent unit(SRU)not only improves classification accuracy,but reduces training time.

作者陈天龙喻国平姚磊岳 CHEN Tian-long;YU Guo-ping;YAO Lei-yue(Information Engineering School,Nanchang University,Nanchang 330031,China;Center of Collaboration and Innovation,Jiangxi University of Technology,Nanchang 330098,China)

机构地区南昌大学信息工程学院江西科技学院协同创新中心

出处《计算机工程与设计》北大核心 2020年第3期838-844,共7页 Computer Engineering and Design

基金江西省科技厅科技计划基金项目(20171BBE50060) 江西省教育厅科技计划基金项目(GJJ180978) 南昌市科技局指导性科技计划基金项目(洪科字[2018]39号-73)。

关键词卷积层双向简单循环单元注意力机制文本分类文本表示 convolutional layer bidirectional simple recurrent unit attention mechanism text classification text representation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1周新民,陈晓红,钟敏娟,赵文军.基于主题标签的在线社区话题发现[J].系统工程,2017,35(7):40-46. 被引量：2
2陈波.基于深度情境表示的微博情感分类方法[J].计算机工程与设计,2018,39(9):2952-2956. 被引量：5
3沈承恩,何军,邓扬.基于改进堆叠自动编码机的垃圾邮件分类[J].计算机应用,2016,36(1):158-162. 被引量：7
4王伟,孙玉霞,齐庆杰,孟祥福.基于BiGRU-attention神经网络的文本情感分类模型[J].计算机应用研究,2019,36(12):3558-3564. 被引量：72

二级参考文献39

1CORMACK G V. Email spam filtering: a systematic review [J]. Foundations and trends in information retrieval, 2007, 1(4): 335-455.
2ALMEIDA T A, YAMAKAMI A. Advances in spam filtering techniques [M]// Computational Intelligence for Privacy and Security. Berlin: Springer, 2012: 199-214.
3CHOUHAN S. Behavior analysis of SVM based spam filtering using various kernel functions and data representations [J]. International journal of engineering research and technology, 2013, 2(9): 3029-3036.
4PUNISKIS D, LAURUTIS R, DIRMEIKIS R. An artificial neural nets for spam E-mail recognition [J]. Electronics and electrical engineering, 2006, 69(5): 73-76.
5BENGIO Y. Learning deep architectures for AI [J]. Foundations and trends in machine learning, 2009, 2(1): 1-127.
6BENGIO Y, COURVILLE A, VINCENT P. Representation learning: a review and new perspectives [J]. Pattern analysis and machine intelligence, 2013, 35(8): 1798-1828.
7TZORTZIS G, LIKAS A. Deep belief networks for spam filtering [C]// ICTAI 2007: Proceedings of the 19th IEEE International Conference on Tools with Artificial Intelligence. Piscataway, NJ: IEEE, 2007: 306-309.
8VINCENT P, LAROCGELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders [C]// Proceedings of the 25th International Conference on Machine Learning. New York: ACM, 2008: 1096-1103.
9RIFAI S, VINCENT P, MULLER X, et al. Contractive auto-encoders: explicit invariance during feature extraction [C]// Proceedings of the 28th International Conference on Machine Learning. New York: ACM, 2011: 833-840.
10SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting [J]. The journal of machine learning research, 2014, 15(1): 1929-1958.

共引文献82

1屈丹丹,杨涛,朱垚,胡孔法.基于字向量的BiGRU-CRF肺癌医案四诊信息实体抽取研究[J].世界科学技术-中医药现代化,2021,23(9):3118-3125. 被引量：10
2陈斌,东一舟,毛明荣.基于增量学习算法的校园网垃圾邮件检测模型[J].计算机应用,2017,37(1):206-211. 被引量：1
3陈斌,东一舟,毛明荣.基于分类邮件代理MCP的垃圾邮件动态检测[J].南京师范大学学报（工程技术版）,2017,17(3):80-86.
4李枫林,柯佳.基于深度学习框架的实体关系抽取研究进展[J].情报科学,2018,36(3):169-176. 被引量：29
5刘任熊,田由辉,张朝龙.基于堆叠自动编码器的网络行为识别[J].合肥工业大学学报（自然科学版）,2019,42(2):189-194. 被引量：5
6夏一雪.基于舆情大数据的网民情感“衰减—转移”模型与实证研究[J].情报杂志,2019,38(3):148-154. 被引量：15
7钱进宝.基于演化K-medoids方法的微博情感动态分析——以《穹顶之下》为例[J].情报杂志,2019,38(3):155-159. 被引量：2
8宋旭,刘国英.基于自动编码机特征融合的图像行为识别算法[J].计算机工程与设计,2019,40(5):1477-1483. 被引量：3
9陈洁,邵志清,张欢欢,费佳慧.基于并行混合神经网络模型的短文本情感分析[J].计算机应用,2019,39(8):2192-2197. 被引量：16
10袁红春,陈骢昊.基于融合深度学习模型的长鳍金枪鱼渔情预测研究[J].渔业现代化,2019,46(5):74-81. 被引量：11

同被引文献20

1郝爽,李国良,冯建华,王宁.结构化数据清洗技术综述[J].清华大学学报（自然科学版）,2018,58(12):1037-1050. 被引量：93
2王岩,张波,薛博.基于FOA-SVM的中文文本分类方法研究[J].四川大学学报（自然科学版）,2016,53(4):759-763. 被引量：9
3曹靖,陈陆燊,邱剑,王慧芳,应高亮,张波.基于语义框架的电网缺陷文本挖掘技术及其应用[J].电网技术,2017,41(2):637-643. 被引量：93
4黄良,王佳丽,赵立进,吕黔苏,杨涛,林刚.面向文本非结构化数据的输变电系统故障诊断方法[J].电力科学与技术学报,2017,32(3):153-161. 被引量：13
5孙芊,马建伟,李强,杨磊.面向智慧城市的电力数据挖掘多场景应用[J].电力系统及其自动化学报,2018,30(8):119-125. 被引量：26
6林涛,张丽,蔡睿琪,杨欣,刘刚,廖文喆.基于改进果蝇算法优化支持向量机的风电机组性能评估[J].可再生能源,2019,37(1):132-137. 被引量：7
7杨丹,朱世玲,卞正宇.基于改进的K-means算法在文本挖掘中的应用[J].计算机技术与发展,2019,29(4):68-71. 被引量：9
8汪崔洋,江全元,唐雅洁,朱炳铨,项中明,唐剑.基于告警信号文本挖掘的电力调度故障诊断[J].电力自动化设备,2019,39(4):126-132. 被引量：56
9颜拥,周自强,涂莹,刘周斌,胡萨萨.基于区块链的电力数据保全应用研究[J].浙江电力,2019,38(7):63-69. 被引量：19
10魏鑫,张雪英,李凤莲,胡风云,贾文辉,王超.面向非平衡数据集分类的改进模糊支持向量机[J].计算机工程与设计,2019,40(11):3124-3129. 被引量：10

引证文献2

1范青武,陈光,杨凯.基于改进果蝇优化算法的投诉举报文本分类[J].计算机工程与设计,2022,43(4):1103-1110. 被引量：2
2俞阳,邹云峰,康雨萌,孙少辰.基于文本数据特征识别的电力运营信息模型设计[J].电子设计工程,2023,31(1):102-106. 被引量：3

二级引证文献5

1苗玉琪.基于CNN-GRU的文本数据特征提取及其分类技术设计[J].贵阳学院学报（自然科学版）,2024,19(1):32-35. 被引量：1
2湛志宏,覃开贤,彭凌华,湛铖.基于MacBERT和联合注意力增强网络的物业服务投诉分类方法[J].广西科学,2024,31(1):110-118.
3岳晓希,龚正涛.基于果蝇算法的医院电子档案海量数据快速查询方法[J].办公自动化,2024,29(9):67-69. 被引量：1
4方世敏.Chameleon聚类算法在Web开源情报主题挖掘中的应用研究[J].信息技术,2024,48(11):63-68.
5余昕越,孙焜,范展滔,郭岩,高卫东.基于文本处理和聚类算法的电力调度保供数据辅助决策研究[J].电子器件,2025,48(4):903-908. 被引量：1

1俞敬松,魏一,张永伟.基于BERT的古文断句研究与应用[J].中文信息学报,2019,33(11):57-63. 被引量：30
2李钰曼,陈志泊,许福.基于KACC模型的文本分类研究[J].数据分析与知识发现,2019,3(10):89-97. 被引量：4
3陈珂,谢博,朱兴统.基于情感词典和Transformer模型的情感分析算法研究[J].南京邮电大学学报（自然科学版）,2020,40(1):55-62. 被引量：15
4李卫疆,漆芳.基于多通道双向长短期记忆网络的情感分析[J].中文信息学报,2019,33(12):119-128. 被引量：18
5刘思琴,冯胥睿瑞.基于BERT的文本情感分析[J].信息安全研究,2020,6(3):220-227. 被引量：29
6中国政务舆情监测[J].领导决策信息,2019,0(35):30-31.
7张长浩,余志勇,周振,石瑞杰,王新勇.基于国网商旅大数据融合背景的用户画像构建[J].电信科学,2019,35(12):148-154. 被引量：7
8彭祝亮,刘博文,范程岸,王杰,肖明,廖泽恩.基于BLSTM与方面注意力模块的情感分类方法[J].计算机工程,2020,46(3):60-65. 被引量：18
9牛少杰.基于特征提取模式的脑电信号分析方式[J].机电信息,2019,0(32):163-164.
10王红,李晗,李浩飞.民航突发事件领域本体关系提取方法的研究[J].计算机科学与探索,2020,14(2):285-293. 被引量：11

计算机工程与设计

2020年第3期

浏览历史

内容加载中请稍等...

基于卷积与双向简单循环单元的文本分类模型被引量：2

参考文献4

二级参考文献39

共引文献82

同被引文献20

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于卷积与双向简单循环单元的文本分类模型 被引量：2

参考文献4

二级参考文献39

共引文献82

同被引文献20

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于卷积与双向简单循环单元的文本分类模型被引量：2