多特征融合的中文短文本分类模型被引量：14

Chinese Short Text Classification Model with Multi-feature Fusion

下载PDF

导出

摘要针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm Memory)、CNN(Convolutional Neural Networks)和CAPSNET(Capsule Network)模型对短文本进行不同层面的特征提取,并使用Self-attention模型动态调节各模型特征在最终特征构建中的权重系数.在实验部分,本文用MFFM方法与四个短文本分类经典模型(CNN、BILSTM、CAPSNET和CNN-BILSTM)在三个中文短文本数据集上进行验证,为了进一步验证数据融合(将三个中文短文本数据正负样本融合)对MFFM的影响,实验结果表明MFFM模型性能在四个评价指标(F1、Recall、Precision、Accuracy)下优于对比模型.总之,这可表明M FFM是短文本分类模型的一个有用框架. In order to solve the limitation of feature sparsity in feature extraction in Chinese short text,this paper proposes a multi-feature fusion model(called MFFM)based on multi-feature fusion.First,a new text representation is constructed by combining words and vectors.Secondly,short texts are performed at different levels feature extract through BILSTM(Bi-directional Long Short-Term Memory),CNN(Convolutional Neural Networks)and CAPSNET(Capsule Network)models,and using the Self-attention model to dynamically adjust the weighting coefficients of each model feature in the final feature construction.In the experimental part,this paper uses MFFM method and four short text classification classic models(CNN,BILSTM,CAPSNET and CNN-BILSTM)to verify on three Chinese short text data sets.In order to further verify the impact of data fusion(this paper fuses positive and negative samples of three Chinese short text data.)on MFFM.The experimental results show that the performance of MFFM model is better than the comparison model under the four evaluation indexes(F1,Recall,Precision,Accuracy).In summary,it can prove that MFFM is a useful framew ork for short text classification models.

作者杨朝强邵党国杨志豪相艳马磊 YANG Zhao-qiang;SHAO Dang-guo;YANG Zhi-hao;XIANG Yan;MA Lei(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650504,China)

机构地区昆明理工大学信息工程与自动化学院

出处《小型微型计算机系统》 CSCD 北大核心 2020年第7期1421-1426,共6页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61462054,61732005,61672271,61741112)资助云南省自然科学基金项目(2017FB098)资助国家博士后面上科学基金项目(2016M592894XB)资助云南省重大科技项目(2018ZF017)资助。

关键词中文短文本分类字词向量结合特征融合 Self-attention模型 Chinese short text classification word vector combination feature fusion Self-attention

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1YANG Zhen,FAN Kefeng,LAI Yingxu,GAO Kaiming,WANG Yong.Short Texts Classification Through Reference Document Expansion[J].Chinese Journal of Electronics,2014,23(2):315-321. 被引量：12
2刘婉婉,苏依拉,乌尼尔,仁庆道尔吉.基于LSTM的蒙汉机器翻译的研究[J].计算机工程与科学,2018,40(10):1890-1896. 被引量：8
3李湘东,曹环,丁丛,黄莉.利用《知网》和领域关键词集扩展方法的短文本分类研究[J].现代图书情报技术,2015(2):31-38. 被引量：17

二级参考文献38

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2哈斯巴特尔.关于蒙古语人称代词词干变格问题[J].民族语文,2001(3):27-33. 被引量：5
3吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：217
4L. Rocha, F. Mourao, H. Mota et al., "Temporal contexts: Ef- fective text classification in evolving document collections", In- formation Systems, Vol.38, No.3, pp.388-409, 2012.
5M.T. Fardanesh, "Classification accuracy improvement of neu- ral network classifiers by using unlabeled data", IEEE Trans- actions on Geoscienee and Remote Sensing, Vol.36, No.3, pp.1020 1025, 1998.
6T. Joachims, "Transductive inference for text classification us- ing support vector machines", Proc. of the Sixteenth In- ternational Conference on Machine Learning, Bled, Slovenia, pp.200-209, 1999.
7Y. Tsuruoka, J. Tsujii, "Training a naive bayes classifier via the EM algorithm with a class distribution constraint", Proc. of the Seventh Conference on Natural Language Learning, Edmonton, Canada, pp.127-134, 2003.
8R. Kothari, V. Jain, "Learning from labeled and unlabeled data using a minimal number of queries", IEEE Transaction on Neu- ral Networks, Vol.14, No.6, pp.1496 1505, 2003.
9M. Efron, P. Organisciak, K. Fenlon, "Improving retrieval of short texts through document expansion", Proc. of the 35th International A CM SIGIR Conference on Research and Devel- opment in Information Retrieval, Portland, OR, United states, pp.911-920, 2012.
10V. Vapnik, "The Nature of Statistical Learning Theory, Springer- Verlag, New York, 1999.

共引文献34

1李湘东,刘康,丁丛,高凡.基于《知网》的多种类型文献混合自动分类研究[J].现代图书情报技术,2016(2):59-66. 被引量：4
2YU Miao,YANG Wu,WANG Wei,SHEN Guowei,DONG Guozhong,GONG Liangyi.UGGreedy: Influence Maximization for User Group in Microblogging[J].Chinese Journal of Electronics,2016,25(2):241-248. 被引量：2
3HAN Zhongyuan,YANG Muyun,KONG Leilei,QI Haoliang,LI Sheng.A Hybrid Model for Microblog Real-Time Filtering[J].Chinese Journal of Electronics,2016,25(3):432-440. 被引量：1
4黄贤英,李沁东,刘英涛.结合词性的短文本相似度算法及其在文本分类中的应用[J].电讯技术,2017,57(1):78-82. 被引量：11
5李湘东,刘康,丁丛,廖香鹏.基于知网语义特征扩展的题名信息分类[J].图书馆杂志,2017,36(2):11-19. 被引量：7
6孟欣,左万利.基于word embedding的短文本特征扩展与分类[J].小型微型计算机系统,2017,38(8):1712-1717. 被引量：8
7陈果,肖璐.网络社区中的知识元链接体系构建研究[J].数据分析与知识发现,2017,1(11):75-83. 被引量：9
8陈果,朱茜凌,肖璐.面向网络社区的知识聚合:发展、研究基础与展望[J].情报杂志,2017,36(12):193-197. 被引量：10
9刘德喜,付淇,韦亚雄,万常选,刘喜平,钟敏娟,邱家洪.基于多重增强图和主题分析的社交短文本检索方法[J].中文信息学报,2018,32(3):110-119. 被引量：5
10张小川,于旭庭,张宜浩.一种改进的基于知网的词语语义相似度算法[J].计算机应用研究,2018,35(8):2285-2288. 被引量：6

同被引文献97

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：11
2李海刚,于洪志.藏文文本情感分类系统设计[J].甘肃科技纵横,2011,40(1):106-107. 被引量：7
3姚红兵,孟春梅,张永康,佟艳群,管海兵.多脉冲高能量强激光诱导产生Al等离子体发射光谱分析[J].强激光与粒子束,2011,23(8):2111-2115. 被引量：3
4梁艳红,檀润华,马建红.面向产品创新设计的专利文本分类研究[J].计算机集成制造系统,2013,19(2):382-390. 被引量：18
5ZHANG Yangsen,ZHENG Jia,JIANG Yuru,HUANG Gaijuan,CHEN Ruoyu.A Text Sentiment Classification Modeling Method Based on Coordinated CNN-LSTM-Attention Model[J].Chinese Journal of Electronics,2019,28(1):120-126. 被引量：42
6赵虹,王西成,胡卫国,曹廷杰,李博.黄淮南片麦区小麦倒春寒冻害成因及预防措施[J].河南农业科学,2014,43(8):34-38. 被引量：76
7张俊,李应兴.基于情感词典的藏文微博情感分析研究[J].硅谷,2014,7(20):220-220. 被引量：9
8赵阳,徐田华.基于文本挖掘的高铁信号系统车载设备故障诊断[J].铁道学报,2015,37(8):53-59. 被引量：47
9李斌勇,孙林夫,王淑营,田冉.面向汽车产业链的云服务平台信息支撑体系[J].计算机集成制造系统,2015,21(10):2787-2797. 被引量：42
10袁斌,江涛,于洪志.基于语义空间的藏文微博情感分析方法[J].计算机应用研究,2016,33(3):682-685. 被引量：11

引证文献14

1刘鹏程,孙林夫,张常有,王波.基于交互注意力机制网络模型的故障文本分类[J].计算机集成制造系统,2021,27(1):72-89. 被引量：11
2孙红,陈强越.融合BERT词嵌入和注意力机制的中文文本分类[J].小型微型计算机系统,2022,43(1):22-26. 被引量：19
3徐星昊.基于BERT的中文健康问句分类研究[J].电视技术,2022,46(3):67-70.
4金松林,来纯晓,郑颖,李艳翠,霍云凤,刘明久,张自阳,韩博,闫思尧,李龙威.基于特征选择和CNN+Bi-RNN模型的小麦抗寒性识别方法[J].江苏农业科学,2022,50(10):201-207. 被引量：4
5杨世刚,刘勇国.融合语料库特征与图注意力网络的短文本分类方法[J].计算机应用,2022,42(5):1324-1329. 被引量：8
6苗将,张仰森,李剑龙.基于BERT的中文新闻标题分类[J].计算机工程与设计,2022,43(8):2311-2316. 被引量：10
7白子诚,周艳玲,张龑.GM-FastText多通道词向量短文本分类模型[J].计算机系统应用,2022,31(9):403-408. 被引量：1
8朱亚军,次曲,拥措.基于SVM算法的藏文微博情感分析研究[J].计算机仿真,2022,39(8):226-229. 被引量：11
9李源,蔡忠祥.基于注意力机制的知识增强短文本分类[J].电子技术与软件工程,2022(19):220-225. 被引量：1
10沈春山,肖宗涛,徐德强.一种面向自然语言交互接口语义分析的MNet方法研究[J].小型微型计算机系统,2023,44(2):340-348. 被引量：2

二级引证文献73

1杨雯迪,任春华,孙洁香.支持汽车故障数据增值的词汇增强实体识别[J].现代计算机,2021,27(26):8-14. 被引量：2
2李超凡,马凯.基于注意力机制结合CNN-BiLSTM模型的电子病历文本分类[J].科学技术与工程,2022,22(6):2363-2370. 被引量：26
3张贺宁,李欣,魏静.基于混合深度学习的高铁道岔故障诊断研究[J].自动化与仪器仪表,2022(1):109-112. 被引量：2
4曹春萍,苑凯歌.融合多路特征和注意力机制的强化学习关键帧提取算法[J].计算机应用研究,2022,39(4):1274-1280. 被引量：12
5杨万新.基于机器学习的铁路道岔故障诊断模型构建及仿真[J].自动化与仪器仪表,2022(4):62-67. 被引量：3
6白子诚,周艳玲,张龑.GM-FastText多通道词向量短文本分类模型[J].计算机系统应用,2022,31(9):403-408. 被引量：1
7黄忠祥,李明.ALBERT结合双向网络的文本分类[J].计算机与现代化,2022(10):8-12. 被引量：2
8李代祎,李忠良,严丽.一种面向中文的实体关系联合抽取方法研究[J].小型微型计算机系统,2022,43(12):2479-2486. 被引量：7
9刘豪,卓广平,乔俊福,张光华.基于领域情感词典与字词特征融合的中文抑郁症文本分类方法[J].中北大学学报（自然科学版）,2022,43(6):522-529. 被引量：6
10黄学坚,刘雨飏,马廷淮.基于改进型图神经网络的学术论文分类模型[J].数据分析与知识发现,2022,6(10):93-102. 被引量：6

1George Mefsut.前言[J].模型世界,2020(5):3-3.
2张弘斌,袁奇,赵柄锡,牛广硕.采用多通道样本和深度卷积神经网络的轴承故障诊断方法[J].西安交通大学学报,2020,54(8):58-66. 被引量：26
3梁哲,宁晓刚,张翰超,王浩.一种改进U-net网络的新增建设用地提取方法[J].遥感信息,2020,35(3):92-98. 被引量：4
4马景奕.多媒体计算机的数字音频处理技术研究[J].电声技术,2020,44(4):48-50.
5曹凯.浅谈动态无功补偿装置SVG在地铁供电系统的运用[J].科学与信息化,2020(13):17-17. 被引量：1
6陈啟英,安裕伦,奚世军.喀斯特高原区多源遥感数据时空融合模型适用性分析[J].科学技术与工程,2020,20(16):6538-6546. 被引量：5
7姜志慧,张添,谭江平,阳熹,杨源.微网孤岛控制研究分析[J].电工技术,2020(11):51-53.
8伍星光,侯磊,刘芳媛,吴守志,伍壮.安全思维和事故模型研究分析与展望[J].石油科学通报,2020,5(2):254-268. 被引量：8
9刘岗,陈超,赵轶男,孙裔申,严扬.作战指挥控制系统人机交互设计流程研究[J].包装工程,2020,41(14):85-91. 被引量：14
10张思,王海.基于改进禁忌搜索算法的VRPSPDTW研究[J].物流科技,2020,43(7):1-7. 被引量：2

小型微型计算机系统

2020年第7期

浏览历史

内容加载中请稍等...

多特征融合的中文短文本分类模型被引量：14

参考文献3

二级参考文献38

共引文献34

同被引文献97

引证文献14

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

多特征融合的中文短文本分类模型 被引量：14

参考文献3

二级参考文献38

共引文献34

同被引文献97

引证文献14

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

多特征融合的中文短文本分类模型被引量：14