期刊文献+
共找到2,184篇文章
< 1 2 110 >
每页显示 20 50 100
Research on Feature Extraction Method of Social Network Text 被引量:2
1
作者 Zheng Zhang Shu Zhou 《Journal of New Media》 2021年第2期73-80,共8页
The development of various applications based on social network text is in full swing.Studying text features and classifications is of great value to extract important information.This paper mainly introduces the comm... The development of various applications based on social network text is in full swing.Studying text features and classifications is of great value to extract important information.This paper mainly introduces the common feature selection algorithms and feature representation methods,and introduces the basic principles,advantages and disadvantages of SVM and KNN,and the evaluation indexes of classification algorithms.In the aspect of mutual information feature selection function,it describes its processing flow,shortcomings and optimization improvements.In view of its weakness in not balancing the positive and negative correlation characteristics,a balance weight attribute factor and feature difference factor are introduced to make up for its deficiency.The experimental stage mainly describes the specific process:the word segmentation processing,to disuse words,using various feature selection algorithms,including optimized mutual information,and weighted with TF-IDF.Under the two classification algorithms of SVM and KNN,we compare the merits and demerits of all the feature selection algorithms according to the evaluation index.Experiments show that the optimized mutual information feature selection has good performance and is better than KNN under the SVM classification algorithm.This experiment proves its validity. 展开更多
关键词 Social network text mutual information positive and negative correlation characteristics SVM KNN
在线阅读 下载PDF
The Role of Rare Terms in Enhancing the Performance of Polynomial Networks Based Text Categorization
2
作者 Mayy M. Al-Tahrawi 《Journal of Intelligent Learning Systems and Applications》 2013年第2期84-89,共6页
In this paper, the role of rare or infrequent terms in enhancing the accuracy of English Text Categorization using Polynomial Networks (PNs) is investigated. To study the impact of rare terms in enhancing the accuracy... In this paper, the role of rare or infrequent terms in enhancing the accuracy of English Text Categorization using Polynomial Networks (PNs) is investigated. To study the impact of rare terms in enhancing the accuracy of PNs-based text categorization, different term reduction criteria as well as different term weighting schemes were experimented on the Reuters Corpus using PNs. Each term weighting scheme on each reduced term set was tested once keeping the rare terms and another time removing them. All the experiments conducted in this research show that keeping rare terms substantially improves the performance of Polynomial Networks in Text Categorization, regardless of the term reduction method, the number of terms used in classification, or the term weighting scheme adopted. 展开更多
关键词 POLYNOMIAL networkS text CATEGORIZATION Document Classification Infrequent TERMS RARE TERMS
暂未订购
Hybrid Reliability Parameter Selection Method Based on Text Mining, Frequent Pattern Growth Algorithm and Fuzzy Bayesian Network 被引量:1
3
作者 SHUAI Yon SONG Tailian +1 位作者 WANG Jianping ZHAN Wenbin 《Journal of Shanghai Jiaotong university(Science)》 EI 2018年第3期423-428,共6页
Reliability parameter selection is very important in the period of equipment project design and demonstration. In this paper, the problem in selecting the reliability parameters and their number is proposed. In order ... Reliability parameter selection is very important in the period of equipment project design and demonstration. In this paper, the problem in selecting the reliability parameters and their number is proposed. In order to solve this problem, the thought of text mining is used to extract the feature and curtail feature sets from text data firstly, and frequent pattern tree (FPT) of the text data is constructed to reason frequent item-set between the key factors by frequent patter growth (FPC) algorithm. Then on the basis of fuzzy Bayesian network (FBN) and sample distribution, this paper fuzzifies the key attributes, which forms associated relationship in frequent item-sets and their main parameters, eliminates the subjective influence factors and obtains condition mutual information and maximum weight directed tree among all the attribute variables. Furthermore, the hybrid model is established by reason fuzzy prior probability and contingent probability and concluding parameter learning method. Finally, the example indicates the model is believable and effective. 展开更多
关键词 reliability parameter text mining frequent pattern growth(FPG) fuzzy Bayesian network(FBN)
原文传递
基于PKUSEG-Text-GCN的肿瘤疾病预测模型
4
作者 高志玲 赵新宇 《计算机工程与科学》 北大核心 2025年第7期1303-1311,共9页
当前疾病预测模型仅关注病历文本的局部信息以及上下文信息,缺乏对全局信息的考虑,由此导致预测结果准确率不高。利用图神经网络关注全局信息的特点,提出将图卷积神经网络(GCN)用于中文电子病历的肿瘤疾病预测。首先,利用医学领域分词... 当前疾病预测模型仅关注病历文本的局部信息以及上下文信息,缺乏对全局信息的考虑,由此导致预测结果准确率不高。利用图神经网络关注全局信息的特点,提出将图卷积神经网络(GCN)用于中文电子病历的肿瘤疾病预测。首先,利用医学领域分词工具包PKUSEG对中文电子病历进行分词;其次,通过病历与词的共现关系和病历文本中词与词之间的关系,建立文本图;最后,基于该医学文本图利用图卷积神经网络(Text-GCN)对文本图的特征进行学习,将学习到的模型用于肿瘤疾病预测。实验结果显示,所提模型相比多个模型中的最优模型准确率提升了6%。同时,当数据较少的时候准确率并不会明显下降,表明该模型在电子病历较少的情况下仍具有很好的鲁棒性。 展开更多
关键词 文本图卷积神经网络 中文分词 肿瘤致病分析 肿瘤疾病预测
在线阅读 下载PDF
基于文本引导的轻量异构编码多模态图像融合
5
作者 王传云 周明奇 +3 位作者 孙冬冬 王田 高骞 李照奎 《工程科学学报》 北大核心 2026年第2期346-359,共14页
针对资源受限的无人机平台对红外与可见光图像的融合效率与感知性能需求,本文提出一种基于文本引导的轻量异构编码多模态图像融合网络.该网络设计了一种面向红外与可见光图像信息表达功能互补的轻量化双分支异构编码,红外图像编码分支... 针对资源受限的无人机平台对红外与可见光图像的融合效率与感知性能需求,本文提出一种基于文本引导的轻量异构编码多模态图像融合网络.该网络设计了一种面向红外与可见光图像信息表达功能互补的轻量化双分支异构编码,红外图像编码分支强调热目标与边缘响应,可见光图像编码分支侧重于纹理与细节信息建模,从而有效避免同构编码器带来的特征冗余与性能瓶颈.同时,引入轻量级跨模态特征融合模块,增强多模信息之间的互补性与融合表达能力.进一步,通过预训练视觉语言模型结合语义文本特征对融合过程进行引导与调控,提升融合图像的语义一致性与环境适应性.在三个公开多模态图像数据集TNO、LLVIP与M3FD上,本文方法与九种代表性图像融合算法进行了系统对比实验与综合评估,结果显示本文网络在互信息、结构相似性等多个主流评价指标上均表现优越,融合图像在细节清晰度、边缘结构一致性与目标可辨性方面优于现有方法.同时,消融实验表明所提出模型的推理时间相较基线方法减少约50%,且在不显著牺牲性能的前提下实现了更高的效率.除定量评估外,本文还开展了基于文本指令的定性实验,结果显示模型可根据不同语义指令灵活调整红外与可见光特征融合策略,适应低光、过曝、低对比、噪声等多种任务场景.在保证语义一致性的同时,有效增强了热源感知、结构清晰度与抗干扰能力,展现出传统无引导方法难以实现的语义可控性与内容适应性. 展开更多
关键词 多模态图像融合 双分支异构编码 文本引导 轻量化网络 注意力机制
在线阅读 下载PDF
基于Text-CNN模型的工程质量信息化研究
6
作者 母晓维 《建筑机械化》 2025年第9期28-32,共5页
针对建设工程质量问题分类的复杂性与数据不平衡问题,提出Text-CNN模型进行智能分类,通过数据预处理与基于语言学规则的数据增强方法解决类别不平衡问题,实现数据集的适度平衡。构建并训练Text-CNN模型,有效实现建设工程质量问题的识别... 针对建设工程质量问题分类的复杂性与数据不平衡问题,提出Text-CNN模型进行智能分类,通过数据预处理与基于语言学规则的数据增强方法解决类别不平衡问题,实现数据集的适度平衡。构建并训练Text-CNN模型,有效实现建设工程质量问题的识别与分类,与SVM和LSTM模型对比,Text-CNN在准确率与召回率及精确率方面具有明显优势,证明了其在建设工程监理信息化中的高效性与实用性。 展开更多
关键词 工程质量 施工监理 卷积神经网络 text-CNN 信息化
原文传递
基于语义特征和TextRank算法的科研成果论文中文文本关键词提取方法
7
作者 张世超 王建宾 孟浩 《华南地震》 2025年第3期188-194,共7页
为准确提取科研成果论文中文文本关键词,并准确排列,研究基于语义特征和TextRank算法的科研成果论文中文文本关键词提取方法。基于语义特征的科研成果论文中文文本候选关键词筛选方法,在Word2Vec工具中,将中文文本转换为词向量,作为论... 为准确提取科研成果论文中文文本关键词,并准确排列,研究基于语义特征和TextRank算法的科研成果论文中文文本关键词提取方法。基于语义特征的科研成果论文中文文本候选关键词筛选方法,在Word2Vec工具中,将中文文本转换为词向量,作为论文中文文本语义特征;将语义特征输入卷积神经网络中,以分类的方式,提取属于候选关键词类型的语义特征,将其所属文本词语作为候选关键词;通过基于TextRank算法的科研成果论文中文文本关键词提取方法,在候选关键词中,以候选关键词的平均信息熵、词性、位置三种特征,为关键词提取指标,构建提取关键词的图模型,运算候选关键词综合权重,以从大到小的方式排列候选关键词,将排名靠前的候选关键词,作为最终提取的关键词,完成科研成果论文中文文本关键词提取。经测试,此方法可提高科研成果论文中文文本关键词提取精度、提高关键词排名准确性。 展开更多
关键词 语义特征 textRank算法 科研成果论文 中文文本 关键词提取 卷积神经网络
在线阅读 下载PDF
融合FastText模型和注意力机制的网络新闻文本分类模型 被引量:10
8
作者 王婉 张向先 +1 位作者 卢恒 张莉曼 《现代情报》 CSSCI 2022年第3期40-47,共8页
[目的/意义]构建融合Fast Text模型和注意力机制的网络新闻文本分类模型,为网络新闻平台运营提供了智能化的知识组织思路。[方法/过程]基于Word2vec模型与Fast Text模型相结合的词向量模型Ngram2vec进行网络新闻文本的语义表达,并运用... [目的/意义]构建融合Fast Text模型和注意力机制的网络新闻文本分类模型,为网络新闻平台运营提供了智能化的知识组织思路。[方法/过程]基于Word2vec模型与Fast Text模型相结合的词向量模型Ngram2vec进行网络新闻文本的语义表达,并运用融合注意力机制的Bi LSTM;tte模型实现新闻文本分类。[结果/结论]实验结果显示,融合了Fast Text模型与注意力机制的网络新闻文本分类模型使F1值从90.62%提升到92.03%,说明本文提出的文本分类模型能够提升网络新闻文本分类的精确率,对网络新闻平台提升知识组织效率、优化服务水平具有重要参考价值。 展开更多
关键词 网络新闻 文本分类 注意力机制 双向长短期记忆神经网络模型
在线阅读 下载PDF
融合多级语义的中文医疗短文本分类模型
9
作者 杨杰 刘纳 +2 位作者 郑国风 李晨 道路 《郑州大学学报(理学版)》 北大核心 2026年第1期51-57,共7页
针对医疗短文本分类中关键语义信息提取不足与模型鲁棒性下降的问题,提出了融合多级语义信息的文本分类模型。首先,利用预训练模型捕获文本的初步语义特征。其次,通过胶囊网络提取关键语义信息,确保模型能够有效学习到短文本中的核心语... 针对医疗短文本分类中关键语义信息提取不足与模型鲁棒性下降的问题,提出了融合多级语义信息的文本分类模型。首先,利用预训练模型捕获文本的初步语义特征。其次,通过胶囊网络提取关键语义信息,确保模型能够有效学习到短文本中的核心语义;采用注意力池化技术聚焦文本中的文档级信息,增强对医学专业术语和概念的识别与理解。最后,引入对抗训练策略,提升模型在面对模糊表达或扰动输入时的稳定性和准确性。在CHIP-CTC、KUAKE_QIC和VSQ三个医疗文本分类数据集上验证了模型的有效性,结果表明,相较于现有模型,所提模型在三个数据集上的F 1值均有所提升,显著增强了中文医疗短文本的分类性能。 展开更多
关键词 中文医疗数据 短文本分类 语义融合 胶囊网络 注意力池化
在线阅读 下载PDF
中文科技政策文本分类:增强的TextCNN视角 被引量:8
10
作者 李牧南 王良 赖华鹏 《科技管理研究》 CSSCI 北大核心 2023年第2期160-166,共7页
近年尽管针对中文本文分类的研究成果不少,但基于深度学习对中文政策等长文本进行自动分类的研究还不多见。为此,借鉴和拓展传统的数据增强方法,提出集成新时代人民日报分词语料库(NEPD)、简单数据增强(EDA)算法、word2vec和文本卷积神... 近年尽管针对中文本文分类的研究成果不少,但基于深度学习对中文政策等长文本进行自动分类的研究还不多见。为此,借鉴和拓展传统的数据增强方法,提出集成新时代人民日报分词语料库(NEPD)、简单数据增强(EDA)算法、word2vec和文本卷积神经网络(TextCNN)的NEWT新型计算框架;实证部分,基于中国地方政府发布的科技政策文本进行算法校验。实验结果显示,在取词长度分别为500、750和1000词的情况下,应用NEWT算法对中文科技政策文本进行分类的效果优于RCNN、Bi-LSTM和CapsNet等传统深度学习模型,F1值的平均提升比例超过13%;同时,NEWT在较短取词长度下能够实现全文输入的近似效果,可以部分改善传统深度学习模型在中文长文本自动分类任务中的计算效率。 展开更多
关键词 NEWT 深度学习 数据增强 卷积神经网络 政策文本分类 中文长文本
在线阅读 下载PDF
Text-CRNN+attention架构下的多类别文本信息分类 被引量:13
11
作者 卢健 马成贤 +1 位作者 杨腾飞 周嫣然 《计算机应用研究》 CSCD 北大核心 2020年第6期1693-1696,1701,共5页
迄今为止,传统机器学习方法依赖人工提取特征,复杂度高;深度学习网络本身特征表达能力强,但模型可解释性弱导致关键特征信息丢失。为此,以网络层次结合的方式设计了CRNN并引入attention机制,提出一种Text-CRNN+attention模型用于文本分... 迄今为止,传统机器学习方法依赖人工提取特征,复杂度高;深度学习网络本身特征表达能力强,但模型可解释性弱导致关键特征信息丢失。为此,以网络层次结合的方式设计了CRNN并引入attention机制,提出一种Text-CRNN+attention模型用于文本分类。首先利用CNN处理局部特征的位置不变性,提取高效局部特征信息;然后在RNN进行序列特征建模时引入attention机制对每一时刻输出序列信息进行自动加权,减少关键特征的丢失,最后完成时间和空间上的特征提取。实验结果表明,提出模型较其他模型准确率提升了2%~3%;在提取文本特征时,该模型既保证了数据的局部相关性又起到强化序列特征的有效组合能力。 展开更多
关键词 文本分类 卷积神经网络 循环神经网络 convolutional recurrent neural network 注意力机制
在线阅读 下载PDF
基于文本图表征的GAI生成内容与原始 语料的对比研究
12
作者 黄炜 吴昀璟 +1 位作者 余辉 李伟卿 《情报杂志》 北大核心 2026年第2期124-130,F0003,共8页
人工智能生成内容在网络空间中日益泛滥。探究人类生成内容与人工智能生成内容的差异,为未来检测识别人工智能生成内容的研究工作提供参考。以网络新闻文本为例,首先使用依存句法分析方法提取文本语义结构,然后通过随机游走算法提取图... 人工智能生成内容在网络空间中日益泛滥。探究人类生成内容与人工智能生成内容的差异,为未来检测识别人工智能生成内容的研究工作提供参考。以网络新闻文本为例,首先使用依存句法分析方法提取文本语义结构,然后通过随机游走算法提取图向量表征,最后对比原始文本(原始语料)与经过生成式人工智能释义后文本的共性和差异性。研究结果表明,由生成式人工智能释义后的文本之间具有较强的共性,表现为相似度均在0.7以上;原始文本与生成式人工智能释义后的文本具有较强的差异性,并且差异性随模型随机性增加而增加,表现为两者相似度由0.6至0.4逐渐递减。 展开更多
关键词 生成式人工智能 文本图表征 网络新闻文本 人工智能生成内容检测 文本语义结构 依存句法
在线阅读 下载PDF
Mask Text Detector:一种检测自然场景下任意形状的文本分割网络
13
作者 向伟 程博 +3 位作者 杨航 祝来李 武钰智 王雅丽 《西南民族大学学报(自然科学版)》 CAS 2022年第6期660-666,共7页
近年来场景文本检测技术飞速发展,提出一种可适用于任意形状文本检测的新颖算法Mask Text Detector.该算法在Mask R-CNN的基础上,用anchor-free的方法替代了原本的RPN层生成建议框,减少了超参、模型参数和计算量.还提出LQCS(Localizatio... 近年来场景文本检测技术飞速发展,提出一种可适用于任意形状文本检测的新颖算法Mask Text Detector.该算法在Mask R-CNN的基础上,用anchor-free的方法替代了原本的RPN层生成建议框,减少了超参、模型参数和计算量.还提出LQCS(Localization Quality and Classification Score)joint regression,能够将坐标质量和类别分数关联到一起,消除预测阶段不一致的问题.为了让网络区分复杂样本,结合传统的边缘检测算法提出Socle-Mask分支生成分割掩码.该模块在水平和垂直方向上分区别提取纹理特征,并加入通道自注意力机制,让网络自主选择通道特征.我们在三个具有挑战性的数据集(Total-Text、CTW1500和ICDAR2015)中进行了广泛的实验,验证了该算法具有很好的文本检测性能. 展开更多
关键词 目标检测 文本检测 图像处理 分割网络
在线阅读 下载PDF
Sum-Product Networks模型的研究及其在文本分类的应用 被引量:2
14
作者 李俊 《电子设计工程》 2016年第24期42-45,共4页
图模型在机器学习有着广泛的应用。相比图模型,Sum-Product Networks模型具有更强表达能力和更快的推理速度,所以其在对文本和图像数据建模有着广泛的应用。本文总结Sum-Product Networks这一新的深度概率模型的研究进展,先介绍了固定... 图模型在机器学习有着广泛的应用。相比图模型,Sum-Product Networks模型具有更强表达能力和更快的推理速度,所以其在对文本和图像数据建模有着广泛的应用。本文总结Sum-Product Networks这一新的深度概率模型的研究进展,先介绍了固定结构的Sum-Product Networks的参数学习方法,再介绍了根据不同的输入数据而进行的结构和参数学习方法。并且介绍了判别式和生成模型的Sum-Product Networks,最后介绍了Sum-Product Networks在文本分类上的应用。 展开更多
关键词 Sum-Product networks模型 概率模型 数据挖掘算法 文本分类
在线阅读 下载PDF
融合TextCNN与TextRNN模型的谣言识别方法 被引量:4
15
作者 耿唯佳 宋玉蓉 周伟伟 《微电子学与计算机》 2022年第1期31-38,共8页
传统的谣言识别方法耗费人力物力并且准确率较低。为了有效识别社交网络中的谣言,提出一种基于融合模型的谣言识别方法.该方法首先通过BERT预训练模型构建文本句向量;其次构建TextCNN模型挖掘文本的语义特征,构建TextRNN模型用于挖掘文... 传统的谣言识别方法耗费人力物力并且准确率较低。为了有效识别社交网络中的谣言,提出一种基于融合模型的谣言识别方法.该方法首先通过BERT预训练模型构建文本句向量;其次构建TextCNN模型挖掘文本的语义特征,构建TextRNN模型用于挖掘文本的时序特征;最后,对两种模型进行加权融合,实现对谣言的识别.此外,还对原始主流模型进行了改进,一是借鉴Inception模型的思想来增加TextCNN模型的深度,二是将注意力机制注入TextRNN模型中,增加其可解释性和泛化能力.实验结果表明,相较于当前主流的谣言识别方法,该方法准确率可达到97.12%并且F1值可达到97.14%. 展开更多
关键词 社交网络 谣言识别 BERT模型 文本卷积神经网络 文本循环神经网络
在线阅读 下载PDF
基于DAN与FastText的藏文短文本分类研究 被引量:1
16
作者 李果 陈晨 +1 位作者 杨进 群诺 《计算机科学》 CSCD 北大核心 2024年第S01期103-107,共5页
随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行... 随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行无监督训练获得预训练的藏文音节向量集,使用预训练的音节向量集将藏文短文本信息转化为音节向量,把音节向量送入DAN(Deep Averaging Networks)网络并在输出阶段融合经过FastText网络训练的句向量特征,最后通过全连接层和softmax层完成分类。在公开的TNCC(Tibetan News Classification Corpus)新闻标题数据集上所提模型的Macro-F1是64.53%,比目前最好评测结果TiBERT模型的Macro-F1得分高出2.81%,比GCN模型的Macro-F1得分高出6.14%,融合模型具有较好的藏文短文本分类效果。 展开更多
关键词 藏文短文本分类 特征融合 深度平均网络 快速文本
在线阅读 下载PDF
基于BERT和TextCNN的智能制造成熟度评估方法 被引量:5
17
作者 张淦 袁堂晓 +1 位作者 汪惠芬 柳林燕 《计算机集成制造系统》 EI CSCD 北大核心 2024年第3期852-863,共12页
随着智能制造2025目标的临近,企业为了解自身能力水平纷纷加入到智能制造成熟度评估的行列中。然而,由于智能制造成熟度评估标准的复杂性,企业缺乏其对行业水平的了解,导致企业贸然申请,浪费自身时间的同时又占用大量评估资源。鉴于此,... 随着智能制造2025目标的临近,企业为了解自身能力水平纷纷加入到智能制造成熟度评估的行列中。然而,由于智能制造成熟度评估标准的复杂性,企业缺乏其对行业水平的了解,导致企业贸然申请,浪费自身时间的同时又占用大量评估资源。鉴于此,设计了一种新的评估流程,采用文本处理算法对整个评估过程进行了重构,通过利用国标文件中智能制造成熟度评估标准,将其作为训练集,采用基于预训练语言模型与文本神经网络(BERT+TextCNN)相结合的智能评估算法代替人工评估。在真实的企业智能制造数据集上的验证表明,当BERT+TextCNN评估模型在卷积核为[2,3,4]、迭代次数为6次、学习率为3e-5时,对智能制造成熟度进行评估,准确率达到85.32%。这表明所设计的评估方法能够较准确地帮助企业完成智能制造成熟度自评估,有助于企业了解自身智能制造能力水平,制定正确的发展方向。 展开更多
关键词 智能制造成熟度模型 BERT预训练语言模型 文本卷积神经网络 评估过程重构
在线阅读 下载PDF
针对直播弹幕的TextCNN过滤模型 被引量:7
18
作者 明建华 胡创 +1 位作者 周建政 姚金良 《计算机工程与应用》 CSCD 北大核心 2021年第3期162-167,共6页
网络直播的兴起,促使直播弹幕成为一种新型的交流方式。随之而来的还有各类非法弹幕。在识别非法弹幕方面,人工筛选过于低效,传统关键词过滤方法和统计机器学习方法识别率较低,且无法应对变异短文本。如何让机器更高效、更准确地识别非... 网络直播的兴起,促使直播弹幕成为一种新型的交流方式。随之而来的还有各类非法弹幕。在识别非法弹幕方面,人工筛选过于低效,传统关键词过滤方法和统计机器学习方法识别率较低,且无法应对变异短文本。如何让机器更高效、更准确地识别非法弹幕以营造更好的网络环境是一个很有意义的问题。提出了基于文本卷积神经网络(TextCNN)的带噪非法短文本识别方法。通过对带噪短文本的预处理以及利用文本卷积神经网络挖掘字符间的相关特征,极大地提高了直播弹幕中非法短文本的识别率。 展开更多
关键词 直播弹幕 带噪短文本 文本过滤 卷积神经网络
在线阅读 下载PDF
基于BERT字向量和TextCNN的农业问句分类模型分析 被引量:15
19
作者 鲍彤 罗瑞 +2 位作者 郭婷 贵淑婷 任妮 《南方农业学报》 CAS CSCD 北大核心 2022年第7期2068-2076,共9页
【目的】研究不同词向量和深度学习模型组合对农业问句分类结果的影响,为构建农业智能问答系统提供技术支撑。【方法】通过爬虫获取农业种植网等网站的问答数据,选择20000条问句进行人工标注,构建农业问句分类语料库。采用BERT对农业问... 【目的】研究不同词向量和深度学习模型组合对农业问句分类结果的影响,为构建农业智能问答系统提供技术支撑。【方法】通过爬虫获取农业种植网等网站的问答数据,选择20000条问句进行人工标注,构建农业问句分类语料库。采用BERT对农业问句进行字符编码,利用文本卷积神经网络(TextCNN)提取问句高维度特征对农业问句进行分类。【结果】在词向量对比实验中,BERT字向量与TextCNN结合时农业问句分类F1值达93.32%,相比Word2vec字向量提高2.1%。在深度学习模型的分类精度对比方面,TextCNN与Word2vec和BERT字向量结合的F1值分别达91.22%和93.32%,均优于其他模型。在农业问句的细分试验中,BERT-TextCNN在栽培技术、田间管理、土肥水管理和其他4个类别中分类F1值分别为86.06%、90.56%、95.04%和85.55%,均优于其他深度学习模型。超参数设置方面,BERT-TextCNN农业问句分类模型卷积核大小设为[3,4,5]、学习率设为5e-5、迭代次数设为5时效果最优,该模型在数据样本不均衡的情况下,对于农业问句的平均分类准确率依然能达93.00%以上,可满足农业智能问答系统的问句分类需求。【建议】通过阿里NLP等开源平台提升数据标注质量;在分类过程中补充词频和文档特征,提高模型分类精度;农业相关政府职能部门加强合作,积极探索农业技术数字化推广和服务新模式。 展开更多
关键词 农业问句 智能问答系统 问句分类 预训练语言模型(BERT) 文本卷积神经网络
在线阅读 下载PDF
一种基于BERT微调-TextCNN的电信网络诈骗案情文本分类设计 被引量:1
20
作者 杨忠霖 顾益军 《电子测试》 2023年第3期47-53,共7页
为了有效遏制电信网络诈骗案件高发多发态势,公安机关在持续实行高压严打政策的同时,还需注重打防结合,以防为先,突出精准宣传。电信网络诈骗类型多样,各具特点。通过归纳总结特征进行诈骗类型分类,可以达到对受骗者诈骗类型进行预测的... 为了有效遏制电信网络诈骗案件高发多发态势,公安机关在持续实行高压严打政策的同时,还需注重打防结合,以防为先,突出精准宣传。电信网络诈骗类型多样,各具特点。通过归纳总结特征进行诈骗类型分类,可以达到对受骗者诈骗类型进行预测的目的,以帮助公安机关精准宣传。目前,警务实践中通过人工标注的方法过于依赖标注人员个人经验,进而耗费一定警力资源。本文采用了BERT模型与卷积神经网络CNN模型相结合的BERT微调-TextCNN模型。首先,利用BERT微调生成包含上下文信息的动态词向量,然后通过TextCNN提取文本局部特征,最后通过全连接层传入Softmax进行多分类。实验结果表明,在诈骗案情文本分类研究中,相比于TextCNN和BERT微调,BERT微调-TextCNN在准确率上分别提升了7.71%和6.3%,效果显著。借助BERT微调-TextCNN模型快速准确地对诈骗案情文本进行分类,让警务人员快速掌握受骗人被骗类型从而进行精准宣传,可以优化警力资源配置,节省警务成本。 展开更多
关键词 电信网络诈骗 文本分类 BERT textCNN
在线阅读 下载PDF
上一页 1 2 110 下一页 到第
使用帮助 返回顶部