期刊文献+
共找到210篇文章
< 1 2 11 >
每页显示 20 50 100
一种基于日志信息和CNN-text的软件系统异常检测方法 被引量:41
1
作者 梅御东 陈旭 +4 位作者 孙毓忠 牛逸翔 肖立 王海荣 冯百明 《计算机学报》 EI CSCD 北大核心 2020年第2期366-380,共15页
当前,数据挖掘作为一种高时效性、高真实性的分析方法,正在社会中扮演着越发重要的角色,其在大型数据中快速挖掘模式,发现规律的能力正逐步取代人工的作用.而在当前各个计算机领域大行其道的大型分布式系统(如Hadoop、Spark等)的日志中... 当前,数据挖掘作为一种高时效性、高真实性的分析方法,正在社会中扮演着越发重要的角色,其在大型数据中快速挖掘模式,发现规律的能力正逐步取代人工的作用.而在当前各个计算机领域大行其道的大型分布式系统(如Hadoop、Spark等)的日志中,每天都产生着数以百万计的系统日志,这些日志的数据量之庞杂、关系之混乱,已大大影响了程序员对系统的人工监控效率,同时也提高了新程序员的培养成本.为解决以上问题,数据挖掘及系统分析两个领域相结合是一种必然的趋势,也因此,机器学习模型也越来越多地被业界提及用于做系统日志分析.然而大多数情况下,系统日志中,报告系统运行状态为“严重”的日志占少数,而这些少数信息才是程序员最需要关注的,然而大多数用于系统日志分析的机器学习模型都假设训练集的数据是均衡数据,因此这些模型在做系统日志预警时容易过度偏向大样本数据,以至于效果不够理想.本文将从深度学习角度出发,探究深度学习中的CNN-text(CT)在系统日志分析方面的应用能力,通过将CT与主流的系统日志分析机器学习模型SVM、决策树对比,探究CT相对于这些算法的优越性;将CT与CNN-RNN-text(CRT)进行对比,分析CT对特征的处理方式,证实CT在深度学习模型中处理系统日志类文本的优越性;最后将所有模型应用至两套不同的日志类文本数据中进行对比,证明CT的普适性.在CT同日志分析的主流机器学习模型对比的实验中,CT相较于最优模型的结果召回率提升了近15%;在CT同CRT模型对比的实验中,CT相较于更为先进的CRT,模型准确率高出约20%,召回率高出约80%、查准率高出约60%;在CT的普适性实验中,将各类模型融入到本文的实验数据集logstash和公开数据集WC85_1中,在准确率同其他表现较优的模型同为100%的情况下,CT的召回率高出其余召回率最高的模型(DT-Bi)近14%.从中可看出,相较于主流系统日志分析机器学习模型,如支持向量机、决策树、朴素贝叶斯等,CNN-text的局部特征提取能力及非线性拟合能力都有更为优异的表现;同时相较于同为深度学习CNN簇的CNN-RNN-text将大量权重投入到系统日志的序列特征中的特点,CNN-text则报以较少的关注,反而在序列不规则的系统日志中展现出比CNN-RNN-text更优秀的表现.最终证明了CNN-text是本文所提到的方法中最适合进行软件系统异常检测的方法. 展开更多
关键词 系统日志分析 系统异常预警 不均衡数据 机器学习 深度学习 cnn-text
在线阅读 下载PDF
基于Transformer和Text-CNN的日志异常检测
2
作者 尹春勇 张小虎 《计算机工程与科学》 北大核心 2025年第3期448-458,共11页
日志数据作为软件系统中最为重要的数据资源之一,记录着系统运行期间的详细信息,自动化的日志异常检测对于维护系统安全至关重要。随着大型语言模型在自然语言处理领域的广泛应用,基于Transformer的日志异常检测方法被广泛地提出。传统... 日志数据作为软件系统中最为重要的数据资源之一,记录着系统运行期间的详细信息,自动化的日志异常检测对于维护系统安全至关重要。随着大型语言模型在自然语言处理领域的广泛应用,基于Transformer的日志异常检测方法被广泛地提出。传统的基于Transformer的方法,难以捕捉日志序列的局部特征,针对上述问题,提出了基于Transformer和Text-CNN的日志异常检测方法LogTC。首先,通过规则匹配将日志转换成结构化的日志数据,并保留日志语句中的有效信息;其次,根据日志特性采用固定窗口或会话窗口将日志语句划分为日志序列;再次,使用自然语言处理技术Sentence-BERT生成日志语句的语义化表示;最后,将日志序列的语义化向量输入到LogTC日志异常检测模型中进行检测。实验结果表明,LogTC能够有效地检测日志数据中的异常,且在2个数据集上都取得了较好的结果。 展开更多
关键词 日志异常检测 深度学习 词嵌入 TRANSFORMER Text-CNN
在线阅读 下载PDF
基于交通事故文本挖掘的高速公路行车风险改进预测方法
3
作者 胡立伟 侯智 +4 位作者 赵雪亭 刘冰 陈琛 贺雨 张瑞杰 《西南交通大学学报》 北大核心 2025年第6期1487-1498,共12页
为有效解决高速公路巡查里程长、管控难度大等问题,对现有双向长短记忆网络(BiLSTM)文本分类模型及卷积神经网络(CNN)风险预测模型进行适用性改进,分析挖掘历史道路交通事故文本数据,引入道路区段划分方法以准确预测高速公路行车风险分... 为有效解决高速公路巡查里程长、管控难度大等问题,对现有双向长短记忆网络(BiLSTM)文本分类模型及卷积神经网络(CNN)风险预测模型进行适用性改进,分析挖掘历史道路交通事故文本数据,引入道路区段划分方法以准确预测高速公路行车风险分布,实现高速公路行车安全科学管控.首先,基于自注意力机制改进的双向长短期记忆网络(BiLSTM-AT)对交通事故文本进行分类,得到每条事故对应的事故风险等级;其次,在ArcGIS中区段划分高速公路,统计每个区段内的行车风险等级并进行核密度分析,将文本分类结果可视化,展示不同区域的风险大小;最后,基于长短记忆网络(LSTM)的卷积神经网络(CNN-LSTM)对分类后的风险等级进行时间序列预测,得到未来高速公路行车风险的空间分布,得到并绘制高速公路行车风险等级云图.研究结果表明:在事故文本分类方面,BiLSTM-AT模型的分类准确率达到95.03%,较BiLSTM和GRU分别提高0.91%和0.67%;在风险预测方面时,CNN-LSTM的平均相对误差和均方根误差分别为0.04和0.07,相较于次优的LSTM模型分别下降了9.05%和6.84%.本文提出从事故文本分类、区段划分、行车风险预测到结果可视化紧密相接的方法,可有效对交通事故文本中的行车风险信息进行提取及分析,为优化高速公路巡查路线及重点区段的交通管控提供参考. 展开更多
关键词 交通工程 BiLSTM-AT CNN-LSTM 交通事故文本 高速公路行车风险
在线阅读 下载PDF
基于ERNIE-CAB-CNN的稀土专利文本分类模型
4
作者 廖列法 石利娇 《电子技术应用》 2025年第1期18-24,共7页
针对稀土专利文本专业性强的特点以及现有的文本分类方法存在的不足,鉴于类别注意力在计算机视觉领域的广泛应用和取得的良好效果,提出了一种用于文本分类的类别注意力模块(Category Attention Module,CAB),并结合预训练模型ERNIE和卷... 针对稀土专利文本专业性强的特点以及现有的文本分类方法存在的不足,鉴于类别注意力在计算机视觉领域的广泛应用和取得的良好效果,提出了一种用于文本分类的类别注意力模块(Category Attention Module,CAB),并结合预训练模型ERNIE和卷积神经网络(Convolutional Neural Networks,CNN)构建了一个用于稀土专利文本分类的创新模型ERNIE-CAB-CNN。模型使用ERNIE对专利文本进行向量化,得到语义信息更加丰富的向量表示后,通过CAB为文本中各个类别的重要特征赋予较高权值,使模型可以更准确地区分不同类别的特征。最后用CNN进一步提取文本中其他关键局部特征,得到的最终文本向量表示用于分类。通过Patsnap专利数据库官方网站检索下载稀土专利数据构建数据集进行实验,实验结果表明,稀土专利文本分类模型ERNIE-CAB-CNN在测试集上分类的准确率、精确率、F1分数分别为82.68%、83.2%、82.06%,取得了良好的分类效果。 展开更多
关键词 稀土专利分类 文本分类 类别注意力 ERNIE CNN 特征提取
在线阅读 下载PDF
基于多模态财务大数据的智能分析预测模型 被引量:2
5
作者 王伯平 王邦平 《无线电通信技术》 北大核心 2025年第3期501-510,共10页
当前,研究者对财务领域的文本情感分析和语音情感识别越来越感兴趣,因其可以捕捉到企业利益相关者(如管理者和投资者)的意图和意见。结合文本情感信息,企业在预测财务绩效方面取得了显著的性能提升。然而,仅考虑文本情感,对管理者的情... 当前,研究者对财务领域的文本情感分析和语音情感识别越来越感兴趣,因其可以捕捉到企业利益相关者(如管理者和投资者)的意图和意见。结合文本情感信息,企业在预测财务绩效方面取得了显著的性能提升。然而,仅考虑文本情感,对管理者的情感状态以及对财务危机预测的关注度远远不够。因此提出了一种基于多模态财务大数据的智能分析预测模型(Multi Modal Financial Intelligent Model,MMFIM),融合了语音情感特征、文本情感特征以及传统财务特征多模态数据以解决上述问题。MMFIM通过卷积神经网络(Convolutional Neural Network,CNN)模型识别管理者的语音情感状态,利用FinBERT模型抽取文本情感特征,将获得的情感信息与传统的财务指标相融合实现对财务危机更准确的预测。在美国40家最大(按市值计算)企业的1278次财报电话会议数据上对MMFIM模型进行验证,实验结果表明,与现有预测模型相比,所提MMFIM模型具有更高的准确率。 展开更多
关键词 多模态 语音情感识别 文本情感分析 卷积神经网络 FinBERT 财务危机预测
在线阅读 下载PDF
基于长短期记忆网络-卷积神经网络的电力设备缺陷文本归口研究 被引量:1
6
作者 王璇 曹靖 韩培洁 《山西电力》 2025年第1期10-14,共5页
随着电网企业发展,电网生产运营中会产生大量电力设备缺陷文本,其中蕴含着电力设备维护与检修的重要信息。由于缺陷文本是非结构化数据,其价值的挖掘依赖于归口,为提升文本利用效率,提出了一种基于长短期记忆网络-卷积神经网络的电力设... 随着电网企业发展,电网生产运营中会产生大量电力设备缺陷文本,其中蕴含着电力设备维护与检修的重要信息。由于缺陷文本是非结构化数据,其价值的挖掘依赖于归口,为提升文本利用效率,提出了一种基于长短期记忆网络-卷积神经网络的电力设备缺陷文本自动归口模型。以变压器缺陷文本为例开展研究,模型采用长短期记忆网络对词的权重进行学习,卷积神经网络对带权重的词进行特征提取,用softmax进行分类,最终得到文本归口。通过算例分析,证明该模型在准确度、召回率等方面均优于卷积神经网络等常规方法。 展开更多
关键词 电力设备缺陷文本 文本分类 长短期记忆网络 卷积神经网络
在线阅读 下载PDF
基于Text-CNN模型的工程质量信息化研究
7
作者 母晓维 《建筑机械化》 2025年第9期28-32,共5页
针对建设工程质量问题分类的复杂性与数据不平衡问题,提出Text-CNN模型进行智能分类,通过数据预处理与基于语言学规则的数据增强方法解决类别不平衡问题,实现数据集的适度平衡。构建并训练Text-CNN模型,有效实现建设工程质量问题的识别... 针对建设工程质量问题分类的复杂性与数据不平衡问题,提出Text-CNN模型进行智能分类,通过数据预处理与基于语言学规则的数据增强方法解决类别不平衡问题,实现数据集的适度平衡。构建并训练Text-CNN模型,有效实现建设工程质量问题的识别与分类,与SVM和LSTM模型对比,Text-CNN在准确率与召回率及精确率方面具有明显优势,证明了其在建设工程监理信息化中的高效性与实用性。 展开更多
关键词 工程质量 施工监理 卷积神经网络 Text-CNN 信息化
原文传递
基于循环和卷积神经网络的句子级文本情感分类研究
8
作者 昝嵘 《计算机与网络》 2025年第4期357-362,共6页
现有的句子级文本情感分类中,采用简单的词袋模型在获取句子级全局语义表示时,只能捕捉文本中的部分上下文关系和语义依赖,导致情感分类的准确性降低。为此,提出基于循环和卷积神经网络(Convolutional Neural Network,CNN)的句子级文本... 现有的句子级文本情感分类中,采用简单的词袋模型在获取句子级全局语义表示时,只能捕捉文本中的部分上下文关系和语义依赖,导致情感分类的准确性降低。为此,提出基于循环和卷积神经网络(Convolutional Neural Network,CNN)的句子级文本情感分类研究。对句子级文本进行预处理,去除高频但无实际情感贡献的停用词,利用Word2Vec词嵌入技术和Skip-gram模型训练词向量。通过长短时记忆(Long Short Term Memory,LSTM)网络对预处理后的文本进行建模,得到句子级的全局语义表示。利用CNN对句子级文本语义特征进行提取,通过设定卷积核参数并进行卷积运算,结合分段池化技术,形成丰富的特征向量。采用softmax函数作为分类机制,将特征向量转化为情感分类的条件概率分布,判断句子级文本的情感类别。实验结果表明,所提方法在混淆矩阵和曲线下面积(Area Under Curve,AUC)值上均优于对比方法,可实现更加精准的句子级文本情感分类。 展开更多
关键词 循环神经网络 卷积神经网络 句子级文本 情感分类 语义表示
在线阅读 下载PDF
基于R-CNN的中医医案诊断分类方法
9
作者 邱雪峰 查青林 朱根华 《现代信息科技》 2025年第13期47-52,57,共7页
针对中医医案中常见的复杂语句结构,以及在诊断分类中上下文语义捕捉不足的问题,文章提出一种基于RoBERTa、R-CNN和多头自注意力机制的中医医案诊断分类模型。首先,通过RoBERTa对文本进行预训练,获取深层语义表示,增强上下文理解能力。... 针对中医医案中常见的复杂语句结构,以及在诊断分类中上下文语义捕捉不足的问题,文章提出一种基于RoBERTa、R-CNN和多头自注意力机制的中医医案诊断分类模型。首先,通过RoBERTa对文本进行预训练,获取深层语义表示,增强上下文理解能力。然后,采用R-CNN提取局部特征信息,捕捉语义与症状。进一步引入多头自注意力机制,强化长距离依赖关系建模,获取文本中的关键信息。该模型充分结合全局语义与局部特征,提升分类准确性。实验结果表明,模型在诊断分类任务中的预测精度和F1值分别达80.89%和79.76%,有效改善了文本分类性能。 展开更多
关键词 中医医案 R-CNN RoBERTa 多头自注意力机制 文本分类
在线阅读 下载PDF
融合文本分析和CNN-BiLSTM模型的校园霸凌舆情分析——以邯郸初中生被害案为例 被引量:1
10
作者 黄金柱 杨云飞 +2 位作者 周丹萍 王淑影 王纯杰 《情报探索》 2025年第1期64-71,共8页
[目的/意义]校园霸凌是一种严重影响学生身心健康的现象,在教育领域和社会中引起了广泛关注。本文旨在深入研究校园霸凌事件,揭示公众对校园霸凌的态度和看法。[方法/过程]应用Python软件爬取公众对某校园霸凌热点事件的微博评论数据,... [目的/意义]校园霸凌是一种严重影响学生身心健康的现象,在教育领域和社会中引起了广泛关注。本文旨在深入研究校园霸凌事件,揭示公众对校园霸凌的态度和看法。[方法/过程]应用Python软件爬取公众对某校园霸凌热点事件的微博评论数据,使用文本分析和CNN-BiLSTM模型对该事件中民众的主要观点进行情感分析研究。[结果/结论]通过实例分析说明了该模型具有更好的预测准确率,并得到舆论关注的热点,提出舆论应对建议。 展开更多
关键词 教育舆情 校园霸凌 文本分析 情感分析 CNN-BiLSTM模型
在线阅读 下载PDF
基于改进ADAM算法的变电站SCD文本分词方法
11
作者 郑翔 陈韶昱 +3 位作者 吴俊飞 阮黎翔 骆兆军 徐小俊 《微型电脑应用》 2025年第1期255-258,共4页
针对电力领域文本数据分词准确性较低的问题,提出一种基于改进ADAM(adaptive moment estimation)算法的中文分词技术。选用Skip-Gram模型作为字嵌入模型,将字词转为分布式向量,搭建卷积神经网络-门控循环单元-条件随机场(CNN-Bi-GRU-CRF... 针对电力领域文本数据分词准确性较低的问题,提出一种基于改进ADAM(adaptive moment estimation)算法的中文分词技术。选用Skip-Gram模型作为字嵌入模型,将字词转为分布式向量,搭建卷积神经网络-门控循环单元-条件随机场(CNN-Bi-GRU-CRF)模型实现电力领域文本语句的分割,提出一种改进的ADAM算法,通过控制不同时间窗口的学习率优化神经网络模型,提高模型训练速度。将所提算法运用于变电站SCD(system configuration description)文本数据分词的算例分析,通过与其他主流分词算法进行比较,验证所提分词技术的先进性与准确性。 展开更多
关键词 中文分词技术 ADAM算法 CNN-Bi-GRU-CRF 变电站SCD文本
在线阅读 下载PDF
基于双通道和注意力机制的多特征融合的文本情感分类模型
12
作者 邓治文 张龙健 +1 位作者 李锦辉 魏其武 《软件工程》 2025年第12期1-5,共5页
针对单一模型在文本分类时难以捕捉丰富语义信息的问题,提出了一种基于双通道和注意力机制的多特征融合的文本情感分类模型(MFF-DCAM)。首先,利用BERT-WWM-EXT获取文本词向量;其次,分别使用多尺度卷积神经网络和双向长短期记忆网络提取... 针对单一模型在文本分类时难以捕捉丰富语义信息的问题,提出了一种基于双通道和注意力机制的多特征融合的文本情感分类模型(MFF-DCAM)。首先,利用BERT-WWM-EXT获取文本词向量;其次,分别使用多尺度卷积神经网络和双向长短期记忆网络提取局部特征和上下文特征;再次,拼接两个特征并使用注意力机制对该特征加权;然后,使用全局平均池化突出句子整体信息;最后,使用Softmax函数进行分类。实验结果表明,MFFDCAM模型的准确率、精确率和F1值优于8个基准模型,验证了该模型在提升文本情感分类方面的有效性。 展开更多
关键词 双通道 注意力机制 BiLSTM模型 Text-CNN模型
在线阅读 下载PDF
基于BERT-CNN-SIFRank的智能预问诊模型研究与设计
13
作者 崔晓笛 吴冠朋 刘文强 《中国数字医学》 2025年第8期65-71,共7页
目的:研究并设计智能预问诊模型,模拟医生实际问诊过程,准确了解患者就诊意图,自动解答患者提出的问题,减少患者问诊等待时间,提升患者就医体验,提高医生接诊效率。方法:基于深度学习技术构建智能预问诊模型,设计基于BERT-CNN的医疗文... 目的:研究并设计智能预问诊模型,模拟医生实际问诊过程,准确了解患者就诊意图,自动解答患者提出的问题,减少患者问诊等待时间,提升患者就医体验,提高医生接诊效率。方法:基于深度学习技术构建智能预问诊模型,设计基于BERT-CNN的医疗文本分类模型实现患者问题分类,利用基于SIFRank的医疗文本关键词抽取模型提取患者问题关键词,进而获取患者医疗问题意图。结果:基于BERT-CNN的医疗文本分类模型在公开数据集上的F1值达到82.84%,有效提高了医疗文本分类准确率。结论:基于BERT-CNNSIFRank的智能预问诊模型丰富了预问诊研究技术路线,为构建高效、智能、个性化的预问诊系统提供了理论模型基础,有利于促进互联网医院高质量发展。 展开更多
关键词 预问诊模型 医疗文本分类 医疗关键词抽取 BERT CNN
在线阅读 下载PDF
融合主题信息的卷积神经网络文本分类方法研究 被引量:20
14
作者 杨锐 陈伟 +3 位作者 何涛 张敏 李蕊伶 岳芳 《现代情报》 CSSCI 2020年第4期42-49,共8页
[目的/意义]针对能源政策语义信息丰富的特点,研究不同环境下卷积神经网络模型对能源政策文本特征分类识别的效果并提出优化方法,辅助能源政策信息资源进行自动分类操作,方便研究人员更好地进行能源政策解读。[方法/过程]在不同环境下... [目的/意义]针对能源政策语义信息丰富的特点,研究不同环境下卷积神经网络模型对能源政策文本特征分类识别的效果并提出优化方法,辅助能源政策信息资源进行自动分类操作,方便研究人员更好地进行能源政策解读。[方法/过程]在不同环境下利用字符级和词级卷积神经网络模型对能源政策自动文本分类识别效果进行实验,从标题、内容、核心主题句等角度全面对比分析,利用Doc2Vec抽取不同比例核心主题句,将这些主题信息融入卷积神经网络模型中以对实验进行优化。[结果/结论]随着核心主题句抽取率的提高F1均值呈正态分布,当抽取率为70%时达到平衡,神经网络模型评估F1均值为83.45%,较实验中的其它方法均有所提高,通过Doc2Vec提取主题信息,并将其融入卷积神经网络的方法有效提升了卷积神经网络模型自动文本分类的效果。 展开更多
关键词 能源政策 卷积神经网络 文本分类 词向量 文本向量
在线阅读 下载PDF
基于双注意力机制和迁移学习的跨领域推荐模型 被引量:22
15
作者 柴玉梅 员武莲 +1 位作者 王黎明 刘箴 《计算机学报》 EI CSCD 北大核心 2020年第10期1924-1942,共19页
跨领域推荐可用于解决单一领域数据稀疏导致的推荐系统性能退化问题,还可以缓解推荐系统中存在的用户冷启动问题.然而,现有的方法大多利用用户对项目的评分进行建模,忽略了评论文本所蕴含的信息.为此,本文提出了一种基于双注意力机制和... 跨领域推荐可用于解决单一领域数据稀疏导致的推荐系统性能退化问题,还可以缓解推荐系统中存在的用户冷启动问题.然而,现有的方法大多利用用户对项目的评分进行建模,忽略了评论文本所蕴含的信息.为此,本文提出了一种基于双注意力机制和迁移学习的跨领域推荐模型,首先通过CNN对评论文本建模,提取用户和项目特征;其次通过构造融合词的上下文关系的词注意力机制从评论文本中捕获词级别的信息,以提升CNN对文本中重点信息的关注度;然后通过构造特征突显机制从CNN提取到的用户特征和项目特征中捕获特征级别的信息;最后引入迁移学习,通过同时提取领域特有的特征和领域间的共享特征进行不同领域之间的联合建模,进行评分预测.本文在Amazon数据集上进行了实验比较与分析,首先对本文模型的推荐性能进行评估,与现有的跨领域推荐模型相比,在两种不同的跨领域数据集上平均绝对误差分别提升6.1%和9.15%,均方根误差分别提升3.66%和7.01%;然后对本文模型的知识迁移性能进行评估,与现有的单领域推荐模型相比,在不同数据集下均方误差分别提升5.47%和10.35%;最后通过实验验证了本文提出的注意力机制的有效性,及在缓解数据稀疏问题和用户冷启动问题方面的优势,也验证了模型的普适性. 展开更多
关键词 推荐系统 迁移学习 跨领域 CNN 评论文本
在线阅读 下载PDF
基于吸引子传播聚类的改进双通道CNN短文本分类算法 被引量:9
16
作者 王儒 刘培玉 王培培 《小型微型计算机系统》 CSCD 北大核心 2017年第8期1730-1734,共5页
传统的文本分类方法在处理短文本分类任务时遇到了很大的困难,针对短文本分类任务上的数据稀疏等难点,本文尝试在短文本特征输入和卷积神经网络结构上进行改进.在特征表示Word embedding训练时采取non-static和static两种方式,将训练好... 传统的文本分类方法在处理短文本分类任务时遇到了很大的困难,针对短文本分类任务上的数据稀疏等难点,本文尝试在短文本特征输入和卷积神经网络结构上进行改进.在特征表示Word embedding训练时采取non-static和static两种方式,将训练好的Word embedding进行聚类处理,聚类得到的Word embedding库作为模型输入的词典库;提出一种改进的双通道卷积神经网络结构,网络通过双通道获取更多的局部敏感信息增加特征数目,然后经过连续的池化实现特征抽取.经实验验证,提出的语义聚类处理和改进的网络模型与传统的机器学习方法相比,在短文本分类任务的准确率上有显著的提升. 展开更多
关键词 词向量聚类 短文本 CNN 分类
在线阅读 下载PDF
基于文本挖掘的铁路信号设备故障自动分类方法 被引量:14
17
作者 林海香 陆人杰 +1 位作者 卢冉 许丽 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第2期281-289,共9页
铁路信号设备在运营维护过程中积累了大量以文本方式记录的维护数据,为了实现高效准确分类,提出将Word2vec、SMOTE算法与卷积神经网络(Convolutional Neural Networks,CNN)相结合的铁路信号设备故障文本自动分类方法.首先,对故障文本使... 铁路信号设备在运营维护过程中积累了大量以文本方式记录的维护数据,为了实现高效准确分类,提出将Word2vec、SMOTE算法与卷积神经网络(Convolutional Neural Networks,CNN)相结合的铁路信号设备故障文本自动分类方法.首先,对故障文本使用自然语言方法完成预处理,并采用Word2vec训练词向量;其次,通过SMOTE算法自动生成小类别文本向量数据,嵌入至CNN的输入层;再次,利用CNN的卷积层和池化层提取故障文本的局部上下文高层特征;最后,通过softmax分类器对故障文本自动分类.依据某铁路局所记录的信号设备故障文本数据进行实验分析并与其他方法对比,实验结果表明新方法可使各评价指标得到明显提升,其中分类准确率和召回率分别达到95.26%和94.32%,可以作为铁路信号设备故障自动分类的有效方法. 展开更多
关键词 铁路信号设备 Word2vec SMOTE算法 卷积神经网络 故障文本数据 自动分类
在线阅读 下载PDF
卷积神经网络的短文本分类方法 被引量:13
18
作者 陈巧红 王磊 +1 位作者 孙麒 贾宇波 《计算机系统应用》 2019年第5期137-142,共6页
短文本分类是自然语言处理的一个研究热点.为提高文本分类精度和解决文本表示稀疏问题,提出了一种全新的文本表示(N-of-DOC)方法.采用Word2Vec分布式表示一个短语,将其转换成的向量作为卷积神经网络模型的输入,经过卷积层和池化层提取... 短文本分类是自然语言处理的一个研究热点.为提高文本分类精度和解决文本表示稀疏问题,提出了一种全新的文本表示(N-of-DOC)方法.采用Word2Vec分布式表示一个短语,将其转换成的向量作为卷积神经网络模型的输入,经过卷积层和池化层提取高层特征,输出层接分类器得出分类结果.实验结果表明,与传统机器学习(K近邻,支持向量机,逻辑斯特回归,朴素贝叶斯)相比,提出的方法不仅能解决中文文本向量的维数灾难和稀疏问题,而且在分类精度上也比传统方法提高了4.23%. 展开更多
关键词 卷积神经网络 短文本分类 文本表示 机器学习 深度学习
在线阅读 下载PDF
基于卷积神经网络的互联网短文本分类方法 被引量:14
19
作者 郭东亮 刘小明 郑秋生 《计算机与现代化》 2017年第4期78-81,共4页
互联网短文本的分类是自然语言处理的一个研究热点。本文提出一种基于卷积神经网络(Convolutional Neural Networks,CNNs)互联网短文本分类方法。首先通过Word2vec的Skip-gram模型获得短文特征,接着送入CNNs中进一步提取高层次特征,最... 互联网短文本的分类是自然语言处理的一个研究热点。本文提出一种基于卷积神经网络(Convolutional Neural Networks,CNNs)互联网短文本分类方法。首先通过Word2vec的Skip-gram模型获得短文特征,接着送入CNNs中进一步提取高层次特征,最后通过K-max池化操作后放入Softmax分类器得出分类模型。在实验中,该方法和机器学习方法以及DBN方法相比,结果表明本文方法不仅解决了文本向量的维数灾难和局部最优解问题,而且有效地提高了互联网短文本两级分类准确率,证实了基于CNNs的互联网短文本分类的有效性。 展开更多
关键词 卷积神经网络 短文本分类 深度学习 机器学习
在线阅读 下载PDF
基于跳转LSTM-CNN模型的Twitter情感分析 被引量:3
20
作者 李俭兵 王俊 +1 位作者 许萌萌 王成 《计算机仿真》 北大核心 2021年第8期478-481,496,共5页
针对LSTM-CNN网络模型接收句子输入训练时间长、处理较长文本时效率低下问题,提出了一种基于跳转的LSTM-CNN模型。新的模型首先在读取文本序列时进行跳转判断,即在每一步中,利用两层感知机从前向序列、后向序列和当前单词中提取信息,确... 针对LSTM-CNN网络模型接收句子输入训练时间长、处理较长文本时效率低下问题,提出了一种基于跳转的LSTM-CNN模型。新的模型首先在读取文本序列时进行跳转判断,即在每一步中,利用两层感知机从前向序列、后向序列和当前单词中提取信息,确定是否跳过当前单词。然后利用LSTM分析跳转后的序列语义以及提取其特征,在CNN模型进一步提取局部特征。最后合并到较小的维度,并以正或负标签输出。相比基于LSTM-CNN的模型,上述方法大大降低了网络训练时间,在效率和性能上都产生更好的效果。 展开更多
关键词 长短时记忆网络 卷积神经网络 文本情感分析 跳转机制
在线阅读 下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部