期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
基于HowNet义原和Word2vec词向量表示的多特征融合消歧方法 被引量:7
1
作者 王伟 赵尔平 +1 位作者 崔志远 孙浩 《计算机应用》 CSCD 北大核心 2021年第8期2193-2198,共6页
针对目前词向量表示低频词质量差,表示的语义信息容易混淆,以及现有的消歧模型对多义词不能准确区分等问题,提出一种基于词向量融合表示的多特征融合消歧方法。该方法将使用知网(HowNet)义原表示的词向量与Word2vec生成的词向量进行融... 针对目前词向量表示低频词质量差,表示的语义信息容易混淆,以及现有的消歧模型对多义词不能准确区分等问题,提出一种基于词向量融合表示的多特征融合消歧方法。该方法将使用知网(HowNet)义原表示的词向量与Word2vec生成的词向量进行融合来补全词的多义信息以及提高低频词的表示质量。首先计算待消歧实体与候选实体的余弦相似度来获得二者的相似度;其次使用聚类算法和知网知识库来获取实体类别特征相似度;然后利用改进的潜在狄利克雷分布(LDA)主题模型来抽取主题关键词以计算实体主题特征相似度,最后通过加权融合以上三类特征相似度实现多义词词义消歧。在西藏畜牧业领域测试集上进行的实验结果表明,所提方法的准确率(90.1%)比典型的图模型消歧方法提高了7.6个百分点。 展开更多
关键词 消歧 义原 词向量融合 特征融合 多义词
在线阅读 下载PDF
不同基本单元信息融合的藏文短文本摘要生成 被引量:1
2
作者 夏吾吉 黄鹤鸣 +2 位作者 樊永红 更藏措毛 范玉涛 《计算机工程》 北大核心 2025年第6期174-183,共10页
藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,... 藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,但由于藏文受分词技术的限制,直接以词作为文本摘要生成的基本单元,对性能的影响较大。针对上述问题,构建包含10523条文本-摘要对的多领域藏文短文本摘要数据集TB-SUM,在研究藏文文本构成单元的基础上,提出适用于藏文文本摘要生成的不同基本单元融合方法,并构建融合不同基本单元的藏文文本摘要生成模型Fusion_GloVe_GRU_Atten,利用全局词向量表示(GloVe)模块实现藏文文本向量化后通过双向门控循环单元(Bi-GRU)模块对输入向量进行编码,利用注意力机制获取输入向量的完整语义信息,使解码器更加关注与当前单词相关的编码器输出,同时将GRU作为解码器生成藏文摘要。在数据集TB-SUM和Ti-SUM上的实验结果表明,以音节和词的融合作为模型训练的基本单元,以音节作为测试的基本单元时,Fusion_GloVe_GRU_Atten模型生成短文本摘要效果更好,能得到更高的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分数。 展开更多
关键词 基本单元 信息融合 词向量 数据集构建 藏文短文本摘要生成
在线阅读 下载PDF
基于多特征融合与双向RNN的细粒度意见分析 被引量:19
3
作者 郝志峰 黄浩 +1 位作者 蔡瑞初 温雯 《计算机工程》 CAS CSCD 北大核心 2018年第7期199-204,211,共7页
文本细粒度意见分析主要有属性抽取和基于属性的情感分类2个任务,现有方法完成上述任务采用条件随机场(CRF)训练属性抽取模型,并运用循环神经网络(RNN)训练基于属性的情感分类模型。但同时完成2个任务则无法找到属性和情感倾向的对应关... 文本细粒度意见分析主要有属性抽取和基于属性的情感分类2个任务,现有方法完成上述任务采用条件随机场(CRF)训练属性抽取模型,并运用循环神经网络(RNN)训练基于属性的情感分类模型。但同时完成2个任务则无法找到属性和情感倾向的对应关系。针对该问题,提出利用双向RNN构建基于序列标注的细粒度意见分析模型。通过融合文本的词向量、词性和依存关系等语言学特征,学习文本的修饰和语义信息,并设计一个时间序列标注模型,同时抽取属性实体判断文本的情感极性。在真实数据集上的实验结果表明,与CRF、TD-LSTM、AELSTM等模型相比,该模型情感分类效果提升明显。 展开更多
关键词 特征融合 词向量 循环神经网络 属性抽取 细粒度意见分析
在线阅读 下载PDF
基于字词向量融合的民航智慧监管短文本分类 被引量:2
4
作者 王欣 干镞锐 +2 位作者 许雅玺 史珂 郑涛 《中国安全科学学报》 CAS CSCD 北大核心 2024年第2期37-44,共8页
为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题... 为解决民航监管事项所产生的检查记录仅依靠人工进行分类分析导致效率低的问题,提出一种基于数据增强与字词向量融合的双通道特征提取的短文本分类模型,探讨民航监管事项的分类,包括与人、设备设施环境、制度程序和机构职责等相关问题。为解决类别不平衡问题,采用数据增强算法在原始文本上进行变换,生成新的样本,使各个类别的样本数量更加均衡。将字向量和词向量按字融合拼接,得到具有词特征信息的字向量。将字词融合的向量分别送入到文本卷积神经网络(TextCNN)和双向长短期记忆(BiLSTM)模型中进行不同维度的特征提取,从局部的角度和全局的角度分别提取特征,并在民航监管事项检查记录数据集上进行试验。结果表明:该模型准确率为0.9837,F 1值为0.9836。与一些字嵌入模型和词嵌入模型相对比,准确率提升0.4%。和一些常用的单通道模型相比,准确率提升3%,验证了双通道模型提取的特征具有全面性和有效性。 展开更多
关键词 字词向量融合 民航监管 短文本 文本卷积神经网络(TextCNN) 双向长短期记忆(BiLSTM)
原文传递
基于低维语义向量模型的语义相似度度量 被引量:7
5
作者 蔡圆媛 卢苇 《中国科学技术大学学报》 CAS CSCD 北大核心 2016年第9期719-726,共8页
语义相似性度量能够提高信息检索的准确性和效率,已成为文本处理中的一个核心任务.为解决一词多义等词汇歧义问题,提出一种基于低维向量组合的语义向量模型.该模型引入了知识库与语料库的多语义特征的融合,主要的语义融合对象包括连续... 语义相似性度量能够提高信息检索的准确性和效率,已成为文本处理中的一个核心任务.为解决一词多义等词汇歧义问题,提出一种基于低维向量组合的语义向量模型.该模型引入了知识库与语料库的多语义特征的融合,主要的语义融合对象包括连续的分布式词向量和从WordNet结构中的语义特征信息.首先利用深度学习技术中的神经网络语言模型,预先从文本语料中学习得到连续的低维词向量;然后从知识库WordNet中抽取多种语义信息和关系信息;再将多语义信息融入词向量进行知识扩展和强化,生成语义向量,从而实现基于向量空间的语义相似性度量方法.在基准测试集上的实验结果表明,该方法优于基于单一信息源(知识库WordNet或文本语料)的语义相似性度量方法,其皮尔森相关系数比基于原始词嵌套向量的方法提高了7.5%,说明在向量特征层面上的多语义信息的融合有助于度量词汇间的语义相似性. 展开更多
关键词 语义向量 特征融合 分布式词嵌套 语义相似度
在线阅读 下载PDF
多特征融合的遥感图像分类 被引量:17
6
作者 刘帅 李士进 冯钧 《数据采集与处理》 CSCD 北大核心 2014年第1期108-115,共8页
针对高分辨率遥感图像特点,提出了一种多特征融合的分类方法。该方法首先改进了原始的视觉词袋生成算法;然后,分别提取图像的视觉词袋局部特征、颜色直方图特征以及Gabor纹理特征;最后采用支持向量机进行分类,并对多特征分类结果进行自... 针对高分辨率遥感图像特点,提出了一种多特征融合的分类方法。该方法首先改进了原始的视觉词袋生成算法;然后,分别提取图像的视觉词袋局部特征、颜色直方图特征以及Gabor纹理特征;最后采用支持向量机进行分类,并对多特征分类结果进行自适应综合。采用一个具有2 100幅图像的大型遥感图像分类公共测试数据集进行分类实验,与仅用单一特征分类方法的最高分类精度相比,本文多特征融合的遥感影像分类方法总体平均分类精度提高了10%,表明本文提出方法是一种有效的高分辨率遥感图像分类方法。 展开更多
关键词 高分辨率遥感图像 多特征融合 视觉词袋 支持向量机
在线阅读 下载PDF
基于局部特征和全局特征融合的微博情感分析 被引量:1
7
作者 胥桂仙 陈思瑾 +2 位作者 孟月婷 张廷 于绍娜 《中南民族大学学报(自然科学版)》 CAS 北大核心 2023年第4期526-534,共9页
目前的神经网络一般只将词粒度层面的词向量作为输入,忽略了语义层面的全局语义特征.针对此问题,提出了一种基于局部特征和全局特征融合的情感分类方法,以解决评论特征稀疏和主题聚焦性差的问题.对于局部特征,选择基于情感词典和BiLSTM... 目前的神经网络一般只将词粒度层面的词向量作为输入,忽略了语义层面的全局语义特征.针对此问题,提出了一种基于局部特征和全局特征融合的情感分类方法,以解决评论特征稀疏和主题聚焦性差的问题.对于局部特征,选择基于情感词典和BiLSTM神经网络模型提取基于词向量的文本特征.对于文本集的全局主题特征,采用神经主题模型提取文本主题特征,并将其作为全局特征来表示短文本信息.最终将基于局部加权词向量的文本特征和基于神经主题模型的文本主题特征进行拼接,并通过Softmax层输出,完成文本情感分类.结果表明:融合全局主题语义和局部加权词向量可以更加丰富神经网络的特征,从而有效地提高情感分类的准确率. 展开更多
关键词 情感分析 特征融合 神经主题模型 词向量
在线阅读 下载PDF
多模型加权融合的文本相似度计算 被引量:7
8
作者 田红鹏 马博 冯健 《计算机工程与设计》 北大核心 2021年第11期3239-3245,共7页
目前传统的文本相似度方法大多数存在未考虑语义及结构信息,容易忽略文本特征细节信息等问题。针对上述问题,提出多模型加权融合的文本相似度计算算法。利用词频、词性、词句位置3个特征共同计算句子相似度;为发现文本的结构信息方面,... 目前传统的文本相似度方法大多数存在未考虑语义及结构信息,容易忽略文本特征细节信息等问题。针对上述问题,提出多模型加权融合的文本相似度计算算法。利用词频、词性、词句位置3个特征共同计算句子相似度;为发现文本的结构信息方面,提出分层池化IIG-SIF用于计算文本的相似程度;结合前两个环节的相似度模型构建一种线性加权模型,汇集两个算法使结果更为精确。实验结果表明,该算法能够提高准确率和召回率,在不同语种和粒度的数据集上均得到更优的实验结果。 展开更多
关键词 文本相似度 特征融合 词移距离 分层池化 句向量
在线阅读 下载PDF
基于词汇增强的中文命名实体识别方法
9
作者 生龙 张有强 吴迪 《现代电子技术》 2022年第7期157-162,共6页
针对中文命名实体识别中词嵌入表示不充分,以及传统分词方法存在分词错误引起误差传播的问题,提出两种词嵌入编码策略,并结合预训练语言模型BERT增强文本的初始向量表示。输入向量以字为单位,通过输入句子与词汇库匹配的方式,为每一个... 针对中文命名实体识别中词嵌入表示不充分,以及传统分词方法存在分词错误引起误差传播的问题,提出两种词嵌入编码策略,并结合预训练语言模型BERT增强文本的初始向量表示。输入向量以字为单位,通过输入句子与词汇库匹配的方式,为每一个歧义字符引入多种可能的分词情况,然后利用提出的两种策略将多个词向量进行融合;通过统计数据集中所有词语的词频,为词向量引入词频信息,使得模型倾向于学习词频较高的词向量,减少了错误分词带来的噪声问题。利用BERT模型根据上下文语境生成动态字向量,将字向量和融合后的词向量拼接作为双向长短期记忆网络的输入,最后利用条件随机场进行标签解码。在MSRA和Resume数据集上进行仿真实验,F;值分别提高了2.01%和1.55%。 展开更多
关键词 命名实体识别 词汇增强 词嵌入 预训练语言模型 向量表示 词向量融合 标签解码
在线阅读 下载PDF
基于煤矿井下不安全行为知识图谱构建方法 被引量:6
10
作者 付燕 刘致豪 叶鸥 《工矿自动化》 CSCD 北大核心 2024年第1期88-95,共8页
虽然知识图谱已广泛应用于各个领域,但在煤矿安全方面,尤其在煤矿井下不安全行为方面的研究较少。构建了一种自底向上的煤矿井下不安全行为知识图谱。首先,采用传统机器学习和深度学习算法相结合的方法进行命名实体识别,采用RoBERTa进... 虽然知识图谱已广泛应用于各个领域,但在煤矿安全方面,尤其在煤矿井下不安全行为方面的研究较少。构建了一种自底向上的煤矿井下不安全行为知识图谱。首先,采用传统机器学习和深度学习算法相结合的方法进行命名实体识别,采用RoBERTa进行词语向量化,采用双向长短时记忆网络(BiLSTM)对向量进行标注,提高网络模型对上下文特征的捕捉能力,通过多层感知机(MLP)解决煤矿井下不安全行为数据集数据量不足的问题,采用条件随机场(CRF)模型解决前面存在的单词关系不识别问题,并捕获全文信息和预测结果。其次,根据语句的结构特点,设计了基于知识“实体-关系-实体”三元组的依存句法树结构,对井下不安全行为领域的知识资源进行知识抽取与表示。最后,构建面向井下不安全行为的知识图谱。实验结果表明:(1) RoBERTaBiLSTM-MLP-CRF模型对于导致结果、违反性行为、错误性行为及粗心性行为4类实体类别具有较好的识别效果,其准确率分别为86.7%,80.3%,80.7%,77.4%。(2)在相同的数据集下,RoBERTa-BiLSTM-MLP-CRF模型训练的准确率、召回率、F1值较RoBERTa-BiLSTM-CRF模型分别提高了1.6%,1.5%,1.6%。 展开更多
关键词 井下不安全行为 知识图谱 依存句法 命名实体识别 知识三元组 知识融合 知识存储 词语向量化
在线阅读 下载PDF
多特征融合的中文短文本分类模型 被引量:14
11
作者 杨朝强 邵党国 +2 位作者 杨志豪 相艳 马磊 《小型微型计算机系统》 CSCD 北大核心 2020年第7期1421-1426,共6页
针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm M... 针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm Memory)、CNN(Convolutional Neural Networks)和CAPSNET(Capsule Network)模型对短文本进行不同层面的特征提取,并使用Self-attention模型动态调节各模型特征在最终特征构建中的权重系数.在实验部分,本文用MFFM方法与四个短文本分类经典模型(CNN、BILSTM、CAPSNET和CNN-BILSTM)在三个中文短文本数据集上进行验证,为了进一步验证数据融合(将三个中文短文本数据正负样本融合)对MFFM的影响,实验结果表明MFFM模型性能在四个评价指标(F1、Recall、Precision、Accuracy)下优于对比模型.总之,这可表明M FFM是短文本分类模型的一个有用框架. 展开更多
关键词 中文短文本分类 字词向量结合 特征融合 Self-attention模型
在线阅读 下载PDF
基于预训练语言模型词向量融合的情感分析研究 被引量:5
12
作者 魏上斐 乔保军 +1 位作者 于俊洋 姚相宇 《计算机应用与软件》 北大核心 2021年第5期152-157,共6页
针对传统情感分类模型的分类效果不足,无法准确地捕捉词语之间关系的问题,提出一种基于预训练语言模型词向量融合的GE-BiLSTM(Glove-ELMO-BiLSTM)情感分析模型。通过预训练语言模型ELMO以语言模型为目的训练词向量,再与传统的Glove模型... 针对传统情感分类模型的分类效果不足,无法准确地捕捉词语之间关系的问题,提出一种基于预训练语言模型词向量融合的GE-BiLSTM(Glove-ELMO-BiLSTM)情感分析模型。通过预训练语言模型ELMO以语言模型为目的训练词向量,再与传统的Glove模型的训练结果进行运算融合,结合了全局信息以及局部上下文信息,增加了词向量矩阵的稠密度,词语之间的特征得到更好的表达,结合BiLSTM神经网络可以更好地捕捉上下文信息的关系。实验结果证明:GE-BiLSTM情感分析模型可以达到更好的分类效果,准确率比传统模型提高了2.3百分点,F1值提升了0.024。 展开更多
关键词 GLOVE 预训练语言模型 ELMO 词向量融合 BiLSTM 情感分析
在线阅读 下载PDF
基于词向量融合的遥感场景零样本分类算法 被引量:2
13
作者 吴晨 袁昱纬 +3 位作者 王宏伟 刘宇 刘思彤 全吉成 《计算机科学》 CSCD 北大核心 2019年第12期286-291,共6页
零样本分类算法无须标注要识别的类别样本,因而能大幅度降低实际应用成本,近年来受到广泛关注。遥感场景类别的语义词向量与图像特征空间原型的结构不一致问题,严重影响了遥感场景零样本的分类效果。利用不同词向量间的互补性,文中提出... 零样本分类算法无须标注要识别的类别样本,因而能大幅度降低实际应用成本,近年来受到广泛关注。遥感场景类别的语义词向量与图像特征空间原型的结构不一致问题,严重影响了遥感场景零样本的分类效果。利用不同词向量间的互补性,文中提出一种基于语义词向量融合的遥感场景零样本分类算法,即耦合式解析字典学习(Coupled Analysis Dictionary Learning,CADL)方法。首先,采用稀疏编码效率较高的解析字典学习方法获取各语义词向量的稀疏系数,以减少冗余信息;然后,将对应的稀疏编码系数串接后作为融合语义词向量表示,并将融合语义词向量线性映射到图像特征空间,与图像特征空间场景类别原型表示进行结构对齐,以降低结构差异性;最后,计算得到要识别的场景类别的图像特征原型,并采用最近邻分类器在图像特征空间完成分类。在UCM和AID数据集上对多种语义词向量的融合进行定量实验,同时将RSSCN7数据集作为已知场景类别的数据集来对两幅实际遥感图像进行定性实验。在UCM和AID上的定量实验分别获得了最高总体分类准确度48.40%和60.23%,相比于典型零样本分类方法的总体分类准确度分别提升了4.80%和6.98%。对两幅实际遥感图像的定性实验,同样获得了最佳零样本的分类效果。实验结果表明,多种语义词向量融合,可以获得与图像特征空间原型结构更一致的语义词向量,且显著提升了遥感场景零样本分类的准确度。 展开更多
关键词 遥感场景分类 零样本分类 结构对齐 词向量融合 解析字典学习
在线阅读 下载PDF
基于特征融合的层次结构微博情感分类 被引量:6
14
作者 朱宪莹 刘箴 +3 位作者 金炜 刘婷婷 刘翠娟 柴艳杰 《电信科学》 北大核心 2016年第7期106-114,共9页
情感分类是观点挖掘的热点研究之一,微博文本情感分类具有很高的应用价值。鉴于传统特征选择方法存在语义缺陷,采用神经网络语言模型,提出了基于概率模型的对词向量进行权重分配的深层特征表示方法,构建文本语义向量。将文本深层特征与... 情感分类是观点挖掘的热点研究之一,微博文本情感分类具有很高的应用价值。鉴于传统特征选择方法存在语义缺陷,采用神经网络语言模型,提出了基于概率模型的对词向量进行权重分配的深层特征表示方法,构建文本语义向量。将文本深层特征与浅层特征融合,构建融合语义信息的特征向量,弥补传统特征选择方法语义的缺陷。采用SVM层次结构分类模型,实现多种情感分类。实验结果表明,采用特征融合的层次结构情感分类方法,能有效提高微博情感分类的准确率。 展开更多
关键词 情感分类 词向量 深层特征 特征融合 层次结构分类模型
在线阅读 下载PDF
一种粒子群优化融合特征的零样本图像分类算法
15
作者 陈雯柏 陈祥凤 +1 位作者 刘琼 韩琥 《西北工业大学学报》 EI CAS CSCD 北大核心 2019年第6期1271-1277,共7页
针对目标类语义属性描述的局限性,提出一种基于自适应加权融合特征的零样本图像分类算法。首先,随机初始化融合权重,利用神经网络融合文本的语义词向量特征和语义属性;然后,利用粒子群算法优化特征融合的权重;最后,把加权融合的特征作... 针对目标类语义属性描述的局限性,提出一种基于自适应加权融合特征的零样本图像分类算法。首先,随机初始化融合权重,利用神经网络融合文本的语义词向量特征和语义属性;然后,利用粒子群算法优化特征融合的权重;最后,把加权融合的特征作为零样本图像分类的迁移知识。实验结果表明,基于自适应加权融合的零样本图像分类算法在动物属性数据集(AWA)上测试的准确率达到88.9%,验证了该方法的有效性。同时与融合特征算法相比,亦提高了零样本图像分类模型的稳定性。 展开更多
关键词 自适应加权 融合特征 语义属性 语义词向量 零样本图像分类
在线阅读 下载PDF
基于卷积神经网络与多特征融合的Twitter情感分类方法 被引量:28
16
作者 王汝娇 姬东鸿 《计算机工程》 CAS CSCD 北大核心 2018年第2期210-219,共10页
为了对社交网络平台上发表的言论和信息进行情感分类,基于卷积神经网络和多特征融合,提出一种情感分类方法。结合Twitter自身语言特性和情感字典资源设计语料特征和词典特征,对Twitter文本词向量使用卷积神经网络获得对应的深度词向量特... 为了对社交网络平台上发表的言论和信息进行情感分类,基于卷积神经网络和多特征融合,提出一种情感分类方法。结合Twitter自身语言特性和情感字典资源设计语料特征和词典特征,对Twitter文本词向量使用卷积神经网络获得对应的深度词向量特征,将上述3类特征进行特征融合并采用One-Versus-One SVM实现情感极性的分类判别。针对SemEval语料的实验结果表明,该方法取得了较好的情感分类效果,多特征融合能够有效地提高情感分类的准确性。 展开更多
关键词 文本分类 情感分析 卷积神经网络 词向量 特征融合
在线阅读 下载PDF
基于注意力增强与特征融合的中文医学实体识别 被引量:4
17
作者 王晋涛 秦昂 +4 位作者 张元 陈一飞 王廷凤 谢承霖 邹刚 《计算机工程》 CAS CSCD 北大核心 2024年第7期324-332,共9页
针对基于字符表示的中文医学领域命名实体识别模型嵌入形式单一、边界识别困难、语义信息利用不充分等问题,一种非常有效的方法是在Bret底层注入词汇特征,在利用词粒度语义信息的同时降低分词错误带来的影响,然而在注入词汇信息的同时... 针对基于字符表示的中文医学领域命名实体识别模型嵌入形式单一、边界识别困难、语义信息利用不充分等问题,一种非常有效的方法是在Bret底层注入词汇特征,在利用词粒度语义信息的同时降低分词错误带来的影响,然而在注入词汇信息的同时也会引入一些低相关性的词汇和噪声,导致基于注意力机制的Bret模型出现注意力分散的情况。此外仅依靠字、词粒度难以充分挖掘中文字符深层次的语义信息。对此,提出基于注意力增强与特征融合的中文医学实体识别模型,对字词注意力分数矩阵进行稀疏处理,使模型的注意力集中在相关度高的词汇,能够有效减少上下文中的噪声词汇干扰。同时,对汉字发音和笔画通过卷积神经网络(CNN)提取特征,经过迭代注意力特征融合模块进行融合,然后与Bret模型的输出特征进行拼接输入给Bi LSTM模型,进一步挖掘字符所包含的深层次语义信息。通过爬虫等方式搜集大量相关医学语料,训练医学领域词向量库,并在CCKS2017和CCKS2019数据集上进行验证,实验结果表明,该模型F1值分别达到94.90%、89.37%,效果优于当前主流的实体识别模型,具有更好的识别效果。 展开更多
关键词 实体识别 中文分词 注意力稀疏 特征融合 医学词向量库
在线阅读 下载PDF
基于特征融合的中文简历解析方法研究 被引量:3
18
作者 陈毅 符磊 +1 位作者 代云霞 张剑 《计算机工程与应用》 CSCD 北大核心 2019年第10期244-249,共6页
针对基于规则和统计的传统中文简历解析方法效率低、成本高、泛化能力差的缺点,提出一种基于特征融合的中文简历解析方法,即级联Word2Vec生成的词向量和用BLSTM(Bidirectional Long Short-Term Memory)建模字序列生成的词向量,然后再结... 针对基于规则和统计的传统中文简历解析方法效率低、成本高、泛化能力差的缺点,提出一种基于特征融合的中文简历解析方法,即级联Word2Vec生成的词向量和用BLSTM(Bidirectional Long Short-Term Memory)建模字序列生成的词向量,然后再结合BLSTM和CRF(Conditional Random Fields)对中文简历进行解析(BLSTM-CRF)。为了提高中文简历解析的效率,级联包含字序列信息的词向量和用Word2Vec生成的词向量,融合成一个新的词向量表示;再由BLSTM强大的学习能力融合词的上下文信息,输出所有可能标签序列的分值给CRF层;再由CRF引入标签之间约束关系求解最优序列。利用梯度下降算法训练神经网络,使用预先训练的词向量和Dropout优化神经网络,最终完成对中文简历的解析工作。实验结果表明,所提的特征融合方法优于传统的简历解析方法。 展开更多
关键词 中文简历 简历解析 特征融合 词向量 神经网络
在线阅读 下载PDF
融合多特征BERT模型的中文实体关系抽取 被引量:9
19
作者 谢腾 杨俊安 刘辉 《计算机系统应用》 2021年第5期253-261,共9页
关系抽取是构建知识图谱的一项核心技术.由于中文具有复杂的语法和句式,同时现有的神经网络模型提取特征有限以及语义表征能力较差,从而影响中文实体关系抽取的性能.文章提出了一种融合多特征的BERT预训练模型的实体关系抽取算法.首先... 关系抽取是构建知识图谱的一项核心技术.由于中文具有复杂的语法和句式,同时现有的神经网络模型提取特征有限以及语义表征能力较差,从而影响中文实体关系抽取的性能.文章提出了一种融合多特征的BERT预训练模型的实体关系抽取算法.首先对语料进行预处理,提取关键词、实体对信息和实体类型特征并进行融合,以此来强化BERT模型的语义学习能力,极大限度地减少了语义信息特征的丢失,最后通过Softmax分类器进行关系分类.实验结果表明,文章模型优于现有的神经网络模型.在人工标注的中文数据集上本文模型取得了97.50%的F1值. 展开更多
关键词 实体关系抽取 双向编码表征模型 词向量 外部特征 特征融合
在线阅读 下载PDF
多源环境下中药实体统一视图构建策略 被引量:2
20
作者 梁杨 丁长松 蔡雄 《中国中医药信息杂志》 CAS CSCD 2020年第9期108-114,共7页
目的针对大数据环境下跨数据源查询面临的中药实体呈现多视图,且中药实体在各数据源中表现出属性不完整、多模态、差异性等问题,提出面向多源数据的中药实体统一视图的构建策略。方法基于实体属性间的相互关系,构建实体多视图融合整体架... 目的针对大数据环境下跨数据源查询面临的中药实体呈现多视图,且中药实体在各数据源中表现出属性不完整、多模态、差异性等问题,提出面向多源数据的中药实体统一视图的构建策略。方法基于实体属性间的相互关系,构建实体多视图融合整体架构,并对实体和属性等关键元素进行抽象化表示;以用户需求为约束提出基于词向量的相关度计算方法,采用Skip-gram模型训练出表征实体属性的词向量;提出基于欧氏距离和Jaccard系数的相关度算法,并以此为依据进行实体融合。结果共训练完成属性词向量6116个,其中有效词向量230个,以400对不同源中药实体作为测试集,分别采用AFCDS、FF和WVCC方法进行实体融合实验,其融合准确率依次为92.20%、88.47%和94.24%。结论基于词向量的实体融合策略有效可行,能充分利用属性间的有效信息,自适应性强,实体融合准确率较高,可为解决多源实体融合问题提供新的研究思路。 展开更多
关键词 大数据 多源数据 实体融合 词向量 相关度
暂未订购
上一页 1 2 下一页 到第
使用帮助 返回顶部