期刊文献+
共找到87篇文章
< 1 2 5 >
每页显示 20 50 100
Doc2Vec模型驱动的芯片竞争话语研究:主题意义与话语策略
1
作者 续雨媛 卫乃兴 《外语研究》 北大核心 2025年第5期27-35,共9页
基于分布式表示的Doc2Vec向量空间模型将抽象的语义关系表征为语义空间中的向量距离,可用于话语研究中的主题挖掘。本研究基于自建的中美媒体芯片竞争语料库,采用Doc2Vec模型进行主题挖掘,探讨中美媒体话语的主题意义与博弈策略。向量... 基于分布式表示的Doc2Vec向量空间模型将抽象的语义关系表征为语义空间中的向量距离,可用于话语研究中的主题挖掘。本研究基于自建的中美媒体芯片竞争语料库,采用Doc2Vec模型进行主题挖掘,探讨中美媒体话语的主题意义与博弈策略。向量数据表明,中美媒体围绕“芯片管制”“国际关系”“国家立法”“技术发展”等4个主题展开话语建构。在共享的“芯片管制”与“国际关系”主题下,双方话语策略迥异,呈现极强对抗态势:美方基于所谓“道义伦理学”合法化对华芯片管制,中方则从后果主义伦理原则发力,批判美方扰乱全球经济秩序,对之去合法化;美方借助危机叙事构建阵营对立,中方则以立足全人类共同价值的团结话语来消解。“国家立法”和“技术发展”分别为双方特有的主题,即美方通过零和博弈叙事,动员不同利益集团借助强制性法案遏制中国芯片发展;中方则聚焦技术自主创新,以事实性数据表征对芯片发展的信心。方法论上,本研究揭示,Doc2Vec模型、语料库方法与传统话语分析结合使用,对洞悉博弈双方的区别性话语建构及话语策略可产生协同效应,有助于拓展话语研究方法。 展开更多
关键词 doc2vec模型 词嵌入 芯片竞争话语 对抗性话语 语料库话语研究
在线阅读 下载PDF
基于Doc2vec-LightGBM的CBTC车载信号设备故障分类诊断方法 被引量:6
2
作者 柴琳果 张景会 +2 位作者 上官伟 蔡伯根 李小雨 《铁道学报》 EI CAS CSCD 北大核心 2024年第4期108-118,共11页
车载信号设备是城市轨道交通信号系统的重要组成部分,其运营过程中会产生海量离散化、片段化的日志文本数据。目前,CBTC车载设备故障记录文本仍存在语义不明确、词语冗余的问题,从而造成故障致因溯源难,针对此,提出一种基于Doc2vec-Ligh... 车载信号设备是城市轨道交通信号系统的重要组成部分,其运营过程中会产生海量离散化、片段化的日志文本数据。目前,CBTC车载设备故障记录文本仍存在语义不明确、词语冗余的问题,从而造成故障致因溯源难,针对此,提出一种基于Doc2vec-LightGBM的CBTC车载设备故障自动分类诊断方法。首先对故障文本使用Jieba完成文本分词,依据TF-IDF实现分词文本数据的特征提取,并采用Doc2vec训练文本分词向量;其次针对数据不均衡的问题,采用Borderline-SMOTE算法进行少数类文本向量数据的补全泛化;最后,通过训练轻量梯度提升机LightGBM分类器完成故障文本自动分类。采用某信号厂商所记录的1 133条故障文本数据进行分类实验分析,并与支持向量机(SVM)方法对比。实验结果表明,所提方法在分类精确率、召回率上分别为98.2%、97.5%,证明了该故障文本自动分类方法的有效性和优越性。 展开更多
关键词 CBTC 车载设备 doc2vec LightGBM 故障分类诊断
在线阅读 下载PDF
Doc2vec在薪水预测中的应用研究 被引量:8
3
作者 潘博 张青川 +1 位作者 于重重 曹帅 《计算机应用研究》 CSCD 北大核心 2018年第1期155-157,共3页
针对互联网中在线招聘的工作广告,建立准确的薪水预测模型有助于求职者选择合适的职位。目前的研究方法都是通过词频或词向量平均化计算来获取职位的文本描述信息特征,无法全面理解文本语义。针对上述问题,利用文本深度表示模型doc2vec... 针对互联网中在线招聘的工作广告,建立准确的薪水预测模型有助于求职者选择合适的职位。目前的研究方法都是通过词频或词向量平均化计算来获取职位的文本描述信息特征,无法全面理解文本语义。针对上述问题,利用文本深度表示模型doc2vec计算文本的特征向量,能更深入地表征出文本语义特征。实验将多种组合模型进行对比,结果表明相比于目前已有方法,doc2vec提取文本特征可以使薪水预测误差率至少降低5%。 展开更多
关键词 薪水预测 doc2vec 文本特征
在线阅读 下载PDF
基于词向量Doc2vec的双向LSTM情感分析 被引量:8
4
作者 张俊飞 毕志升 吴小玲 《计算机与数字工程》 2018年第12期2385-2389,2399,共6页
针对词嵌入技术Word2vec仅仅利用上下文环境生成词向量,对文档词序语义表达不足,提出Doc2vec词向量生成方式;LSTM按照历史顺序处理时间序列数据,没有考虑到下文信息,因此提出双向LSTM实现评教评语的情感分析。通过两组对比实验:Word2vec... 针对词嵌入技术Word2vec仅仅利用上下文环境生成词向量,对文档词序语义表达不足,提出Doc2vec词向量生成方式;LSTM按照历史顺序处理时间序列数据,没有考虑到下文信息,因此提出双向LSTM实现评教评语的情感分析。通过两组对比实验:Word2vec和Doc2vec词向量生成对比实验、LSTM和双向LSTM评教评语情感分析对比实验,验证了Doc2vec词向量技术对句子的表达优于Word2vec,双向LSTM在情感分析中具有更高的精准度。 展开更多
关键词 词嵌入 Word2vec doc2vec LSTM 双向LSTM
在线阅读 下载PDF
基于Doc2Vec增强特征的长文本主题聚类研究 被引量:3
5
作者 陈洁 《计算机科学》 CSCD 北大核心 2023年第S01期211-216,共6页
针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示。利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征。DV-sim从语义角度... 针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示。利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征。DV-sim从语义角度,采用特征词与Doc2Vec向量的相似度获得词权重;DV-tfidf从词频统计角度,采用词频-逆文档频率方式获得词权重,然后利用HDBSCAN算法在THUCNews和Sogou数据集上进行主题聚类。相比直接应用Doc2Vec向量,DV-sim在两个数据集上的噪声数分别减少60.82%和60.63%,准确率提高12.14%和20.58%,F1-Score值提高15.61%和11.58%;DV-tfifd在两个数据集上的噪声数分别减少15.20%和59.55%,准确率提高10.85%和17.93%,F1-Score值提高15.60%和9.21%。实验结果表明,DV-sim和DV-tfidf都可以提高主题聚类性能,且基于语义的增强特征比基于词频的效果更好,DV-sim在优秀女性人物报道的主题聚类上也得到了有效应用。 展开更多
关键词 主题聚类 文本表征 doc2vec 词向量 HDBSCAN
在线阅读 下载PDF
利用Doc2Vec判断中文专利相似性 被引量:11
6
作者 张海超 赵良伟 《情报工程》 2018年第2期64-72,共9页
目前专利侵权纠纷案件时有发生,企业一旦卷入专利侵权纠纷,通常会面临时间考验和经济损失。本文选取中文专利数据样本,抽取专利权利要求书形成训练语料,并利用Doc2Vec深度神经网络算法,计算权利要求书文本之间的相似度,得出与涉案专利... 目前专利侵权纠纷案件时有发生,企业一旦卷入专利侵权纠纷,通常会面临时间考验和经济损失。本文选取中文专利数据样本,抽取专利权利要求书形成训练语料,并利用Doc2Vec深度神经网络算法,计算权利要求书文本之间的相似度,得出与涉案专利相似性较高的专利。并且将上述方法应用到专利复审案件实验中,进行实证研究,取得了较好的效果。需要进一步提高训练数据的质量,对比其他算法的效果。利用该方法能够帮助专利审查人员和企业找到相似专利。 展开更多
关键词 专利相似度 专利侵权 Word2Vec doc2vec
在线阅读 下载PDF
基于LDA模型和Doc2vec的学术摘要聚类方法 被引量:25
7
作者 张卫卫 胡亚琦 +1 位作者 翟广宇 刘志鹏 《计算机工程与应用》 CSCD 北大核心 2020年第6期180-185,共6页
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型... 针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型——主题句向量模型(Doc2vec-LDA,Doc-LDA),该模型通过将LDA主题模型(Latent Dirichlet Allocation)和句向量模型融合(Doc2vec),不仅使得在模型训练过程中既能利用整个语料库的信息,而且还利用Paragraph Vector的局部语义空间信息完善LDA的隐性语义信息。实验采用爬取到的知网摘要文本作为数据集,选用K-Means聚类算法对各模型的摘要文本进行效果比较。实验结果表明,基于Doc-LDA模型的聚类效果优于LDA、Word2vec、LDA+Word2vec模型。 展开更多
关键词 短文本聚类 LDA模型 doc2vec模型 学术摘要
在线阅读 下载PDF
基于Doc2Vec的期刊论文热点选题识别 被引量:23
8
作者 阮光册 夏磊 《情报理论与实践》 CSSCI 北大核心 2019年第4期107-111,106,共6页
[目的/意义]将深度学习方法应用于热点识别的研究,实现研究热点的语义描述。[方法/过程]以教育学36本CSSCI期刊的62084篇论文为实验数据。首先,采用Doc2Vec方法对论文摘要进行向量计算;其次,对向量值进行相似度计算,生成热点选题论文集... [目的/意义]将深度学习方法应用于热点识别的研究,实现研究热点的语义描述。[方法/过程]以教育学36本CSSCI期刊的62084篇论文为实验数据。首先,采用Doc2Vec方法对论文摘要进行向量计算;其次,对向量值进行相似度计算,生成热点选题论文集;最后,运用聚类算法和主题词提取算法获取论文热点选题的主题描述。[结果/结论]对比词频统计和共词聚类方法,本文的实验结果在研究热点的描述上具有更好的语义特征。[局限]热点选题论文集的生成受阈值的影响。深度学习可以作为揭示学科研究热点的新方法。 展开更多
关键词 学术论文 热点主题识别 doc2vec 聚类分析 关键词提取
原文传递
Doc2vec在政策文本分类中的应用研究 被引量:4
9
作者 李峰 柯伟扬 +3 位作者 盛磊 陈雯 陈丙赛 罗韵晴 《软件》 2019年第8期76-78,共3页
政策文本(Policy Text)是指因政策活动而产生的记录文献,当前多数的政策文本分类方法存在特征维度高、缺乏上下文信息这两个缺点。基于此,本文采用Doc2vec算法,通过词向量化解决特征维度高的问题,采用CBOW方法获取词语上下文信息。本文... 政策文本(Policy Text)是指因政策活动而产生的记录文献,当前多数的政策文本分类方法存在特征维度高、缺乏上下文信息这两个缺点。基于此,本文采用Doc2vec算法,通过词向量化解决特征维度高的问题,采用CBOW方法获取词语上下文信息。本文采用的方法经过实验测试,结果显示该方法对提高政策文本的分类准确率有着显著作用。 展开更多
关键词 政策文本 文本分类 doc2vec
在线阅读 下载PDF
基于Doc2vec的专利与行业类目映射研究 被引量:2
10
作者 马晓萌 徐峰 +1 位作者 刘清民 封颖 《情报探索》 2020年第6期67-74,共8页
[目的/意义]使用深度学习中Doc2vec文本向量化的方法进行专利与行业间类目相似度的计算,旨在为用计算机进行类目映射时提供新的方法和思路。[方法/过程]实验通过《国际专利分类表》的小类及其下级类目大组与《国民经济行业分类表》中的... [目的/意义]使用深度学习中Doc2vec文本向量化的方法进行专利与行业间类目相似度的计算,旨在为用计算机进行类目映射时提供新的方法和思路。[方法/过程]实验通过《国际专利分类表》的小类及其下级类目大组与《国民经济行业分类表》中的小类展开,通过Doc2vec文本向量化和余弦相似度的方法求取三组相似值(专利小类与行业小类、专利大组与行业小类、每组专利小类下大组与行业小类相似度的平均值),并以农业类目为例进行解释说明。[结果/结论]通过计算专利大组与行业小类相似度平均值的方法进行映射更具合理性。 展开更多
关键词 Word2vec doc2vec 类目映射 余弦相似度
在线阅读 下载PDF
基于Doc2Vec和深度神经网络的战场态势智能推送研究 被引量:10
11
作者 申远 黄志良 +1 位作者 胡彪 王适之 《智能计算机与应用》 2020年第1期50-55,共6页
战场态势智能推送中的推荐算法是最核心、最关键的组成部分,在很大程度上决定了战场态势推送性能的优劣。深度神经网络推荐算法对用户和态势的需求度关系进行建模学习,能够学习到两者之间隐含的、更为复杂的非线性关系,缺点在于未利用... 战场态势智能推送中的推荐算法是最核心、最关键的组成部分,在很大程度上决定了战场态势推送性能的优劣。深度神经网络推荐算法对用户和态势的需求度关系进行建模学习,能够学习到两者之间隐含的、更为复杂的非线性关系,缺点在于未利用到态势的额外信息。因此以深度神经网络推荐算法为基础,利用Doc2Vec方法提取态势文本内容信息来作为深度神经网络模型的辅助输入,设计了一种基于Doc2Vec和深度神经网络的战场态势智能推送方法。实验仿真结果表明,利用Doc2Vec算法来对态势的额外信息进行建模,能够提升算法推荐效果。 展开更多
关键词 战场态势 智能推送 推荐算法 深度神经网络 doc2vec
在线阅读 下载PDF
基于Doc2vec和SVM的作者姓名消歧研究——以PubMed Central为例 被引量:11
12
作者 霍朝光 司湘云 王婉如 《情报科学》 CSSCI 北大核心 2021年第7期91-98,107,共9页
【目的/意义】为解决重名作者姓名识别问题,提升作者姓名消歧准确率。【方法/过程】本文着重在整合作者单位、邮箱等信息特征的基础上抓住作者在研究方向和研究内容上的承接性和演进性,提出构建综合文章题目、关键词、摘要、引文以及作... 【目的/意义】为解决重名作者姓名识别问题,提升作者姓名消歧准确率。【方法/过程】本文着重在整合作者单位、邮箱等信息特征的基础上抓住作者在研究方向和研究内容上的承接性和演进性,提出构建综合文章题目、关键词、摘要、引文以及作者的合作列表、邮箱、机构等附属信息的作者语料集,利用Doc2ve进行深度本文表示学习,在特征学习的基础上利用支持向量机(SVM)根据人工标注的样本进行模型训练和学习,以Pub Med Central(PMC)全部数据为例,在得到局部较优结果的基础上,将模型用于PMC所有数据集。【结果/结论】结果显示本文提出的姓名消歧方法准确率达91.80%,有效提升了消歧的准确率,该方法不仅把握了传统作者机构、邮箱、合作列表等特征信息,而且根据作者研究内容的承接性和演进性追溯作者,整合多方面特征以解决单单依据单位、邮箱等信息消歧失效问题,面对学者流动性的增强展示出其更强的应用前景。【创新/局限】本研究将每个作者分别包装成一个个文档,以此包含作者的所有属性以及相关信息,通过无监督文本表示学习和有监督机器学习结合的模式完成消歧任务,在生命科学与医学领域数据方面具有较好的适用性。 展开更多
关键词 姓名消歧 特征提取 doc2vec SVM PubMed Central
原文传递
基于Doc2Vec和BiLSTM的老年患者疾病预测研究 被引量:5
13
作者 藏润强 左美云 郭鑫鑫 《计算机工程与科学》 CSCD 北大核心 2020年第12期2273-2279,共7页
基于电子病历的疾病预测一般是根据病人的症状预测疾病,而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法,该表示法考虑了具有时序性的医疗疾病上下文信息,利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。... 基于电子病历的疾病预测一般是根据病人的症状预测疾病,而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法,该表示法考虑了具有时序性的医疗疾病上下文信息,利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。基于这些向量采用BiLSTM模型来预测老年患者未来的疾病,可以起到对老年疾病的预警作用。最后通过使用真实的医院诊断数据进行实验验证,结果发现模型能够有效地预测出老年人新的疾病,且在保证预测准确率的同时还具有一定的稳定性。 展开更多
关键词 上下文 doc2vec 双向长短时记忆网络BiLSTM 数据挖掘 疾病预测
在线阅读 下载PDF
基于Doc2Vec与SVM的聊天内容过滤 被引量:5
14
作者 岳文应 《计算机系统应用》 2018年第7期127-132,共6页
直播系统中用户聊天内容的实时拦截具有非常重大的意义,为了提高分类的准确率和效率,提出了一种基于Doc2Vec与SVM结合的文本分类模型对聊天内容分类,判断聊天内容是否应该被拦截.首先使用Doc2Vec模型将聊天内容表示成密集数值向量的形式... 直播系统中用户聊天内容的实时拦截具有非常重大的意义,为了提高分类的准确率和效率,提出了一种基于Doc2Vec与SVM结合的文本分类模型对聊天内容分类,判断聊天内容是否应该被拦截.首先使用Doc2Vec模型将聊天内容表示成密集数值向量的形式,第二部分使用SVM分类器进行分类.通过实验表明,该模型有效地减少了文本表示的维度,提高了训练效率,而且具有的97%的准确率和89.82%召回率,性能优于朴素贝叶斯和基于Doc2Vec的Logistic模型. 展开更多
关键词 文本分类 自然语言处理 doc2vec模型 支持向量机
在线阅读 下载PDF
融合LDA主题和Doc2vec算法的DeepFM模型的推荐算法研究 被引量:3
15
作者 刘伦珲 吴丽萍 《电视技术》 2022年第4期47-53,共7页
如今,有很多辅助决策算法在日常生活的各个方面为人们推荐个性化内容或产品。本文以医疗信息推荐作为案例,研究提出一种融合狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型和Doc2vec算法的DeepFM模型。该模型能够挖掘评论文本... 如今,有很多辅助决策算法在日常生活的各个方面为人们推荐个性化内容或产品。本文以医疗信息推荐作为案例,研究提出一种融合狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型和Doc2vec算法的DeepFM模型。该模型能够挖掘评论文本中的隐藏主题和隐藏特征并考虑隐藏特征的交叉情况,能够在保留评论文本表层信息的同时学习数据中的浅层和深层特征。本文将该模型与之前的模型在真实的数据上进行实验对比。实验结果表明,相较于现存模型,该模型的推荐准确率有了一定的提高。 展开更多
关键词 推荐系统 LDA主题模型 doc2vec DeepFM
在线阅读 下载PDF
基于融合LDA和Doc2vec算法的文本表示模型的研究 被引量:4
16
作者 宁宁 莫秀良 +1 位作者 王春东 佟寅铖 《天津理工大学学报》 2021年第2期55-60,共6页
在文本分类的过程中,由于文本数据具有非结构化、高维性、稀疏性的特征,常常会导致分类效果的不理想.由此可知,文本分类的准确性十分依赖于文本表示的效果.本文通过融合Latent Dirichlet Allocation和Doc2vec算法得到一种新的主题向量... 在文本分类的过程中,由于文本数据具有非结构化、高维性、稀疏性的特征,常常会导致分类效果的不理想.由此可知,文本分类的准确性十分依赖于文本表示的效果.本文通过融合Latent Dirichlet Allocation和Doc2vec算法得到一种新的主题向量表示和文档向量表示,再通过计算其中的余弦相似度来提取文本特征.该方法不仅能得到在特定段落的语境下词与词之间的语义关系,还能因此挖掘出更多与文档相关的主题信息.为了验证算法的有效性,对几种相关方法进行了性能比较,实验结果表明,该方法优于其它方法,生成的文档特征可以通过整合全局和局部关系来提高文本分类性能. 展开更多
关键词 LDA doc2vec 文本表示 特征选择 文本分类
在线阅读 下载PDF
基于Doc2vec和深度神经网络的中文文本情感倾向研究 被引量:4
17
作者 王晨超 刘洋 《电子技术与软件工程》 2018年第10期154-157,共4页
为了可以在准确地判别中文文本的情感倾向的同时,降低训练成本、提高效率,提出了基于Doc2vec和深度神经网络的方法对中文文本进行情感分类。先使用Doc2vec将清洗后的中文文本训练成文本向量,再使用这些文本向量训练基于深度神经网络的... 为了可以在准确地判别中文文本的情感倾向的同时,降低训练成本、提高效率,提出了基于Doc2vec和深度神经网络的方法对中文文本进行情感分类。先使用Doc2vec将清洗后的中文文本训练成文本向量,再使用这些文本向量训练基于深度神经网络的分类器。实验结果表明,与情感词典、传统机器学习和长短期记忆网络(LSTM)的方法相比,该方法有着较高的准确率和效率。特别是和情感词典和传统机器学习的方法相比该方法优势明显;与LSTM相比训练成本也大大降低。 展开更多
关键词 doc2vec 深度神经网络 情感分析 中文文本分类
在线阅读 下载PDF
基于doc2vec的主观题自动评分应用 被引量:2
18
作者 肖灵云 刘军库 李春红 《现代计算机》 2022年第1期79-82,95,共5页
针对中文主观题自动评分准确率低的问题,提出一种基于doc2vec算法的主观题自动评分方法。利用doc2vec算法计算出参考答案文本和考生答案文本的文本向量,计算出两文本向量之间的相似度,然后根据相似度计算考生得分。将主观题试题作为实... 针对中文主观题自动评分准确率低的问题,提出一种基于doc2vec算法的主观题自动评分方法。利用doc2vec算法计算出参考答案文本和考生答案文本的文本向量,计算出两文本向量之间的相似度,然后根据相似度计算考生得分。将主观题试题作为实验数据集,用doc2vec算法进行评分,并采用方差及偏差率作为衡量标准,对基于doc2vec算法的评分结果进行验证,并与基于TextRank算法的主观题自动评分结果及人工评分进行对比,实验表明基于doc2vec算法的评分结果的方差及偏差率都较小,稳定性较好,为后期研究主观题评分有一定的参考意义。 展开更多
关键词 自动评分 doc2vec算法 文本相似度 主观题
在线阅读 下载PDF
基于Doc2vec的微博评论情感倾向研究
19
作者 李荟珍 《应用数学进展》 2022年第1期269-277,共9页
该文针对疫苗接种的相关微博评论进行情感倾向分析,首先利用基于神经网络的Doc2vec模型训练文本向量,继而使用支持向量机(SVM)、随机森林(RF)、逻辑回归(LR)三种机器学习的算法完成情感分类任务,且分别讨论了三种算法在四种不同的Doc2ve... 该文针对疫苗接种的相关微博评论进行情感倾向分析,首先利用基于神经网络的Doc2vec模型训练文本向量,继而使用支持向量机(SVM)、随机森林(RF)、逻辑回归(LR)三种机器学习的算法完成情感分类任务,且分别讨论了三种算法在四种不同的Doc2vec模型设定方案下的分类表现。其中Distributed Memory version of Paragraph Vector (PV-DM)算法训练的文本向量中,RF表现最优,在方案一与方案二上其F1分数值均为最高,分别为87.24%、87.50%。基于Distributed Bag of Words version of Paragraph Vector (PV-DBOW)算法训练的文本向量中,SVM表现最优,在方案三与方案四上其F1分数值达到最高,分别为84.11%、83.91%。 展开更多
关键词 情感倾向 doc2vec模型 文本分类 机器学习 微博评论
在线阅读 下载PDF
基于Doc2Vec的专利文件相似度检测方法的对比研究 被引量:17
20
作者 曹祺 赵伟 +2 位作者 张英杰 赵树君 陈亮 《图书情报工作》 CSSCI 北大核心 2018年第13期74-81,共8页
[目的/意义]专利相似度检测(Similarity Measurement)可从宏观上辅助制定国家创新战略规划。发现国内外的热点及应对其他国家的专利流氓,从微观上为专利发明人、专利审查员、专利权人提供辅助支撑。[方法/过程]提出基于深度学习的D... [目的/意义]专利相似度检测(Similarity Measurement)可从宏观上辅助制定国家创新战略规划。发现国内外的热点及应对其他国家的专利流氓,从微观上为专利发明人、专利审查员、专利权人提供辅助支撑。[方法/过程]提出基于深度学习的Doc2Vec专利相似度分析方法,基于未进行清洗的专利语料库,采用深度学习的Doc2Vec模型,随机挑选了专利,研究了专利相似度检测问题,并和传统的相似度检测模型进行对比研究。[结果/结论]实验结果表明,基于深度学习的Doe2Vee模型和TF-IDF模型对于处理不做数据清洗的专利语料的结果有相近性,该方法对分析人员的专利领域知识要求较低,不需要对专利数据进行基于专利领域知识的数据清洗,同时可为专利侵权、专利查新提供新的智能工具支撑,降低研究门槛和工作量,提升研究效率。 展开更多
关键词 专利 相似度 深度学习 doc2vec
原文传递
上一页 1 2 5 下一页 到第
使用帮助 返回顶部