期刊文献+
共找到104篇文章
< 1 2 6 >
每页显示 20 50 100
基于LDA-Word2vec的冷链物流政策的央地协同量化分析
1
作者 甘卫华 凌耀琛 +1 位作者 吴素浓 熊奥诗 《兰州交通大学学报》 2025年第4期9-20,共12页
自2008年以来,为推动冷链物流健康快速发展,国家及各省市出台了一系列冷链物流政策,这些政策的效果直接影响各地冷链物流的投资热度和运营质量。基于政策工具理论,以中央和地方(下文简称“央地”)出台的冷链物流政策作为研究对象,引入LD... 自2008年以来,为推动冷链物流健康快速发展,国家及各省市出台了一系列冷链物流政策,这些政策的效果直接影响各地冷链物流的投资热度和运营质量。基于政策工具理论,以中央和地方(下文简称“央地”)出台的冷链物流政策作为研究对象,引入LDA主题模型和Word2vec词嵌入算法,进行政策文本的主题归纳分析、地域性差异分析、时序差异分析和央地协同性分析。研究结果表明:1) 2008-2023年研究期内,冷链物流政策主要聚焦“冷链物流行业的标准化”、“专项支持资金打造农产品冷链物流体系”、“多策并举落地冷链物流项目”、“构建绿色高效冷链供应链新模式”等四个主题;2)研究期内,冷链物流规范性政策文本具有时序阶段性特征,可分为萌芽期、增长期和稳健期,且各阶段主题强度不同,保证冷链物流的均衡发展;3)冷链物流规范性政策文本具有区域多样性,各地区对冷链侧重点存在差异,因地制宜制定冷链物流政策;4)华东城市群的冷链物流政策的央地协同性高于其他地区,且政策主题较为丰富,不仅响应中央政策要求,也适应各地区发展。 展开更多
关键词 冷链物流 政策协同 LDA主题模型 word2vec词嵌入算法
在线阅读 下载PDF
基于LDA-Word2vec的人工智能技术主题演化与热点主题识别
2
作者 王向前 高润凤 李慧宗 《九江学院学报(自然科学版)》 2025年第2期19-31,共13页
为识别人工智能关键技术,深入研究人工智能技术发展态势,有助于国家和企业及时把握人工智能发展动向,本文以人工智能领域中2009—2023年的专利文献为基础,融合运用LDA模型和Word2vec词向量技术,从主题强度和内容双重维度系统考察技术主... 为识别人工智能关键技术,深入研究人工智能技术发展态势,有助于国家和企业及时把握人工智能发展动向,本文以人工智能领域中2009—2023年的专利文献为基础,融合运用LDA模型和Word2vec词向量技术,从主题强度和内容双重维度系统考察技术主题的动态演变过程,同时构建主题热度、新颖度、影响力指标识别人工智能阶段性的热点主题。研究结果表明:①结合LDA主题建模能力和Word2vec语义处理能力能够有效提升技术主题识别精度,直观呈现人工智能领域细粒度技术主题的演化规律与特征;②人工智能领域的技术主题主要分为核心算法与技术基础、感知与交互技术、自然语言与语义理解、数据处理与安全、智能应用与自动化5大类范畴,且主题之间的关联和互动日益紧密;③通过对设计的指标进行综合评估,可以较好识别2009—2014年、2015—2019年和2020—2023年3个不同阶段的热点技术主题。 展开更多
关键词 人工智能 LDA模型 主题识别 word2vec 主题演化 热点技术主题
在线阅读 下载PDF
基于LDA和Word2Vec模型的学位论文评阅意见主题挖掘与分析 被引量:6
3
作者 王孟 苏进城 陈志德 《福建师范大学学报(自然科学版)》 CAS 北大核心 2024年第5期41-51,共11页
选取某高校部分硕士学位论文评阅意见为研究对象,使用自然语言处理和机器学习技术进行自动化的硕士学位论文评阅意见主题挖掘与分析。首先,采用LDA(latent dirichlet allocation)模型对评阅数据进行主题建模,提取文本中的潜在主题,并将... 选取某高校部分硕士学位论文评阅意见为研究对象,使用自然语言处理和机器学习技术进行自动化的硕士学位论文评阅意见主题挖掘与分析。首先,采用LDA(latent dirichlet allocation)模型对评阅数据进行主题建模,提取文本中的潜在主题,并将评阅意见转化为主题分布向量;其次,结合Word2Vec模型将评阅意见的关键词转化为向量表达;最后,采用TextRank方法提取关键词,以揭示评阅专家的关注核心主题。实验结果表明,所提方法能为高校管理人员提供切实有效的分析工具,有助于他们更好地分析总结评阅意见,同时也为硕士研究生撰写高质量学位论文提供有益借鉴。 展开更多
关键词 硕士学位论文 自然语言处理 LDA模型 word2vec模型 TextRank方法
在线阅读 下载PDF
基于Word2Vec和LDA主题模型的中国省级五年规划“文化政策”文本研究 被引量:3
4
作者 高娜 东梅 《网络安全与数据治理》 2024年第7期47-55,共9页
运用Word2Vec和LDA相结合的主题模型分析技术,对我国31个省份三个时期五年规划文本中文化政策部分进行主题识别,从时间和空间两个维度进行“文化政策”主题挖掘和演化分析。研究发现,“文化政策”主题在发展趋势、重点转移、政策导向、... 运用Word2Vec和LDA相结合的主题模型分析技术,对我国31个省份三个时期五年规划文本中文化政策部分进行主题识别,从时间和空间两个维度进行“文化政策”主题挖掘和演化分析。研究发现,“文化政策”主题在发展趋势、重点转移、政策导向、技术应用等方面随时间推移呈现不同演化趋势;四大区域受经济发展水平、文化资源禀赋、政策导向影响,在企业角色强调程度、地区特色旅游发展以及国家级项目和竞争力方面存在地域差异。 展开更多
关键词 LDA主题模型 word2vec 五年规划 文化政策 文本分析
在线阅读 下载PDF
基于LDA-Word2vec的图书情报领域机器学习研究主题演化与热点主题识别 被引量:35
5
作者 胡泽文 韩雅蓉 王梦雅 《现代情报》 CSSCI 北大核心 2024年第4期154-167,共14页
[目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以... [目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以图书情报领域中2011—2022年Web of Science数据库中的机器学习研究论文为例,融合LDA和Word2vec方法进行主题建模和主题演化分析,引入主题强度、主题影响力、主题关注度与主题新颖性指标识别热点主题与新兴热点主题。[结果/结论]研究结果表明,(1)Word2vec语义处理能力与LDA主题演化能力的结合能够更加准确地识别研究主题,直观展示研究主题的分阶段演化规律;(2)图书情报领域的机器学习研究主题主要分为自然语言处理与文本分析、数据挖掘与分析、信息与知识服务三大类范畴。各类主题之间的关联性较强,且具有主题关联演化特征;(3)设计的主题强度、主题影响力和主题关注度指标及综合指标能够较好地识别出2011—2014年、2015—2018年和2019—2022年3个不同周期阶段的热点主题。 展开更多
关键词 机器学习 LDA模型 word2vec 主题演化 热点主题 主题影响力 主题关注度
在线阅读 下载PDF
关于Word2Vec文本分类效果若干影响因素的分析 被引量:5
6
作者 谢庆恒 《现代信息科技》 2024年第1期125-129,共5页
Word2Vec向量模型参数众多,在不同情景下分类效果不一,分析其影响因素很有必要。从Word2Vec模型基本原理出发,分析讨论了预训练语料、词向量预训练参数以及分类模型参数三大因素对模型分类效果的影响。结果表明限定域预料效果好于广域预... Word2Vec向量模型参数众多,在不同情景下分类效果不一,分析其影响因素很有必要。从Word2Vec模型基本原理出发,分析讨论了预训练语料、词向量预训练参数以及分类模型参数三大因素对模型分类效果的影响。结果表明限定域预料效果好于广域预料;预训练参数中向量维度越大,效果越好,窗口大小存在最优值,分类算法影响不大;分类模型参数中学习率、激活函数、批次大小对模型分类效果影响较大,训练轮次相对较小。 展开更多
关键词 word2vec 文本分类 模型效果 影响因素
在线阅读 下载PDF
分类数据的Word2Vec与Jaccard相似度聚类方法的比较分析
7
作者 孙晶 《软件》 2024年第9期49-51,共3页
在实际问题中,使用K-means算法进行聚类的数据点往往有很多特征值,这些特征值大多以文本形式存在,因此如何将大量特征值形成的稀疏数据集进行有效编码,再进行数据点聚类是一个重要的研究方向。本文提出了一种优化思路:将贝叶斯优化应用... 在实际问题中,使用K-means算法进行聚类的数据点往往有很多特征值,这些特征值大多以文本形式存在,因此如何将大量特征值形成的稀疏数据集进行有效编码,再进行数据点聚类是一个重要的研究方向。本文提出了一种优化思路:将贝叶斯优化应用于Word2Vec和K-means聚类算法的参数调优过程,通过多次迭代寻找最优参数解。通过计算分析,并与基于独热编码的Jaccard相似度计算方法实现的聚类算法结果进行比较,证明本文提出的优化改进思路聚类效果更好,准确率更高。 展开更多
关键词 K-MEANS算法 贝叶斯优化 word2vec模型 独热编码 Jaccard相似度
在线阅读 下载PDF
战略性新兴产业政策与技术主题演化路径识别分析——以新能源汽车产业为例 被引量:2
8
作者 冉从敬 程凡 李旺 《情报科学》 北大核心 2025年第1期147-160,共14页
【目的/意义】构建战略性新兴产业政策-技术主题演化路径识别方法,为产业政策的制定与优化、技术的布局与发展提供重要参考。【方法/过程】以新能源汽车产业政策与专利文本为数据集,综合运用LDA模型和Word2Vec算法提取政策与技术主题,... 【目的/意义】构建战略性新兴产业政策-技术主题演化路径识别方法,为产业政策的制定与优化、技术的布局与发展提供重要参考。【方法/过程】以新能源汽车产业政策与专利文本为数据集,综合运用LDA模型和Word2Vec算法提取政策与技术主题,并通过相似度计算的方式识别产业政策与技术的演化脉络及互动关系。【结果/结论】政策关注点从早期的示范推广转向了重点技术研发和产业链全方位完善,技术研究逐渐向电池效能挖掘、充电基础设施智能化和动力系统性能提升等方向深化。政策与技术研究之间形成了协同推动关系,但需提高在智能化、氢能、混合动力方向的技术研究匹配度,与政策导向保持紧密协同,以提升产业整体韧性与安全水平。【创新/局限】本文对产业政策与技术发展互动演化关系进行了有效探索,可为产业政策完善与技术布局优化提供新视角,局限在于需要纳入更多数据源进行多维度分析,并进一步优化主题模型。 展开更多
关键词 产业政策与技术 LDA模型 word2vec 演化路径 互动演化
原文传递
文本数据驱动下尾部风险影响因素动态识别与测度——基于我国金融机构的实证研究
9
作者 刘超 钱存 《管理工程学报》 北大核心 2025年第6期16-34,共19页
挖掘和提取文本数据中的潜在风险驱动信息,提升金融行业的风险识别效率是提高金融监管质效的重要途径。本文的研究将文本主题分析技术与多元统计方法相结合,提出文本数据驱动下的尾部风险影响因素动态识别与测度框架,以期从金融风险文... 挖掘和提取文本数据中的潜在风险驱动信息,提升金融行业的风险识别效率是提高金融监管质效的重要途径。本文的研究将文本主题分析技术与多元统计方法相结合,提出文本数据驱动下的尾部风险影响因素动态识别与测度框架,以期从金融风险文本中识别出金融机构的潜在风险因素并测度其影响程度,对结构化数据进行信息补充,为风险管理提供决策支持。本文以上市公司定期报告与机构分析师报告为文本数据源,采用LDA模型与Word2Vec模型的混合算法识别潜在风险因素,并针对风险因素的高维共线性特征,结合LASSO模型来验证和测度长期与短期影响因素的边际贡献。本文选取2001年至2022年我国上市金融机构的相关数据开展实证研究。研究结果表明,相较于仅包含结构化数据的分析框架,文本信息为尾部风险的影响因素识别补充了额外的信息价值,为尾部风险防范提供前瞻性的参考依据。静态分析表明,该框架能够识别出文本信息中金融机构经营过程中存在的长期风险因素,且不同风险因素的边际贡献存在异质性,即当尾部风险升高时风险文本主题因素的边际贡献更高,解释力度更强。动态模型分析表明,该框架能够识别出短期的潜在风险因素,且对尾部风险的敏感性更高。该框架为金融风险管理提供了“文本数据驱动”的新思路。 展开更多
关键词 文本驱动决策 尾部风险 LDA模型 word2vec模型 LASSO模型
在线阅读 下载PDF
结合LDA与Word2vec的文本语义增强方法 被引量:28
10
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 LDA主题模型 word2vec模型 语义词向量 语义相似度 文本分类
在线阅读 下载PDF
基于word2vec和LDA的文本主题 被引量:7
11
作者 徐守坤 周佳 +1 位作者 李宁 石林 《计算机工程与设计》 北大核心 2018年第9期2764-2769,共6页
将word2vec和LDA算法相结合,对文本主题进行提取研究。通过已有的分词工具实现文本分词,提取文本中的词汇;对语料库依据LDA主题模型进行建模,提取主题相关词汇作为初始主题词集;依据word2vec模型提取与初始主题词集语义相似的词汇,将初... 将word2vec和LDA算法相结合,对文本主题进行提取研究。通过已有的分词工具实现文本分词,提取文本中的词汇;对语料库依据LDA主题模型进行建模,提取主题相关词汇作为初始主题词集;依据word2vec模型提取与初始主题词集语义相似的词汇,将初始主题词汇之间的相似度和向量邻接关系按照权重不同重新分配,改进Gibbs抽样,对LDA进行改进,提高主题挖掘的准确性和稳定性。实验结果表明,当训练语料分布合理时,经过LDA和word2vec的有效结合,主题词抽取效果有所提高,验证了该方法的可行性。 展开更多
关键词 自然语言处理 LDA模型 主题挖掘 word2vec模型 GIBBS抽样
在线阅读 下载PDF
融合Word2vec与TextRank的关键词抽取研究 被引量:69
12
作者 宁建飞 刘降珍 《现代图书情报技术》 CSSCI 2016年第6期20-27,共8页
【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之... 【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配,并构建对应的概率转移矩阵用于词汇图模型的迭代计算以及关键词抽取。【结果】实现Word2vec与Text Rank的有效融合,且当训练文档集词汇分布合理时,关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练,获取词向量以及词关系矩阵。【结论】文档集中的词关系有助于修正单文档内部的词关系,提升单文档的关键词抽取准确性。 展开更多
关键词 抽取 word2vec TextRank 图模型 词向量
原文传递
word2vec-ACV:OOV语境含义的词向量生成模型 被引量:9
13
作者 王永贵 郑泽 李玥 《计算机应用研究》 CSCD 北大核心 2019年第6期1623-1628,共6页
针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵... 针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(global ACV)和局部平均上下文词向量(local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵,并将word2vec-ACV模型和word2vec模型分别进行类比任务实验和命名实体识别任务实验。实验结果表明,word2vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。 展开更多
关键词 word2vec模型 词向量 共现矩阵 平均上下文词向量
在线阅读 下载PDF
基于卷积神经网络的中医医案诊断分类方法
14
作者 邱雪峰 查青林 +2 位作者 苗震 刘明 李欣依 《现代信息科技》 2025年第6期39-45,共7页
针对中医医案诊断分类研究中上下文语义捕捉不足,难以有效捕捉长距离依赖信息以及分类精确度低等问题,提出了一种结合文本卷积神经网络(TextCNN)和门控循环单元(GRU)的混合模型。首先,利用Word2Vec模型对词向量进行训练,构建局部词向量... 针对中医医案诊断分类研究中上下文语义捕捉不足,难以有效捕捉长距离依赖信息以及分类精确度低等问题,提出了一种结合文本卷积神经网络(TextCNN)和门控循环单元(GRU)的混合模型。首先,利用Word2Vec模型对词向量进行训练,构建局部词向量库。其次,采用文本卷积神经网络对中医医案文本进行特征提取,以捕捉局部重要信息。最后,利用门控循环单元对提取的特征进行上下文信息建模,从而显著增强模型对长依赖关系的处理能力。实验结果表明,该模型在中医医案诊断文本分类任务中表现出色,预测精度达到85.01%,F1值为81.86%。 展开更多
关键词 中医医案 TextCNN GRU word2vec模型 文本分类
在线阅读 下载PDF
城市空中交通感知风险识别与评价:基于在线评论数据
15
作者 郑秀梅 李智恒 《安全与环境学报》 北大核心 2025年第8期3143-3150,共8页
感知风险对技术采纳行为具有显著影响,探究中国公众对城市空中交通(Urban Air Mobility,UAM)的感知风险有助于推动UAM市场化进程。采用扎根理论挖掘在线评论数据,提取UAM感知风险因素,构建UAM感知风险理论框架;借助可视化软件Ucinet和Ne... 感知风险对技术采纳行为具有显著影响,探究中国公众对城市空中交通(Urban Air Mobility,UAM)的感知风险有助于推动UAM市场化进程。采用扎根理论挖掘在线评论数据,提取UAM感知风险因素,构建UAM感知风险理论框架;借助可视化软件Ucinet和Netdraw开展UAM感知风险语义网络分析,探究UAM感知风险因素的重要度排序。结果表明:中国情境下公众UAM感知风险包括六个风险类型、19个风险因素;六类感知风险的重要度排序由高至低依次是感知社会风险、感知侵权风险、感知环境风险、感知绩效风险、感知技术风险和感知政策风险;其中,身体损伤、公共安全、信息泄露、自然环境、服务性能、人居环境、政策制定、设施环境、机体结构、飞行性能等10个风险因素处于语义网络中的核心区域,是更为关键的UAM感知风险因素。 展开更多
关键词 安全社会科学 城市空中交通 感知风险 扎根理论 语义网络 word2vec模型
原文传递
美国智库生物安全研究:主题、演进与启示
16
作者 谢宇恒 李程 李春雷 《世界科技研究与发展》 2025年第3期372-388,共17页
研究美国智库21世纪以来生物安全研究主题与演进趋势,有助于推动我国生物安全智库与安全话语体系建设、完善我国生物安全保护与治理体系。本文基于LDA-Word2vec模型,以美国国防与国家安全领域六家主流智库研究产出为样本,以美国历届总... 研究美国智库21世纪以来生物安全研究主题与演进趋势,有助于推动我国生物安全智库与安全话语体系建设、完善我国生物安全保护与治理体系。本文基于LDA-Word2vec模型,以美国国防与国家安全领域六家主流智库研究产出为样本,以美国历届总统任期作为阶段划分依据,进行主题识别与演进分析发现,在形成主题框架基础之上,美国智库对于生物安全研究演进过程包括主题兴起与体系建构、战略发展与实践深化、技术创新与国际合作三大演进阶段以及公共卫生、生物监测与防御等领域在内的八条路径。基于此,建议我国加强国内生物安全智库建设,贡献中国智慧;推动生物安全风险防控前移,加强科技嵌入;积极参与国际生物安全治理,增强国际话语权;关注生物科技新兴发展领域,深化跨学科交流。 展开更多
关键词 生物安全 美国智库 LDA模型 word2vec 主题演进 生物监测与防御
在线阅读 下载PDF
Word2vec的工作原理及应用探究 被引量:104
17
作者 周练 《科技情报开发与经济》 2015年第2期145-148,共4页
研究了Word2vec的工作原理及应用,明确了统计语言模型的关键问题,分析了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本原理进行了探讨,对Word2vec词向量训练框架的工作原理进行了详细分析,推导出了训练... 研究了Word2vec的工作原理及应用,明确了统计语言模型的关键问题,分析了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本原理进行了探讨,对Word2vec词向量训练框架的工作原理进行了详细分析,推导出了训练模型的目标函数,介绍了Word2vec工程的主要文件和训练参数,并将Word2vec应用于中文词向量的训练。 展开更多
关键词 word2vec 词向量 统计语言模型
在线阅读 下载PDF
基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型 被引量:43
18
作者 王根生 黄学坚 《小型微型计算机系统》 CSCD 北大核心 2019年第5期1120-1126,共7页
针对传统机器学习文本分类算法语义特征表达弱、文本表示维度高、词序丢失、矩阵稀疏等问题,提出基于Word2vec、改进型TF-IDF和卷积神经网络三者相结合的文本分类模型(CTMWT):首先通过Word2vec模型训练得出样本中所有的词向量;然后提出... 针对传统机器学习文本分类算法语义特征表达弱、文本表示维度高、词序丢失、矩阵稀疏等问题,提出基于Word2vec、改进型TF-IDF和卷积神经网络三者相结合的文本分类模型(CTMWT):首先通过Word2vec模型训练得出样本中所有的词向量;然后提出基于类频方差改进型TF-IDF算法,分析每个词向量在文本中的权重,构建基于词向量和权重的文本向量表示;最后借助卷积神经网络从局部到全局相关性特征的学习能力,对该大量文本向量进行深度学习.试验结果表明三者结合的文本分类模型不仅能实现文本的准确分类,并且相比传统的机器学习文本分类算法具有更好的分类效果. 展开更多
关键词 word2vec 改进型TF-IDF算法 卷积神经网络 文本分类 CTMWT
在线阅读 下载PDF
基于Huffman-LDA和Weight-Word2vec的文本表示模型研究 被引量:4
19
作者 黄春雨 胡迪 +1 位作者 邱宁佳 孙爽滋 《长春理工大学学报(自然科学版)》 2020年第1期89-96,132,共9页
LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本... LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性。本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用梯度上升方法更新主题向量,新的主题向量包含不同主题词之间的关系,求得的特征不再具有稀疏性;然后,使用LDA主题向量与主题矩阵中词的主题特性计算词权重更新Word2vec的词向量,使得词向量包含主题词之间的关系进而表示文档向量;最后,通过主题向量和文档向量的欧式距离得到具有强分类特征的文本表示。实验结果表明,该方法可获得更强的文本表示特征,有效提高文档分类精度。 展开更多
关键词 主题模型 词嵌入 文本表示 Huffman-LDA Weight-word2vec
在线阅读 下载PDF
基于Word2vec和多分类器的影评情感分类方法 被引量:2
20
作者 王学贺 赵华 《宁夏大学学报(自然科学版)》 CAS 2019年第2期141-144,共4页
针对影评数据的情感分析,提出基于Word2vec和多分类器的情感分类方法.首先在对评论数据进行预处理的基础上,训练Word2vec模型,将词表示为词向量;其次结合随机森林和朴素贝叶斯多项式模型完成影评数据的情感分类;最后在Kaggle竞赛公开的... 针对影评数据的情感分析,提出基于Word2vec和多分类器的情感分类方法.首先在对评论数据进行预处理的基础上,训练Word2vec模型,将词表示为词向量;其次结合随机森林和朴素贝叶斯多项式模型完成影评数据的情感分类;最后在Kaggle竞赛公开的影评数据集上进行实验.结果表明,Word2vec可有效捕捉词的语义,显著提高情感分类算法的性能. 展开更多
关键词 word2vec 情感分类 随机森林 朴素贝叶斯多项式模型
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部