期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于Gaussian LDA的在线评论主题挖掘研究 被引量:16
1
作者 国显达 那日萨 +1 位作者 高欢 杨心怡 《情报学报》 CSSCI CSCD 北大核心 2020年第6期630-639,共10页
针对现有主题挖掘方法生成的主题分布稀疏、语义不连贯,并导致可应用性差等不足之处,提出了一种基于Gaussian LDA的在线评论主题挖掘方法。首先,通过word2vec训练得到在线评论的词向量,并基于Gaussian LDA模型获取在线评论的主题分布;然... 针对现有主题挖掘方法生成的主题分布稀疏、语义不连贯,并导致可应用性差等不足之处,提出了一种基于Gaussian LDA的在线评论主题挖掘方法。首先,通过word2vec训练得到在线评论的词向量,并基于Gaussian LDA模型获取在线评论的主题分布;然后,通过主题分布来计算评论的相似度矩阵并应用AP聚类算法实现在线评论聚类,通过分析聚类结果实现主题发现;最后,利用TextRank算法提取各主题的关键句子生成主题摘要,以完成对主题的描述。该方法可有效缓解消费者在线评论信息过载问题,通过淘宝、京东、豆瓣等平台7种不同类型产品的评论数据的实验计算证明了方法的有效性及现实应用价值。 展开更多
关键词 在线评论 主题挖掘 gaussian lda主题模型 AP聚类 TextRank
在线阅读 下载PDF
基于Gaussian LDA与谱聚类融合的代表性负向评论提取 被引量:5
2
作者 吴银昊 那日萨 李慧 《情报科学》 CSSCI 北大核心 2021年第3期136-142,共7页
【目的/意义】在线评论尤其是负向评论是消费者进行购买决策的重要依据。而现有减少信息冗余方法在负向在线评论中表现还有待提高。【方法/过程】文中提出了一种基于Gaussian LDA的负向评论谱聚类方法。首先,利用Gaussian LDA模型获取... 【目的/意义】在线评论尤其是负向评论是消费者进行购买决策的重要依据。而现有减少信息冗余方法在负向在线评论中表现还有待提高。【方法/过程】文中提出了一种基于Gaussian LDA的负向评论谱聚类方法。首先,利用Gaussian LDA模型获取负向评论中的主题分布,然后通过主题分布来计算评论间的皮尔森相似度,并应用谱聚类算法实现负向评论聚类,最后提取每类距离簇中心最近的m条评论作为该类的代表性评论。【结果/结论】通过将Gaussian LDA、LDA、TF-IDF和Doc2Vec分别与谱聚类结合,以及将Gaussian LDA与K-means、DBSCAN、谱聚类结合进行交叉比较,验证了所提方法的优越性。据此提取的负向评论类别间区分度高,具有高度代表性,较好地解决了信息冗余问题。【创新/局限】先提取主题再进行聚类的多模型集成式聚类方法为解决评论信息冗余问题提供了新的方法和思路,也为研究文本挖掘、文本聚类提供了一种新的参考。 展开更多
关键词 Gausssian lda 主题模型 谱聚类 负向评论 聚类模型
原文传递
基于TG-LDA模型的民航机务风险要素识别研究 被引量:5
3
作者 刘伟伟 王华伟 +2 位作者 倪晓梅 侯召国 彭珂 《航空计算技术》 2023年第6期45-49,54,共6页
针对民航机务维修领域安全风险研究过程中文本数据利用不充分造成风险要素遗漏的问题,提出了基于改进LDA的机务风险要素识别模型(TF-IDF and Gaussian function-LDA,TG-LDA)。通过构建机务维修领域词典,改善文本挖掘预处理中分词精度不... 针对民航机务维修领域安全风险研究过程中文本数据利用不充分造成风险要素遗漏的问题,提出了基于改进LDA的机务风险要素识别模型(TF-IDF and Gaussian function-LDA,TG-LDA)。通过构建机务维修领域词典,改善文本挖掘预处理中分词精度不高的问题;针对LDA主题模型输入样本量大、噪声多的问题采用TF-IDF算法与高斯函数结合的词条双重优化模型对其优化,最终识别出26类机务维修不安全事件风险要素,并通过可视化进行了风险要素分析。结果表明,与传统算法对比,困惑度由7.19×10^(-4)降低至2.13×10^(-4),改善了文本挖掘中风险要素遗漏的问题,同时识别出机务维修领域主要的风险要素为人员认知存在偏差、维修过程违规作业、人员遗忘/疏漏、检查不全面及飞机部件出现故障。 展开更多
关键词 文本挖掘 机务维修 lda主题模型 TF-IDF 高斯函数
在线阅读 下载PDF
基于聚类和高斯LDA的服务发现方法
4
作者 唐菊 聂彤羽 《自动化与仪器仪表》 2022年第12期36-43,50,共9页
服务发现研究面临两个主要问题:(1)Web服务数量大量增长,服务管理和匹配难度大;(2)API市场中用户常用的基于搜索引擎的服务发现,存在用户查询语义稀疏问题。针对这两个挑战,提出了一种基于聚类和高斯LDA的服务发现方法。该方法首先使用D... 服务发现研究面临两个主要问题:(1)Web服务数量大量增长,服务管理和匹配难度大;(2)API市场中用户常用的基于搜索引擎的服务发现,存在用户查询语义稀疏问题。针对这两个挑战,提出了一种基于聚类和高斯LDA的服务发现方法。该方法首先使用Doc2Vec将服务数据集映射为服务段落向量,接着用K-Means++聚类方法对服务向量聚类。然后,使用Word2Vec生成的上下文信息来扩展用户查询和丰富服务描述,然后将服务描述加载到高斯LDA中获取服务描述表示。最后,按照服务描述表示和扩展的服务查询之间的概率相关性对服务进行排序。实验结果表明,该服务发现模型在Precision@5,Recall@50,F-Measure@50实验结果优于TFIDF-K,LDA,Doc2Vec-K、GLDA-QE方法,提高了查询服务搜索的准确性。 展开更多
关键词 服务发现 聚类 语义稀疏 高斯lda 词嵌入
原文传递
面向多标签隐性知识的文本数据挖掘算法
5
作者 邓乔夫 李骁娅 郭校君 《沈阳工业大学学报》 北大核心 2025年第5期594-601,共8页
【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知... 【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知识的数据挖掘算法,以提升文本分类的准确性和数据挖掘的效率。【方法】针对多标签文本数据中隐性知识的显性化问题,基于SECI理论对文本信息中的隐性知识进行显性化转换,并利用循环神经网络的短时记忆能力提高隐性知识的转换效率。在此基础上,考虑到文本信息的复杂性,分别从局部特征和全局特征两个维度进行分析,并采用特征融合策略提高数据挖掘的准确性。由于文本信息前后文关联性较强,利用基于长短期记忆网络(LSTM)模型的门控机制,提取文本的上下文信息,以捕捉文本中的序列依赖关系;采用潜在狄利克雷分配(LDA)模型,对文本的主题结构进行建模,从而避免因人工标注标准差异导致的模型训练偏差;通过特征拼接的方式,并结合LDA主题模型和LSTM模型提取的局部及全局特征,以降低特征提取过程中信息丢失的风险;引入主题控制器,通过缩小推理范围,提高文本特征提取的有效性;构建基于高斯解码器的上下文主题层,计算词汇在特定主题下的条件概率矩阵,并利用高斯混合解码器优化文本主题建模,提高文本内容的扩充能力;使用Softmax函数计算各标签的概率,实现多标签文本分类。【结果】对比实验中,使用困惑度作为模型训练的评估指标。结果表明,本文模型的困惑度优于对照组(LDA主题模型与LSTM模型),验证了LDA与LSTM结合的特征拼接策略可有效发挥两种模型的优势。此外,与NVDM、LSTM、LDA和VAETM模型进行对比,以准确率和查全率为评估指标,本文模型在准确率和查全率方面分别提升了5.05%和2.75%,表明其在多标签文本分类任务中的有效性与优越性。【结论】对比实验结果表明,本文模型能够显著提升文本分类的性能,相比LDA主题模型和LSTM模型,在处理多标签文本时表现更优;能够高效挖掘多标签文本数据中的隐性知识,为文本分类、语义分析和信息检索等任务提供了一种高效、精准的解决方案。 展开更多
关键词 多标签文本 深度主题特征提取模型 隐性知识 循环神经网络 LSTM神经网络 lda主题模型 特征拼接 高斯解码器
在线阅读 下载PDF
基于改进的核化聚类判别分析的故障识别 被引量:2
6
作者 李天恩 何桢 《管理工程学报》 CSSCI 北大核心 2012年第3期34-41,39-41,共8页
针对一类虽然满足线性判别分析算法(LDA)的三种假设,但仍然导致LDA失效的特殊故障模式,提出运用基于高斯核函数和核化离散差判别分析的一种核化聚类判别分析方法 (KSCDA),通过模拟12种不同样本,证明KSCDA能有效解决该问题,故障识别率最... 针对一类虽然满足线性判别分析算法(LDA)的三种假设,但仍然导致LDA失效的特殊故障模式,提出运用基于高斯核函数和核化离散差判别分析的一种核化聚类判别分析方法 (KSCDA),通过模拟12种不同样本,证明KSCDA能有效解决该问题,故障识别率最大提升从62.5%到100%。且KSCDA优于KSLDA。该问题的解决对实践有一定指导意义。 展开更多
关键词 lda失效 高斯核函数 核化离散差判别分析 核化聚类判别分析 核化线性判别分析
在线阅读 下载PDF
混合空间新型贝叶斯网络模型的图像分割应用研究 被引量:3
7
作者 陈沅涛 刘煊赫 《计算机工程与科学》 CSCD 北大核心 2017年第11期2066-2073,共8页
现有研究工作没有确定概率向量模型的混合部分比例,所以无法解决MCMC方法的迭代收敛性问题。在具有空间平滑约束的高斯混合模型GMM基础上提出新型贝叶斯网络模型并应用于图像分割领域。模型应用隐Dirichlet分布LDA的概率密度模型和Gauss... 现有研究工作没有确定概率向量模型的混合部分比例,所以无法解决MCMC方法的迭代收敛性问题。在具有空间平滑约束的高斯混合模型GMM基础上提出新型贝叶斯网络模型并应用于图像分割领域。模型应用隐Dirichlet分布LDA的概率密度模型和Gauss-Markov随机域MRF的隐Dirichlet参数混合过程来实现参数平滑过程,具有如下优点:针对空间平滑约束规范概率向量模型比例;使用最大后验概率MAP和期望最大化算法EM完成闭合参数的更新操作过程。实验表明,本模型比其他应用GMM方法的图像分割效果好。该模型已成功应用到自然图像和有噪声干扰的自然艺术图像分割过程中。 展开更多
关键词 贝叶斯模型 隐Dirichlet分布 高斯混合模型 图像分割 期望最大化方法
在线阅读 下载PDF
图像分割中改进空间约束贝叶斯网络模型的应用 被引量:3
8
作者 张海艳 高尚兵 《计算机应用》 CSCD 北大核心 2017年第3期823-826,831,共5页
针对马尔可夫链蒙特卡罗方法普遍存在的迭代收敛性问题,在具有空间平滑约束的高斯混合模型条件上提出改进空间约束贝叶斯网络模型并在图像分割领域进行具体应用。所提模型应用隐狄利克雷分布(LDA)概率密度模型和高斯-马尔可夫定理的随... 针对马尔可夫链蒙特卡罗方法普遍存在的迭代收敛性问题,在具有空间平滑约束的高斯混合模型条件上提出改进空间约束贝叶斯网络模型并在图像分割领域进行具体应用。所提模型应用隐狄利克雷分布(LDA)概率密度模型和高斯-马尔可夫定理的随机域参数混合过程来实现参数平滑。所提方法根据空间信息先验平滑变换操作,在待处理像素点的上下文混合结构中引入LDA符合多项式分布,用来替换传统期望最大化算法中映射操作。LDA参数采用闭合形式将有利于准确估计最大后验概率(MAP)框架与上下文混合结构的相关比例。实验结果表明,应用PRI、Vo I、GCE和BDE指标进行效果比较,该方法比联合系统工程组(JSEG)、当前变换矩阵(CTM)和最大后验概率-最大似然法(MM)方法的图像分割应用效果较好,高斯噪声对于该算法的鲁棒性影响较小。 展开更多
关键词 隐狄利克雷分布 期望最大化方法 贝叶斯模型 高斯混合模型 图像分割
在线阅读 下载PDF
噪声环境下的窄带音频信号快速分类方法 被引量:1
9
作者 芮瑞 鲍长春 《计算机工程与应用》 CSCD 北大核心 2011年第16期22-25,共4页
提出了一种基于线性判别分析和高斯混合模型的窄带音频快速分类方法,该方法在白噪声、街道噪声和车内噪声环境下都能有效区分语音、音乐和噪声。实验结果表明,该方法在保证分类时间不大于1s的情况下,分类准确率能达到95以上。
关键词 音频快速分类 特征提取 线性判别分析 高斯混合模型
在线阅读 下载PDF
基于主题模型的短文本情感分析的研究
10
作者 花树雯 张云华 《电工技术》 2019年第4期91-94,共4页
针对物联网中的评论等短文本进行情感分析时,出现上下文依赖性差和严重的特征稀疏,以及评论类文本的情感分析具有时效性等问题,提出了基于词嵌入和时间加权的高斯LDA算法(TG-LDA)。实验结果证明,与同类的主题模型相比,该模型的关键词的... 针对物联网中的评论等短文本进行情感分析时,出现上下文依赖性差和严重的特征稀疏,以及评论类文本的情感分析具有时效性等问题,提出了基于词嵌入和时间加权的高斯LDA算法(TG-LDA)。实验结果证明,与同类的主题模型相比,该模型的关键词的区分度强,主题的一致性高。 展开更多
关键词 情感分类 TG-lda 高斯lda 词嵌入 时间衰减函数
在线阅读 下载PDF
碳捕集技术机会预测方法及其应用研究
11
作者 刘胤彤 康佳宁 +3 位作者 赵阳 舒雅琳 刘贺磊 魏一鸣 《能源与气候变化》 2025年第6期751-762,共12页
低碳发展已成为全球共识,低碳技术正在深刻重塑全球发展格局。碳捕集、利用与封存技术是各国实现碳中和目标的关键技术路径。其中,碳捕集作为前端核心环节,具有基础性地位。本文聚焦碳捕集技术,构建融合模型,识别关键技术领域,预测未来... 低碳发展已成为全球共识,低碳技术正在深刻重塑全球发展格局。碳捕集、利用与封存技术是各国实现碳中和目标的关键技术路径。其中,碳捕集作为前端核心环节,具有基础性地位。本文聚焦碳捕集技术,构建融合模型,识别关键技术领域,预测未来技术机会。基于专利文本数据,本文首先采用潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型和词频–逆文档频率模型联合提取知识元,构建共现网络模型,引入度中心性指标,系统识别当前核心技术要素;然后,构建微调后的预训练模型——来自Transformers的双向编码器表征生成词向量,与LDA主题分布融合,提升语义表达精度;最后,结合高斯混合模型对专利文本进行聚类、离群点检测和时间特征挖掘,识别未来潜在的技术突破方向。结果表明,碳捕集技术目前仍处于快速发展阶段,其专利创新主要涵盖5大热点主题,包含化学吸收、物理吸附、膜分离与热交换、硬件系统优化和气体处理技术。然而,中国的核心专利海外布局仅约为7%。当前,碳捕集技术呈现以氧化物为核心、吸附与溶剂法并行、多元材料与工艺协同的演进特征,知识体系正从单一的单元技术突破迈向全流程的系统集成与协同优化。未来,技术机会主要集中在生物质碳捕集、化学链燃烧、气体协同净化处理等领域。 展开更多
关键词 技术预见 碳捕集技术 lda BERT 高斯混合模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部