期刊文献+
共找到402篇文章
< 1 2 21 >
每页显示 20 50 100
Enhancing BERTopic with Pre-Clustered Knowledge: Reducing Feature Sparsity in Short Text Topic Modeling
1
作者 Qian Wang Biao Ma 《Journal of Data Analysis and Information Processing》 2024年第4期597-611,共15页
Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic captur... Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic capture accuracy. We propose a novel approach that incorporates pre-clustered knowledge into the BERTopic model while reducing the l2 norm for low-frequency words. Our method effectively mitigates feature sparsity during cluster mapping. Empirical evaluation on the StackOverflow dataset demonstrates that our approach outperforms baseline models, achieving superior Macro-F1 scores. These results validate the effectiveness of our proposed feature sparsity reduction technique for short-text topic modeling. 展开更多
关键词 topic model BERtopic Short text Feature Sparsity CLUSTER
在线阅读 下载PDF
BURST-LDA: A NEW TOPIC MODEL FOR DETECTING BURSTY TOPICS FROM STREAM TEXT 被引量:3
2
作者 Qi Xiang Huang Yu +4 位作者 Chen Ziyan Liu Xiaoyan Tian Jing Huang Tinglei Wang Hongqi 《Journal of Electronics(China)》 2014年第6期565-575,共11页
Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty... Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty topics that experience a sudden increase during a period of time. In this paper, we propose a new topic model named Burst-LDA, which simultaneously discovers topics and reveals their burstiness through explicitly modeling each topic's burst states with a first order Markov chain and using the chain to generate the topic proportion of documents in a Logistic Normal fashion. A Gibbs sampling algorithm is developed for the posterior inference of the proposed model. Experimental results on a news data set show our model can efficiently discover bursty topics, outperforming the state-of-the-art method. 展开更多
关键词 text mining Burst detection topic model Graphical model Bayesian inference
在线阅读 下载PDF
基于iTopicModel的关联文本分类算法
3
作者 梁鹏鹏 柴玉梅 王黎明 《计算机工程》 CAS CSCD 北大核心 2011年第21期124-125,130,共3页
针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类... 针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类。实验结果表明,当文档间的关联关系对类信息影响较大时,TC-iTM的分类性能优于传统文本分类方法。 展开更多
关键词 文本分类 文档网络 主题模型 EM算法
在线阅读 下载PDF
Assessing citizen science opportunities in forest monitoring using probabilistic topic modelling 被引量:1
4
作者 Stefan Daume Matthias Albert Klaus von Gadow 《Forestry Studies in China》 CAS 2014年第2期93-104,共12页
Background: With mounting global environmental, social and economic pressures the resilience and stability of forests and thus the provisioning of vital ecosystem services is increasingly threatened. Intensified moni... Background: With mounting global environmental, social and economic pressures the resilience and stability of forests and thus the provisioning of vital ecosystem services is increasingly threatened. Intensified monitoring can help to detect ecological threats and changes earlier, but monitoring resources are limited. Participatory forest monitoring with the help of "citizen scientists" can provide additional resources for forest monitoring and at the same time help to communicate with stakeholders and the general public. Examples for citizen science projects in the forestry domain can be found but a solid, applicable larger framework to utilise public participation in the area of forest monitoring seems to be lacking. We propose that a better understanding of shared and related topics in citizen science and forest monitoring might be a first step towards such a framework. Methods: We conduct a systematic meta-analysis of 1015 publication abstracts addressing "forest monitoring" and "citizen science" in order to explore the combined topical landscape of these subjects. We employ 'topic modelling an unsupervised probabilistic machine learning method, to identify latent shared topics in the analysed publications. Results: We find that large shared topics exist, but that these are primarily topics that would be expected in scientific publications in general. Common domain-specific topics are under-represented and indicate a topical separation of the two document sets on "forest monitoring" and "citizen science" and thus the represented domains. While topic modelling as a method proves to be a scalable and useful analytical tool, we propose that our approach could deliver even more useful data if a larger document set and full-text publications would be available for analysis. Conclusions: We propose that these results, together with the observation of non-shared but related topics, point at under-utilised opportunities for public participation in forest monitoring. Citizen science could be applied as a versatile tool in forest ecosystems monitoring, complementing traditional forest monitoring programmes, assisting early threat recognition and helping to connect forest management with the general public. We conclude that our presented approach should be pursued further as it may aid the understanding and setup of citizen science efforts in the forest monitoring domain. 展开更多
关键词 Forest monitoring Citizen science Participatory forest monitoring Probabilistic topic modelling text analysis
在线阅读 下载PDF
我国政府数据开放研究与国家战略所需的匹配度分析——基于BERTopic模型与扎根理论 被引量:1
5
作者 吴应强 李白杨 +1 位作者 费巍 黄平平 《情报科学》 北大核心 2025年第1期117-126,共10页
【目的/意义】识别我国政府数据开放相关研究主题与战略发展方向,探究我国政府数据开放研究与国家发展战略的匹配性。【方法/过程】采用BERTopic模型对2010-2023年期间CNKI数据库中政府数据开放相关文献进行主题挖掘,借助扎根理论对12... 【目的/意义】识别我国政府数据开放相关研究主题与战略发展方向,探究我国政府数据开放研究与国家发展战略的匹配性。【方法/过程】采用BERTopic模型对2010-2023年期间CNKI数据库中政府数据开放相关文献进行主题挖掘,借助扎根理论对12份政府数据开放内容相关国家级政策文件归纳梳理战略发展方向。【结果/结论】我国政府数据开放研究可分为14个主题,国家战略发展方向可分为6个子范畴和13个初始范畴,经对比分析发现,政府数据开放相关研究与我国国家发展战略具有较高的匹配程度,表明学界研究在对接国家政策需求与发展战略过程中具有较强主动性与一致性。【创新/局限】结合利用BERTopic模型与扎根理论思想,探究我国政府数据开放研究与国家发展战略的匹配性。但本文主题挖掘模型单一,未进行多种模型结果的对比;需进一步完善、补充自定义词表,加强主题特征的提取;未来可考虑使用词汇关联的形式呈现政策文件内容结构,有助于可视化展示国家战略发展方向。 展开更多
关键词 政府数据开放 政策文本 文本挖掘 主题挖掘 BERtopic模型 扎根理论
原文传递
NON-PARAMETRIC TOPIC MODEL FOR DISCOVERING GEOGRAPHICAL TOPIC VARIATIONS
6
作者 Qi Xiang Huang Yu +3 位作者 Song Jun Huang Tinglei Wang Hongqi Fu Kun 《Journal of Electronics(China)》 2014年第6期576-586,共11页
This paper presents a non-parametric topic model that captures not only the latent topics in text collections, but also how the topics change over space. Unlike other recent work that relies on either Gaussian assumpt... This paper presents a non-parametric topic model that captures not only the latent topics in text collections, but also how the topics change over space. Unlike other recent work that relies on either Gaussian assumptions or discretization of locations, here topics are associated with a distance dependent Chinese Restaurant Process(ddC RP), and for each document, the observed words are influenced by the document's GPS-tag. Our model allows both unbound number and flexible distribution of the geographical variations of the topics' content. We develop a Gibbs sampler for the proposal, and compare it with existing models on a real data set basis. 展开更多
关键词 text mining topic model Geographical topics Bayesian non-parameter
在线阅读 下载PDF
基于改进的BERTopic模型的政策文本主题挖掘
7
作者 王雨琪 刘晨 +1 位作者 刘建炜 蔡宏民 《计算机技术与发展》 2025年第5期90-96,共7页
自然语言处理技术在文本分析中的应用,显著提高了从海量数据中提取关键信息的效率。基于自然语言处理技术的主题分析方法也在文本分析领域中取得了一定成果。然而,由于政策文本数据具有场景复杂、文本长和头部效应等挑战,现有的主题挖... 自然语言处理技术在文本分析中的应用,显著提高了从海量数据中提取关键信息的效率。基于自然语言处理技术的主题分析方法也在文本分析领域中取得了一定成果。然而,由于政策文本数据具有场景复杂、文本长和头部效应等挑战,现有的主题挖掘方法生成的主题结果仍有较大的进步空间。针对政策文本主题建模的挑战,该文基于BERTopic方法,引入了动态文档嵌入优化器和流行度纠偏正则化项。分别克服了BERTopic只能在固定维度挖掘主题导致的普适性不足以及受到词级别的流行度偏差影响导致的主题结果同质化问题,实现了对最佳主题聚类向量维度的自动选择和对热门词汇的有效纠偏。通过对实验分析,改进后的BERTopic方法在主题一致性、主题多样性和综合质量指标上均显著优于原始BERTopic模型及先进的神经网络主题模型;在可视化结果上,生成的主题质量也显著优于原生模型。 展开更多
关键词 自然语言处理 主题模型 政策文本 BERtopic 流行度偏差
在线阅读 下载PDF
基于PaECTER-BERTopic与大模型的专利技术主题识别及演化分析——以生成式人工智能领域为例 被引量:2
8
作者 黄怡 隗玲 张凯 《数字图书馆论坛》 2025年第2期1-11,共11页
为解决目前专利文本向量化表征效果不佳、专利技术主题识别结果可解释性不够等问题,提出一种基于PaECTER专利预训练语言模型、BERTopic与大模型的专利技术主题识别及演化分析方法。首先,采用PaECTER专利预训练语言模型对专利文本进行向... 为解决目前专利文本向量化表征效果不佳、专利技术主题识别结果可解释性不够等问题,提出一种基于PaECTER专利预训练语言模型、BERTopic与大模型的专利技术主题识别及演化分析方法。首先,采用PaECTER专利预训练语言模型对专利文本进行向量化表示;其次,基于BERTopic模型结合KeyBERT对专利技术主题进行识别,并使用GPT-4o大模型对技术主题进行体系化分析;再次,基于PaECTER对专利技术主题进行相似度关联计算,生成专利技术演化路径;最后,以生成式人工智能领域为例,验证所提方法的有效性。实验结果表明,对比传统的BERTopic模型,所提方法提高了专利技术主题的可解释性、一致性和多样性,实现了准确的专利技术演化路径识别,同时揭示了生成式人工智能领域技术的发展状态和演进路径,为相关领域研究提供理论参考。 展开更多
关键词 专利文本 技术主题识别 技术演化分析 PaECTER-BERtopic 大模型
在线阅读 下载PDF
基于BERTopic模型的国内教育数字化研究热点主题与演化分析 被引量:1
9
作者 王卫斌 蔡梅 《情报探索》 2025年第3期96-104,共9页
[目的/意义]教育数字化转型是我国教育变革的重要战略方向,对相关文献进行系统分析有助于为未来研究指明方向。[方法/过程]研究以937篇CNKI数据库中的文章摘要作为文本数据源,采用BERTopic模型对文献资源进行主题挖掘与识别,分析了研究... [目的/意义]教育数字化转型是我国教育变革的重要战略方向,对相关文献进行系统分析有助于为未来研究指明方向。[方法/过程]研究以937篇CNKI数据库中的文章摘要作为文本数据源,采用BERTopic模型对文献资源进行主题挖掘与识别,分析了研究热点主题,并从整体演化趋势和热点演化路径两个层面探讨了研究演化情况。[结果/结论]我国教育数字化研究包含20个潜在研究主题,其中热点主题主要有7个;从研究热点演化路径来看,教育现代化建设、职业教育发展变革和思想政治教育是贯穿整个转型过程的核心主题,数字化教材、高等教育发展路径、人工智能技术、教师素养与能力等主题交替更迭,体现了该研究领域与时俱进的特点。 展开更多
关键词 教育数字化 教育数字化转型 BERtopic 主题模型 文本挖掘
在线阅读 下载PDF
基于BERTopic模型的在线教育主题文本挖掘分析 被引量:1
10
作者 陈加元 刘彦 《情报探索》 2025年第2期59-67,共9页
[目的/意义]旨在为在线教育的发展提供参考。[方法/过程]检索Web of Science(WoS)核心数据库关于在线教育的文献(保留摘要以Excel格式导出),运用BERTopic模型进行热点主题抽取,进而对在线教育领域主题进行分析。[结果/结论]BERTopic模... [目的/意义]旨在为在线教育的发展提供参考。[方法/过程]检索Web of Science(WoS)核心数据库关于在线教育的文献(保留摘要以Excel格式导出),运用BERTopic模型进行热点主题抽取,进而对在线教育领域主题进行分析。[结果/结论]BERTopic模型自动生成145个主题(未经干扰),经过归纳和筛选共得到四个主题,即主题1在线教育底层技术研究、主题2在线教学研究、主题3创造思维培养以及主题4在线学习研究。目前元宇宙的出现促进了在线教育的发展,给在线教育提供了沉浸式的学习环境。同时,在线教育促进了学生的个性化发展,在一定程度上弥补了教育不公平。 展开更多
关键词 BERtopic模型 在线教育 文本挖掘 主题分析
在线阅读 下载PDF
社交媒体数据驱动的公众低碳意识主题识别与演化分析——BERTopic与GM(1,1)模型结合研究
11
作者 赵晓春 高策 周瑛 《福建江夏学院学报》 2025年第6期87-97,共11页
本研究旨在通过主题建模技术与预测分析方法,系统探究社交媒体语境下公众低碳意识的结构特征与演化规律,为低碳政策优化、环境教育策略制定及舆情管理提供实证依据。基于新浪微博平台低碳意识主题文本数据集,首先构建BERTopic主题模型... 本研究旨在通过主题建模技术与预测分析方法,系统探究社交媒体语境下公众低碳意识的结构特征与演化规律,为低碳政策优化、环境教育策略制定及舆情管理提供实证依据。基于新浪微博平台低碳意识主题文本数据集,首先构建BERTopic主题模型进行语义特征提取与主题聚类分析,继而应用GM(1,1)灰色预测模型开展主题演化趋势预测,实现静态特征分析与动态演化分析的有机融合。研究识别出31个具有语义独立性的低碳意识主题,经层次聚类归纳为3个维度下的8个核心主题,分别涵盖低碳认知、低碳态度和低碳责任。在这些核心主题中,垃圾分类、绿色出行与生态发展等议题在公众讨论中占据主导地位,随着政策导向和社会事件呈现动态变化,并且预测模型显示公众关注度将保持稳定增长,表明公众低碳意识逐步深入,低碳生活理念已融入日常生活。 展开更多
关键词 公众低碳意识 数据挖掘 主题演化 BERtopic模型 GM(1 1)模型
在线阅读 下载PDF
消费品投诉识别与缺陷特征发现——基于BERTopic模型
12
作者 田晶晶 洪瑶瑶 +2 位作者 韦海霞 刘成伟 林春伟 《标准科学》 2025年第6期116-125,共10页
【目的】为改进消费品质量和服务、提升消费者满意度和品牌竞争力提供依据,助力消费品市场有序健康发展。【方法】以2016—2021年从政府官方平台获取的23,736条投诉文本为基础,应用BERTopic模型进行主题挖掘,识别主要主题及演化趋势,并... 【目的】为改进消费品质量和服务、提升消费者满意度和品牌竞争力提供依据,助力消费品市场有序健康发展。【方法】以2016—2021年从政府官方平台获取的23,736条投诉文本为基础,应用BERTopic模型进行主题挖掘,识别主要主题及演化趋势,并借助投诉主题网络分析缺陷特征之间的关联性。【结果】消费品投诉主要集中在电子产品的质量缺陷和售后服务不足,消费者对手机电池问题导致的自动关机关注度较高,投诉主题网络揭示了投诉内容之间的复杂关系,维修、售后等问题在网络中占据桥梁地位,消费者重视品牌,并对品牌和产品类别的投诉表现出显著差异。【结论】所构建的主题模型能够较好地识别投诉的类别、品牌、缺陷特征等,并详细展示了各投诉内容之间的关联性。后续将进一步扩大研究样本范围,从更广泛的渠道获得投诉文本并进行信息挖掘。 展开更多
关键词 消费品缺陷 BERtopic模型 文本挖掘 投诉主题网络
在线阅读 下载PDF
基于特定领域的中文微博热点话题挖掘系统BTopicMiner 被引量:26
13
作者 李劲 张华 +1 位作者 吴浩雄 向军 《计算机应用》 CSCD 北大核心 2012年第8期2346-2349,共4页
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本... 随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。 展开更多
关键词 数据挖掘 信息检索 微博 话题模型 文本聚类 互信息
在线阅读 下载PDF
Hierarchical clustering based on single-pass for breaking topic detection and tracking 被引量:3
14
作者 Li Fenghuan Zhao Zongfei Wang Zhenyu 《High Technology Letters》 EI CAS 2018年第4期369-377,共9页
Single-pass is commonly used in topic detection and tracking( TDT) due to its simplicity,high efficiency and low cost. When dealing with large-scale data,time cost will increase sharply and clustering performance will... Single-pass is commonly used in topic detection and tracking( TDT) due to its simplicity,high efficiency and low cost. When dealing with large-scale data,time cost will increase sharply and clustering performance will be affected greatly. Aiming at this problem,hierarchical clustering algorithm based on single-pass is proposed,which is inspired by hierarchical and concurrent ideas to divide clustering process into three stages. News reports are classified into different categories firstly.Then there are twice single-pass clustering processes in the same category,and one agglomerative clustering among different categories. In addition,for semantic similarity in news reports,topic model is improved based on named entities. Experimental results show that the proposed method can effectively accelerate the process as well as improve the performance. 展开更多
关键词 topic detection and tracking(TDT) single-pass HIERARCHICAL CLUSTERING text CLUSTERING topic modeling
在线阅读 下载PDF
集成学习框架下水电工程施工事故致因因果发现 被引量:1
15
作者 郑霞忠 欧妍希 +2 位作者 田丹 陈云 钟馨凝 《安全与环境学报》 北大核心 2025年第4期1237-1246,共10页
为了探究水电工程施工安全风险复杂因果关系,理清安全风险事故演化过程,实现精准化的事故管理,以近年代表性事故调查报告为基础,集成二元项主题模型(Biterm Topic Model,BTM)与决策试验与评估实验法(Decision-Making Trial and Evaluati... 为了探究水电工程施工安全风险复杂因果关系,理清安全风险事故演化过程,实现精准化的事故管理,以近年代表性事故调查报告为基础,集成二元项主题模型(Biterm Topic Model,BTM)与决策试验与评估实验法(Decision-Making Trial and Evaluation Laboratory,DEMATEL),改进关联规则(Apriori algorithm)算法,建立水电工程事故致因演化规则智能分析模型。首先,利用BTM方法,挖掘事故文本中的关键信息,获得关键信息的特征词,提炼事故致因因素;其次,融合事故致因因素与DEMATEL方法改进Apriori算法,分析事故致因演化规则,获得事故致因因素间的因果关联关系。最后,将提取的14个事故致因关键词建立模型,应用于水电工程的事故分析中,深入挖掘事故诱因,阐明事故演化过程,为安全事故的高效精准管理提供了理论和技术支撑,有助于提升施工现场安全管理质量与效率,实现事故的实时高效预控。 展开更多
关键词 安全工程 事故致因分析 文本挖掘 关联规则 二元项主题模型
原文传递
融合文本和图像的个性化需求预测方法——基于有限偏好视角
16
作者 姜元春 李怡 +2 位作者 钱洋 柴一栋 刘业政 《管理科学学报》 北大核心 2025年第9期52-64,共13页
随着电子商务应用由广度到深度的转变,个性化成为电子商务服务模式创新的重要方向.为了准确预测消费者的个性化需求,本研究融合产品描述文本和展示图像信息,提出一种有限偏好约束的个性化需求预测方法.基于有限注意力假设,该方法对消费... 随着电子商务应用由广度到深度的转变,个性化成为电子商务服务模式创新的重要方向.为了准确预测消费者的个性化需求,本研究融合产品描述文本和展示图像信息,提出一种有限偏好约束的个性化需求预测方法.基于有限注意力假设,该方法对消费者有限偏好进行建模,将图像特征和文本特征相融合,构建有限偏好约束下的融合文本和图像的稀疏图文链接主题模型.该模型通过群体兴趣建模、个体偏好建模和购买决策建模等过程,对消费者的个性化需求进行预测.基于亚马逊公开数据集的实验表明,所提模型可以有效预测消费者的群体兴趣和个性化偏好,文本和图像信息的融合提高了个性化需求预测的可解释性. 展开更多
关键词 个性化 需求预测 有限偏好 稀疏图文链接主题模型
在线阅读 下载PDF
基于文本挖掘的高铁运营质量评价与指标体系构建——旅客出行需求视角
17
作者 薛锋 刘姝琪 +2 位作者 顾锦轩 赵亮 陈崇双 《铁道运输与经济》 北大核心 2025年第11期186-197,共12页
随着高速铁路网络的不断扩展,现有指标体系难以全面准确地反映高速铁路运行状态与管理效能,系统评估运营质量并构建一个科学且全面的运营评价指标体系变得尤为重要。研究采用网络文本数据挖掘技术,结合LDA主题模型,深入探究高速铁路旅... 随着高速铁路网络的不断扩展,现有指标体系难以全面准确地反映高速铁路运行状态与管理效能,系统评估运营质量并构建一个科学且全面的运营评价指标体系变得尤为重要。研究采用网络文本数据挖掘技术,结合LDA主题模型,深入探究高速铁路旅客出行需求并将其划分为9个主题维度,并归纳总结出覆盖预期体验、客运感知与服务评价的多层次高速铁路运营质量评价指标体系,情感分析进一步揭示了旅客对于不同主题维度的服务质量评价。研究表明:旅客对高速铁路服务的整体评价在客运规模、基础建设与运营等方面表现较为满意,而对票务服务、乘车环境和列车人员服务等方面提出了较多改进需求。通过分析网络文本数据,有效地捕捉到旅客对于高速铁路运营质量的评价,并为优化高速铁路运营质量评价指标体系提供了坚实的数据基础。 展开更多
关键词 高速铁路 文本挖掘 LDA主题模型 旅客满意度 需求分析 体系构建
在线阅读 下载PDF
主题模型网络分析:计算传播视野下的舆情文本挖掘新进路 被引量:2
18
作者 张媛 刘兴澳 《情报杂志》 北大核心 2025年第5期122-129,共8页
[研究目的]旨在提出一种新的复杂文本挖掘方法——“主题模型网络分析”(ANTMN),以解决传统舆情文本挖掘方法在动机过强、人工介入过多、主题粗糙等方面的局限,为舆情治理、风险识别和舆论引导提供有效的方法支持。[研究方法]通过文献... [研究目的]旨在提出一种新的复杂文本挖掘方法——“主题模型网络分析”(ANTMN),以解决传统舆情文本挖掘方法在动机过强、人工介入过多、主题粗糙等方面的局限,为舆情治理、风险识别和舆论引导提供有效的方法支持。[研究方法]通过文献梳理分析传统方法的局限性及计算转向的学术进展,通过比较分析论证ANTMN较之现有方法的创新优势。[研究结果/结论]研究发现,ANTMN遵循“主题建模”“网络分析”与“社区检测”的三步法,以“纯归纳取向”获得客观性,以“混合计算取向”超越传统方法的静态局限。ANTMN还在舆情传播研究中表现出较强的实践应用价值,即在经验现象中提出舆情传播问题、在数据驱动中解析舆情传播机制、在趋势预测中建构舆情传播体系。 展开更多
关键词 舆情传播 主题模型网络分析 舆情文本挖掘 计算传播
在线阅读 下载PDF
基于LDA模型的中医药新闻主题识别及其热点演化分析
19
作者 姜威 于琦 +4 位作者 于彤 田野 王一萌 祖雅琪 李敬华 《中国中医药图书情报杂志》 2025年第6期112-117,共6页
目的基于LDA模型识别中医药新闻热点主题及变化情况,为政府部门、科研及相关人员提供有效的决策参考与信息支持。方法从中医药管理部门及主流媒体采集2022年11月1日-2023年10月31日发布的中医药新闻,借助数据预处理手段及LDA主题模型文... 目的基于LDA模型识别中医药新闻热点主题及变化情况,为政府部门、科研及相关人员提供有效的决策参考与信息支持。方法从中医药管理部门及主流媒体采集2022年11月1日-2023年10月31日发布的中医药新闻,借助数据预处理手段及LDA主题模型文本挖掘方法,构建中医药新闻主题识别及其热点演化分析方案。结果上述时段内共纳入中医药新闻6896条,主题主要集中于中医医疗服务、公共卫生服务、中医药科研、中医药教育、中医药文化、中药发展、中医药事业发展及中医养生保健;其中,医疗、科研、事业发展及中药发展主题强度较高。热点主题下,基层中医药服务、中医药防治新冠危重症、名中医经验传承、中医药高质量发展等是关注重点。结论LDA模型在中医药新闻主题识别中的适用性较高,中医医疗服务、中医药科研和事业发展持续受到关注,中医药主题识别及热点分析有助于全面展现中医药行业发展现状、重大事件及今后发展趋势。 展开更多
关键词 中医药新闻 文本挖掘 LDA模型 主题识别 主题热点
暂未订购
基于LDA的酒店企业在线评论文本数据挖掘研究
20
作者 司应硕 杨文涛 夏倩 《移动信息》 2025年第6期392-394,共3页
酒店企业的在线评论数据是消费者对酒店服务、设施、环境等的直接反馈,具有重要的市场价值.文中以酒店企业在线评论文本为研究对象,阐述了LDA主题模型的基本原理,并探讨了基于LDA主题模型的数据挖掘方法,为酒店企业利用客户评论数据进... 酒店企业的在线评论数据是消费者对酒店服务、设施、环境等的直接反馈,具有重要的市场价值.文中以酒店企业在线评论文本为研究对象,阐述了LDA主题模型的基本原理,并探讨了基于LDA主题模型的数据挖掘方法,为酒店企业利用客户评论数据进行精准决策与创新服务提供了新的方法. 展开更多
关键词 LDA模型 评论文本 数据挖掘 主题建模
在线阅读 下载PDF
上一页 1 2 21 下一页 到第
使用帮助 返回顶部