期刊文献+
共找到399篇文章
< 1 2 20 >
每页显示 20 50 100
Enhancing BERTopic with Pre-Clustered Knowledge: Reducing Feature Sparsity in Short Text Topic Modeling
1
作者 Qian Wang Biao Ma 《Journal of Data Analysis and Information Processing》 2024年第4期597-611,共15页
Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic captur... Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic capture accuracy. We propose a novel approach that incorporates pre-clustered knowledge into the BERTopic model while reducing the l2 norm for low-frequency words. Our method effectively mitigates feature sparsity during cluster mapping. Empirical evaluation on the StackOverflow dataset demonstrates that our approach outperforms baseline models, achieving superior Macro-F1 scores. These results validate the effectiveness of our proposed feature sparsity reduction technique for short-text topic modeling. 展开更多
关键词 topic model BERtopic Short text Feature Sparsity CLUSTER
在线阅读 下载PDF
我国政府数据开放研究与国家战略所需的匹配度分析——基于BERTopic模型与扎根理论 被引量:1
2
作者 吴应强 李白杨 +1 位作者 费巍 黄平平 《情报科学》 北大核心 2025年第1期117-126,共10页
【目的/意义】识别我国政府数据开放相关研究主题与战略发展方向,探究我国政府数据开放研究与国家发展战略的匹配性。【方法/过程】采用BERTopic模型对2010-2023年期间CNKI数据库中政府数据开放相关文献进行主题挖掘,借助扎根理论对12... 【目的/意义】识别我国政府数据开放相关研究主题与战略发展方向,探究我国政府数据开放研究与国家发展战略的匹配性。【方法/过程】采用BERTopic模型对2010-2023年期间CNKI数据库中政府数据开放相关文献进行主题挖掘,借助扎根理论对12份政府数据开放内容相关国家级政策文件归纳梳理战略发展方向。【结果/结论】我国政府数据开放研究可分为14个主题,国家战略发展方向可分为6个子范畴和13个初始范畴,经对比分析发现,政府数据开放相关研究与我国国家发展战略具有较高的匹配程度,表明学界研究在对接国家政策需求与发展战略过程中具有较强主动性与一致性。【创新/局限】结合利用BERTopic模型与扎根理论思想,探究我国政府数据开放研究与国家发展战略的匹配性。但本文主题挖掘模型单一,未进行多种模型结果的对比;需进一步完善、补充自定义词表,加强主题特征的提取;未来可考虑使用词汇关联的形式呈现政策文件内容结构,有助于可视化展示国家战略发展方向。 展开更多
关键词 政府数据开放 政策文本 文本挖掘 主题挖掘 BERtopic模型 扎根理论
原文传递
BURST-LDA: A NEW TOPIC MODEL FOR DETECTING BURSTY TOPICS FROM STREAM TEXT 被引量:3
3
作者 Qi Xiang Huang Yu +4 位作者 Chen Ziyan Liu Xiaoyan Tian Jing Huang Tinglei Wang Hongqi 《Journal of Electronics(China)》 2014年第6期565-575,共11页
Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty... Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty topics that experience a sudden increase during a period of time. In this paper, we propose a new topic model named Burst-LDA, which simultaneously discovers topics and reveals their burstiness through explicitly modeling each topic's burst states with a first order Markov chain and using the chain to generate the topic proportion of documents in a Logistic Normal fashion. A Gibbs sampling algorithm is developed for the posterior inference of the proposed model. Experimental results on a news data set show our model can efficiently discover bursty topics, outperforming the state-of-the-art method. 展开更多
关键词 text mining Burst detection topic model Graphical model Bayesian inference
在线阅读 下载PDF
基于改进的BERTopic模型的政策文本主题挖掘
4
作者 王雨琪 刘晨 +1 位作者 刘建炜 蔡宏民 《计算机技术与发展》 2025年第5期90-96,共7页
自然语言处理技术在文本分析中的应用,显著提高了从海量数据中提取关键信息的效率。基于自然语言处理技术的主题分析方法也在文本分析领域中取得了一定成果。然而,由于政策文本数据具有场景复杂、文本长和头部效应等挑战,现有的主题挖... 自然语言处理技术在文本分析中的应用,显著提高了从海量数据中提取关键信息的效率。基于自然语言处理技术的主题分析方法也在文本分析领域中取得了一定成果。然而,由于政策文本数据具有场景复杂、文本长和头部效应等挑战,现有的主题挖掘方法生成的主题结果仍有较大的进步空间。针对政策文本主题建模的挑战,该文基于BERTopic方法,引入了动态文档嵌入优化器和流行度纠偏正则化项。分别克服了BERTopic只能在固定维度挖掘主题导致的普适性不足以及受到词级别的流行度偏差影响导致的主题结果同质化问题,实现了对最佳主题聚类向量维度的自动选择和对热门词汇的有效纠偏。通过对实验分析,改进后的BERTopic方法在主题一致性、主题多样性和综合质量指标上均显著优于原始BERTopic模型及先进的神经网络主题模型;在可视化结果上,生成的主题质量也显著优于原生模型。 展开更多
关键词 自然语言处理 主题模型 政策文本 BERtopic 流行度偏差
在线阅读 下载PDF
基于BERTopic模型的国内教育数字化研究热点主题与演化分析 被引量:1
5
作者 王卫斌 蔡梅 《情报探索》 2025年第3期96-104,共9页
[目的/意义]教育数字化转型是我国教育变革的重要战略方向,对相关文献进行系统分析有助于为未来研究指明方向。[方法/过程]研究以937篇CNKI数据库中的文章摘要作为文本数据源,采用BERTopic模型对文献资源进行主题挖掘与识别,分析了研究... [目的/意义]教育数字化转型是我国教育变革的重要战略方向,对相关文献进行系统分析有助于为未来研究指明方向。[方法/过程]研究以937篇CNKI数据库中的文章摘要作为文本数据源,采用BERTopic模型对文献资源进行主题挖掘与识别,分析了研究热点主题,并从整体演化趋势和热点演化路径两个层面探讨了研究演化情况。[结果/结论]我国教育数字化研究包含20个潜在研究主题,其中热点主题主要有7个;从研究热点演化路径来看,教育现代化建设、职业教育发展变革和思想政治教育是贯穿整个转型过程的核心主题,数字化教材、高等教育发展路径、人工智能技术、教师素养与能力等主题交替更迭,体现了该研究领域与时俱进的特点。 展开更多
关键词 教育数字化 教育数字化转型 BERtopic 主题模型 文本挖掘
在线阅读 下载PDF
基于BERTopic模型的在线教育主题文本挖掘分析 被引量:1
6
作者 陈加元 刘彦 《情报探索》 2025年第2期59-67,共9页
[目的/意义]旨在为在线教育的发展提供参考。[方法/过程]检索Web of Science(WoS)核心数据库关于在线教育的文献(保留摘要以Excel格式导出),运用BERTopic模型进行热点主题抽取,进而对在线教育领域主题进行分析。[结果/结论]BERTopic模... [目的/意义]旨在为在线教育的发展提供参考。[方法/过程]检索Web of Science(WoS)核心数据库关于在线教育的文献(保留摘要以Excel格式导出),运用BERTopic模型进行热点主题抽取,进而对在线教育领域主题进行分析。[结果/结论]BERTopic模型自动生成145个主题(未经干扰),经过归纳和筛选共得到四个主题,即主题1在线教育底层技术研究、主题2在线教学研究、主题3创造思维培养以及主题4在线学习研究。目前元宇宙的出现促进了在线教育的发展,给在线教育提供了沉浸式的学习环境。同时,在线教育促进了学生的个性化发展,在一定程度上弥补了教育不公平。 展开更多
关键词 BERtopic模型 在线教育 文本挖掘 主题分析
在线阅读 下载PDF
基于PaECTER-BERTopic与大模型的专利技术主题识别及演化分析——以生成式人工智能领域为例
7
作者 黄怡 隗玲 张凯 《数字图书馆论坛》 2025年第2期1-11,共11页
为解决目前专利文本向量化表征效果不佳、专利技术主题识别结果可解释性不够等问题,提出一种基于PaECTER专利预训练语言模型、BERTopic与大模型的专利技术主题识别及演化分析方法。首先,采用PaECTER专利预训练语言模型对专利文本进行向... 为解决目前专利文本向量化表征效果不佳、专利技术主题识别结果可解释性不够等问题,提出一种基于PaECTER专利预训练语言模型、BERTopic与大模型的专利技术主题识别及演化分析方法。首先,采用PaECTER专利预训练语言模型对专利文本进行向量化表示;其次,基于BERTopic模型结合KeyBERT对专利技术主题进行识别,并使用GPT-4o大模型对技术主题进行体系化分析;再次,基于PaECTER对专利技术主题进行相似度关联计算,生成专利技术演化路径;最后,以生成式人工智能领域为例,验证所提方法的有效性。实验结果表明,对比传统的BERTopic模型,所提方法提高了专利技术主题的可解释性、一致性和多样性,实现了准确的专利技术演化路径识别,同时揭示了生成式人工智能领域技术的发展状态和演进路径,为相关领域研究提供理论参考。 展开更多
关键词 专利文本 技术主题识别 技术演化分析 PaECTER-BERtopic 大模型
在线阅读 下载PDF
消费品投诉识别与缺陷特征发现——基于BERTopic模型
8
作者 田晶晶 洪瑶瑶 +2 位作者 韦海霞 刘成伟 林春伟 《标准科学》 2025年第6期116-125,共10页
【目的】为改进消费品质量和服务、提升消费者满意度和品牌竞争力提供依据,助力消费品市场有序健康发展。【方法】以2016—2021年从政府官方平台获取的23,736条投诉文本为基础,应用BERTopic模型进行主题挖掘,识别主要主题及演化趋势,并... 【目的】为改进消费品质量和服务、提升消费者满意度和品牌竞争力提供依据,助力消费品市场有序健康发展。【方法】以2016—2021年从政府官方平台获取的23,736条投诉文本为基础,应用BERTopic模型进行主题挖掘,识别主要主题及演化趋势,并借助投诉主题网络分析缺陷特征之间的关联性。【结果】消费品投诉主要集中在电子产品的质量缺陷和售后服务不足,消费者对手机电池问题导致的自动关机关注度较高,投诉主题网络揭示了投诉内容之间的复杂关系,维修、售后等问题在网络中占据桥梁地位,消费者重视品牌,并对品牌和产品类别的投诉表现出显著差异。【结论】所构建的主题模型能够较好地识别投诉的类别、品牌、缺陷特征等,并详细展示了各投诉内容之间的关联性。后续将进一步扩大研究样本范围,从更广泛的渠道获得投诉文本并进行信息挖掘。 展开更多
关键词 消费品缺陷 BERtopic模型 文本挖掘 投诉主题网络
在线阅读 下载PDF
基于iTopicModel的关联文本分类算法
9
作者 梁鹏鹏 柴玉梅 王黎明 《计算机工程》 CAS CSCD 北大核心 2011年第21期124-125,130,共3页
针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类... 针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类。实验结果表明,当文档间的关联关系对类信息影响较大时,TC-iTM的分类性能优于传统文本分类方法。 展开更多
关键词 文本分类 文档网络 主题模型 EM算法
在线阅读 下载PDF
Assessing citizen science opportunities in forest monitoring using probabilistic topic modelling 被引量:1
10
作者 Stefan Daume Matthias Albert Klaus von Gadow 《Forestry Studies in China》 CAS 2014年第2期93-104,共12页
Background: With mounting global environmental, social and economic pressures the resilience and stability of forests and thus the provisioning of vital ecosystem services is increasingly threatened. Intensified moni... Background: With mounting global environmental, social and economic pressures the resilience and stability of forests and thus the provisioning of vital ecosystem services is increasingly threatened. Intensified monitoring can help to detect ecological threats and changes earlier, but monitoring resources are limited. Participatory forest monitoring with the help of "citizen scientists" can provide additional resources for forest monitoring and at the same time help to communicate with stakeholders and the general public. Examples for citizen science projects in the forestry domain can be found but a solid, applicable larger framework to utilise public participation in the area of forest monitoring seems to be lacking. We propose that a better understanding of shared and related topics in citizen science and forest monitoring might be a first step towards such a framework. Methods: We conduct a systematic meta-analysis of 1015 publication abstracts addressing "forest monitoring" and "citizen science" in order to explore the combined topical landscape of these subjects. We employ 'topic modelling an unsupervised probabilistic machine learning method, to identify latent shared topics in the analysed publications. Results: We find that large shared topics exist, but that these are primarily topics that would be expected in scientific publications in general. Common domain-specific topics are under-represented and indicate a topical separation of the two document sets on "forest monitoring" and "citizen science" and thus the represented domains. While topic modelling as a method proves to be a scalable and useful analytical tool, we propose that our approach could deliver even more useful data if a larger document set and full-text publications would be available for analysis. Conclusions: We propose that these results, together with the observation of non-shared but related topics, point at under-utilised opportunities for public participation in forest monitoring. Citizen science could be applied as a versatile tool in forest ecosystems monitoring, complementing traditional forest monitoring programmes, assisting early threat recognition and helping to connect forest management with the general public. We conclude that our presented approach should be pursued further as it may aid the understanding and setup of citizen science efforts in the forest monitoring domain. 展开更多
关键词 Forest monitoring Citizen science Participatory forest monitoring Probabilistic topic modelling text analysis
在线阅读 下载PDF
NON-PARAMETRIC TOPIC MODEL FOR DISCOVERING GEOGRAPHICAL TOPIC VARIATIONS
11
作者 Qi Xiang Huang Yu +3 位作者 Song Jun Huang Tinglei Wang Hongqi Fu Kun 《Journal of Electronics(China)》 2014年第6期576-586,共11页
This paper presents a non-parametric topic model that captures not only the latent topics in text collections, but also how the topics change over space. Unlike other recent work that relies on either Gaussian assumpt... This paper presents a non-parametric topic model that captures not only the latent topics in text collections, but also how the topics change over space. Unlike other recent work that relies on either Gaussian assumptions or discretization of locations, here topics are associated with a distance dependent Chinese Restaurant Process(ddC RP), and for each document, the observed words are influenced by the document's GPS-tag. Our model allows both unbound number and flexible distribution of the geographical variations of the topics' content. We develop a Gibbs sampler for the proposal, and compare it with existing models on a real data set basis. 展开更多
关键词 text mining topic model Geographical topics Bayesian non-parameter
在线阅读 下载PDF
基于文本挖掘的高铁运营质量评价与指标体系构建——旅客出行需求视角
12
作者 薛锋 刘姝琪 +2 位作者 顾锦轩 赵亮 陈崇双 《铁道运输与经济》 北大核心 2025年第11期186-197,共12页
随着高速铁路网络的不断扩展,现有指标体系难以全面准确地反映高速铁路运行状态与管理效能,系统评估运营质量并构建一个科学且全面的运营评价指标体系变得尤为重要。研究采用网络文本数据挖掘技术,结合LDA主题模型,深入探究高速铁路旅... 随着高速铁路网络的不断扩展,现有指标体系难以全面准确地反映高速铁路运行状态与管理效能,系统评估运营质量并构建一个科学且全面的运营评价指标体系变得尤为重要。研究采用网络文本数据挖掘技术,结合LDA主题模型,深入探究高速铁路旅客出行需求并将其划分为9个主题维度,并归纳总结出覆盖预期体验、客运感知与服务评价的多层次高速铁路运营质量评价指标体系,情感分析进一步揭示了旅客对于不同主题维度的服务质量评价。研究表明:旅客对高速铁路服务的整体评价在客运规模、基础建设与运营等方面表现较为满意,而对票务服务、乘车环境和列车人员服务等方面提出了较多改进需求。通过分析网络文本数据,有效地捕捉到旅客对于高速铁路运营质量的评价,并为优化高速铁路运营质量评价指标体系提供了坚实的数据基础。 展开更多
关键词 高速铁路 文本挖掘 LDA主题模型 旅客满意度 需求分析 体系构建
在线阅读 下载PDF
集成学习框架下水电工程施工事故致因因果发现
13
作者 郑霞忠 欧妍希 +2 位作者 田丹 陈云 钟馨凝 《安全与环境学报》 北大核心 2025年第4期1237-1246,共10页
为了探究水电工程施工安全风险复杂因果关系,理清安全风险事故演化过程,实现精准化的事故管理,以近年代表性事故调查报告为基础,集成二元项主题模型(Biterm Topic Model,BTM)与决策试验与评估实验法(Decision-Making Trial and Evaluati... 为了探究水电工程施工安全风险复杂因果关系,理清安全风险事故演化过程,实现精准化的事故管理,以近年代表性事故调查报告为基础,集成二元项主题模型(Biterm Topic Model,BTM)与决策试验与评估实验法(Decision-Making Trial and Evaluation Laboratory,DEMATEL),改进关联规则(Apriori algorithm)算法,建立水电工程事故致因演化规则智能分析模型。首先,利用BTM方法,挖掘事故文本中的关键信息,获得关键信息的特征词,提炼事故致因因素;其次,融合事故致因因素与DEMATEL方法改进Apriori算法,分析事故致因演化规则,获得事故致因因素间的因果关联关系。最后,将提取的14个事故致因关键词建立模型,应用于水电工程的事故分析中,深入挖掘事故诱因,阐明事故演化过程,为安全事故的高效精准管理提供了理论和技术支撑,有助于提升施工现场安全管理质量与效率,实现事故的实时高效预控。 展开更多
关键词 安全工程 事故致因分析 文本挖掘 关联规则 二元项主题模型
原文传递
基于LDA模型的中医药新闻主题识别及其热点演化分析
14
作者 姜威 于琦 +4 位作者 于彤 田野 王一萌 祖雅琪 李敬华 《中国中医药图书情报杂志》 2025年第6期112-117,共6页
目的基于LDA模型识别中医药新闻热点主题及变化情况,为政府部门、科研及相关人员提供有效的决策参考与信息支持。方法从中医药管理部门及主流媒体采集2022年11月1日-2023年10月31日发布的中医药新闻,借助数据预处理手段及LDA主题模型文... 目的基于LDA模型识别中医药新闻热点主题及变化情况,为政府部门、科研及相关人员提供有效的决策参考与信息支持。方法从中医药管理部门及主流媒体采集2022年11月1日-2023年10月31日发布的中医药新闻,借助数据预处理手段及LDA主题模型文本挖掘方法,构建中医药新闻主题识别及其热点演化分析方案。结果上述时段内共纳入中医药新闻6896条,主题主要集中于中医医疗服务、公共卫生服务、中医药科研、中医药教育、中医药文化、中药发展、中医药事业发展及中医养生保健;其中,医疗、科研、事业发展及中药发展主题强度较高。热点主题下,基层中医药服务、中医药防治新冠危重症、名中医经验传承、中医药高质量发展等是关注重点。结论LDA模型在中医药新闻主题识别中的适用性较高,中医医疗服务、中医药科研和事业发展持续受到关注,中医药主题识别及热点分析有助于全面展现中医药行业发展现状、重大事件及今后发展趋势。 展开更多
关键词 中医药新闻 文本挖掘 LDA模型 主题识别 主题热点
暂未订购
基于LDA的酒店企业在线评论文本数据挖掘研究
15
作者 司应硕 杨文涛 夏倩 《移动信息》 2025年第6期392-394,共3页
酒店企业的在线评论数据是消费者对酒店服务、设施、环境等的直接反馈,具有重要的市场价值.文中以酒店企业在线评论文本为研究对象,阐述了LDA主题模型的基本原理,并探讨了基于LDA主题模型的数据挖掘方法,为酒店企业利用客户评论数据进... 酒店企业的在线评论数据是消费者对酒店服务、设施、环境等的直接反馈,具有重要的市场价值.文中以酒店企业在线评论文本为研究对象,阐述了LDA主题模型的基本原理,并探讨了基于LDA主题模型的数据挖掘方法,为酒店企业利用客户评论数据进行精准决策与创新服务提供了新的方法. 展开更多
关键词 LDA模型 评论文本 数据挖掘 主题建模
在线阅读 下载PDF
基于混沌理论和专利挖掘的技术不连续演化特征研究
16
作者 任海英 梁宇航 《情报杂志》 北大核心 2025年第4期181-189,共9页
[研究目的]针对技术不连续演化定量研究的不足,结合混沌理论与专利挖掘方法,揭示技术不连续演化的混沌特征,在技术不连续演化阶段为技术预测提供混沌分析视角。[研究方法]以语音识别技术为例,首先检索专利数据并构建申请数据时间序列,... [研究目的]针对技术不连续演化定量研究的不足,结合混沌理论与专利挖掘方法,揭示技术不连续演化的混沌特征,在技术不连续演化阶段为技术预测提供混沌分析视角。[研究方法]以语音识别技术为例,首先检索专利数据并构建申请数据时间序列,通过关联维数和李亚普洛夫指数识别技术演化系统的混沌特征及其局部混沌期。之后,对不同时间窗口的数据构建LDA主题模型和共词网络,分析技术主题及相关节点在局部混沌期前、中、后的演化特征,并预测潜在新兴技术。[研究结果/结论]实验结果表明,语音识别技术演化过程中,技术不连续演化阶段与局部混沌期高度重合,为“混沌是技术不连续演化的内在特征”提供实证依据。此外,新兴技术在局部混沌期内产生,并表现为技术主题的稳定发展和相关节点中心性的提升。不仅反映新兴技术对语音识别技术系统的深远影响,而且揭示其未来演化方向。 展开更多
关键词 混沌理论 专利文本 专利挖掘 技术演化 主题模型 共词网络 语音识别技术 关联维数 李亚普洛夫指数
在线阅读 下载PDF
主题模型网络分析:计算传播视野下的舆情文本挖掘新进路
17
作者 张媛 刘兴澳 《情报杂志》 北大核心 2025年第5期122-129,共8页
[研究目的]旨在提出一种新的复杂文本挖掘方法——“主题模型网络分析”(ANTMN),以解决传统舆情文本挖掘方法在动机过强、人工介入过多、主题粗糙等方面的局限,为舆情治理、风险识别和舆论引导提供有效的方法支持。[研究方法]通过文献... [研究目的]旨在提出一种新的复杂文本挖掘方法——“主题模型网络分析”(ANTMN),以解决传统舆情文本挖掘方法在动机过强、人工介入过多、主题粗糙等方面的局限,为舆情治理、风险识别和舆论引导提供有效的方法支持。[研究方法]通过文献梳理分析传统方法的局限性及计算转向的学术进展,通过比较分析论证ANTMN较之现有方法的创新优势。[研究结果/结论]研究发现,ANTMN遵循“主题建模”“网络分析”与“社区检测”的三步法,以“纯归纳取向”获得客观性,以“混合计算取向”超越传统方法的静态局限。ANTMN还在舆情传播研究中表现出较强的实践应用价值,即在经验现象中提出舆情传播问题、在数据驱动中解析舆情传播机制、在趋势预测中建构舆情传播体系。 展开更多
关键词 舆情传播 主题模型网络分析 舆情文本挖掘 计算传播
在线阅读 下载PDF
基于BERT-LDA集成模型的地理研究主题提取方法:以小微湿地为例
18
作者 陈文君 周陈新 +4 位作者 Tom Lotz 封宇乾 朱明宇 陈旻 贺斌 《地球信息科学学报》 北大核心 2025年第10期2482-2497,共16页
【目的】地理学研究,尤其是对新兴地理概念的研究,受限于学科固有的复杂性以及多元研究视角,不同研究主体在认知取向和关注重点上常常存在差异,进而导致概念表述呈现多样化与异质性,影响领域知识的有效检索与系统整合。以文本主题模型... 【目的】地理学研究,尤其是对新兴地理概念的研究,受限于学科固有的复杂性以及多元研究视角,不同研究主体在认知取向和关注重点上常常存在差异,进而导致概念表述呈现多样化与异质性,影响领域知识的有效检索与系统整合。以文本主题模型为代表的地理研究主题提取方法为解决上述问题提供了关键技术路径,然而现有模型在语义解析与表达过程中存在可解释性不足的问题,呈现出“黑箱”特征,限制了该方法的实际应用。【方法】本研究以具有多学科交叉特征的“小微湿地”概念为例,提出一种基于BERT-LDA集成模型的地理研究主题提取方法。该方法融合BERT模型在长文本语义理解方面的优势与LDA模型在主题可解释性方面的能力,从大量期刊论文中提取并揭示小微湿地的研究主题及其内在关联,并通过构建论文检索规则,促进领域知识的深化与拓展。【结果】将论文中词语的高维语义特征向量有效嵌入低维主题空间,并在关键词主题影响力的计算过程中,引入特征融合调节因子,能够提升文本主题模型的语义解析与表达能力,克服现有模型的“黑箱”局限性。同时,所提出的模型迭代运行方式,能够逐步提升输出主题的区分度和代表性,并优化关键词在对应主题语义空间中的分布结构。基于万方数据库检索的2012—2022年出版的4606篇中文期刊论文,集成模型识别出“湿地污染净化”“城市湿地公园”“池塘水产养殖”是小微湿地的三大研究主题,进一步提取并构建由“植物”“去除”“污水”“微生物”“城市”“景观”等11个关键词构成的112条论文检索规则,实现在不依赖具体术语和命名的条件下,对领域相关论文的有效检索。【结论】在地理学综合性与交叉性的研究背景下,本文提出的方法能够从知识工程角度,有效整合因术语多样化和命名异质性而造成的分散化的领域知识,为提升学术知识挖掘方法的可解释性提供可行路径。同时,研究成果对小微湿地的保护与管理实践具有一定参考价值。 展开更多
关键词 文献研究主题 文本主题模型 术语多样性 小微湿地 BERT LDA 论文检索规则
原文传递
基于特定领域的中文微博热点话题挖掘系统BTopicMiner 被引量:26
19
作者 李劲 张华 +1 位作者 吴浩雄 向军 《计算机应用》 CSCD 北大核心 2012年第8期2346-2349,共4页
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本... 随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。 展开更多
关键词 数据挖掘 信息检索 微博 话题模型 文本聚类 互信息
在线阅读 下载PDF
文化产品评论主题对有用性影响的跨文化研究
20
作者 肖娴 邱凌云 庞隽 《管理评论》 北大核心 2025年第2期163-174,共12页
本研究基于跨文化心理学的相关理论,使用数据驱动的主题模型,比较了图书在线评论中不同内容主题在对评论有用性影响上的中美差异。通过分析来自亚马逊中国和亚马逊美国的50270条评论,研究发现,与“建议与心得”类或“对产品的双边或中... 本研究基于跨文化心理学的相关理论,使用数据驱动的主题模型,比较了图书在线评论中不同内容主题在对评论有用性影响上的中美差异。通过分析来自亚马逊中国和亚马逊美国的50270条评论,研究发现,与“建议与心得”类或“对产品的双边或中性评价”等主题相关的评论内容对中国消费者比对美国消费者更有用,而与“对产品的单边评价”等主题相关的内容对有用性的影响则不存在跨文化差异。这些发现不仅丰富了关于在线评论的跨文化比较和评论有用性影响因素的文献,还有助于跨境零售企业为不同文化背景下的消费者提供更有针对性的产品评论。 展开更多
关键词 在线评论 跨文化差异 评论有用性 文本挖掘 主题模型
原文传递
上一页 1 2 20 下一页 到第
使用帮助 返回顶部