期刊文献+
共找到829篇文章
< 1 2 42 >
每页显示 20 50 100
News Text Topic Clustering Optimized Method Based on TF-IDF Algorithm on Spark 被引量:20
1
作者 Zhuo Zhou Jiaohua Qin +3 位作者 Xuyu Xiang Yun Tan Qiang Liu Neal N.Xiong 《Computers, Materials & Continua》 SCIE EI 2020年第1期217-231,共15页
Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm... Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm based on Spark big data platform.Since the TF-IDF(term frequency-inverse document frequency)algorithm under Spark is irreversible to word mapping,the mapped words indexes cannot be traced back to the original words.In this paper,an optimized method is proposed that TF-IDF under Spark to ensure the text words can be restored.Firstly,the text feature is extracted by the TF-IDF algorithm combined CountVectorizer proposed in this paper,and then the features are inputted to the LDA(Latent Dirichlet Allocation)topic model for training.Finally,the text topic clustering is obtained.Experimental results show that for large data samples,the processing speed of LDA topic model clustering has been improved based Spark.At the same time,compared with the LDA topic model based on word frequency input,the model proposed in this paper has a reduction of perplexity. 展开更多
关键词 News text topic clustering spark platform countvectorizer algorithm TF-IDF algorithm latent dirichlet allocation model
在线阅读 下载PDF
Enhancing BERTopic with Pre-Clustered Knowledge: Reducing Feature Sparsity in Short Text Topic Modeling
2
作者 Qian Wang Biao Ma 《Journal of Data Analysis and Information Processing》 2024年第4期597-611,共15页
Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic captur... Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic capture accuracy. We propose a novel approach that incorporates pre-clustered knowledge into the BERTopic model while reducing the l2 norm for low-frequency words. Our method effectively mitigates feature sparsity during cluster mapping. Empirical evaluation on the StackOverflow dataset demonstrates that our approach outperforms baseline models, achieving superior Macro-F1 scores. These results validate the effectiveness of our proposed feature sparsity reduction technique for short-text topic modeling. 展开更多
关键词 topic Model BERtopic Short text Feature Sparsity CLUSTER
在线阅读 下载PDF
基于BERTopic和长短期记忆网络(LSTM)模型的政策主题挖掘与预测研究——以工业互联网政策为例 被引量:1
3
作者 李艳 辛云丽 《科技管理研究》 2025年第9期31-41,共11页
通过对政策文本进行主题挖掘并预测其发展趋势,有助于明晰政策重点和趋势,为完善相关领域政策体系提供参考。首先从主题内容视角出发,引入新兴BERTopic模型挖掘潜在主题;其次增加时间维度,构建动态主题模型,从主题频率方面刻画主题演化... 通过对政策文本进行主题挖掘并预测其发展趋势,有助于明晰政策重点和趋势,为完善相关领域政策体系提供参考。首先从主题内容视角出发,引入新兴BERTopic模型挖掘潜在主题;其次增加时间维度,构建动态主题模型,从主题频率方面刻画主题演化趋势;再次,构建支持度指标,应用长短期记忆网络(LSTM)模型对政策热点进行定量预测,并与传统时间序列自回归移动平均模型(ARIMA)对比以验证模型拟合效果;最后以工业互联网领域2016—2023年发布的1304篇政策为例进行实证检验。检验结果表明,工业互联网相关政策可细分为15个核心主题,聚焦于创新应用、网络体系、平台建设、安全保障、资金奖励五大方面,随着时间的推移,工业互联网由初期的摸索借鉴转为规模化应用,政策主题也渐趋丰富。未来,数字赋能标杆平台、新型工业化信息化、标识解析体系的贯通应用或将成为热点方向,主题热度较高。 展开更多
关键词 BERtopic 政策文本 主题预测 长短期记忆网络 工业互联网
在线阅读 下载PDF
我国政府数据开放研究与国家战略所需的匹配度分析——基于BERTopic模型与扎根理论 被引量:2
4
作者 吴应强 李白杨 +1 位作者 费巍 黄平平 《情报科学》 北大核心 2025年第1期117-126,共10页
【目的/意义】识别我国政府数据开放相关研究主题与战略发展方向,探究我国政府数据开放研究与国家发展战略的匹配性。【方法/过程】采用BERTopic模型对2010-2023年期间CNKI数据库中政府数据开放相关文献进行主题挖掘,借助扎根理论对12... 【目的/意义】识别我国政府数据开放相关研究主题与战略发展方向,探究我国政府数据开放研究与国家发展战略的匹配性。【方法/过程】采用BERTopic模型对2010-2023年期间CNKI数据库中政府数据开放相关文献进行主题挖掘,借助扎根理论对12份政府数据开放内容相关国家级政策文件归纳梳理战略发展方向。【结果/结论】我国政府数据开放研究可分为14个主题,国家战略发展方向可分为6个子范畴和13个初始范畴,经对比分析发现,政府数据开放相关研究与我国国家发展战略具有较高的匹配程度,表明学界研究在对接国家政策需求与发展战略过程中具有较强主动性与一致性。【创新/局限】结合利用BERTopic模型与扎根理论思想,探究我国政府数据开放研究与国家发展战略的匹配性。但本文主题挖掘模型单一,未进行多种模型结果的对比;需进一步完善、补充自定义词表,加强主题特征的提取;未来可考虑使用词汇关联的形式呈现政策文件内容结构,有助于可视化展示国家战略发展方向。 展开更多
关键词 政府数据开放 政策文本 文本挖掘 主题挖掘 BERtopic模型 扎根理论
原文传递
BURST-LDA: A NEW TOPIC MODEL FOR DETECTING BURSTY TOPICS FROM STREAM TEXT 被引量:3
5
作者 Qi Xiang Huang Yu +4 位作者 Chen Ziyan Liu Xiaoyan Tian Jing Huang Tinglei Wang Hongqi 《Journal of Electronics(China)》 2014年第6期565-575,共11页
Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty... Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty topics that experience a sudden increase during a period of time. In this paper, we propose a new topic model named Burst-LDA, which simultaneously discovers topics and reveals their burstiness through explicitly modeling each topic's burst states with a first order Markov chain and using the chain to generate the topic proportion of documents in a Logistic Normal fashion. A Gibbs sampling algorithm is developed for the posterior inference of the proposed model. Experimental results on a news data set show our model can efficiently discover bursty topics, outperforming the state-of-the-art method. 展开更多
关键词 text mining Burst detection topic model Graphical model Bayesian inference
在线阅读 下载PDF
基于PaECTER-BERTopic与大模型的专利技术主题识别及演化分析——以生成式人工智能领域为例 被引量:3
6
作者 黄怡 隗玲 张凯 《数字图书馆论坛》 2025年第2期1-11,共11页
为解决目前专利文本向量化表征效果不佳、专利技术主题识别结果可解释性不够等问题,提出一种基于PaECTER专利预训练语言模型、BERTopic与大模型的专利技术主题识别及演化分析方法。首先,采用PaECTER专利预训练语言模型对专利文本进行向... 为解决目前专利文本向量化表征效果不佳、专利技术主题识别结果可解释性不够等问题,提出一种基于PaECTER专利预训练语言模型、BERTopic与大模型的专利技术主题识别及演化分析方法。首先,采用PaECTER专利预训练语言模型对专利文本进行向量化表示;其次,基于BERTopic模型结合KeyBERT对专利技术主题进行识别,并使用GPT-4o大模型对技术主题进行体系化分析;再次,基于PaECTER对专利技术主题进行相似度关联计算,生成专利技术演化路径;最后,以生成式人工智能领域为例,验证所提方法的有效性。实验结果表明,对比传统的BERTopic模型,所提方法提高了专利技术主题的可解释性、一致性和多样性,实现了准确的专利技术演化路径识别,同时揭示了生成式人工智能领域技术的发展状态和演进路径,为相关领域研究提供理论参考。 展开更多
关键词 专利文本 技术主题识别 技术演化分析 PaECTER-BERtopic 大模型
在线阅读 下载PDF
基于BERTopic模型的在线教育主题文本挖掘分析 被引量:1
7
作者 陈加元 刘彦 《情报探索》 2025年第2期59-67,共9页
[目的/意义]旨在为在线教育的发展提供参考。[方法/过程]检索Web of Science(WoS)核心数据库关于在线教育的文献(保留摘要以Excel格式导出),运用BERTopic模型进行热点主题抽取,进而对在线教育领域主题进行分析。[结果/结论]BERTopic模... [目的/意义]旨在为在线教育的发展提供参考。[方法/过程]检索Web of Science(WoS)核心数据库关于在线教育的文献(保留摘要以Excel格式导出),运用BERTopic模型进行热点主题抽取,进而对在线教育领域主题进行分析。[结果/结论]BERTopic模型自动生成145个主题(未经干扰),经过归纳和筛选共得到四个主题,即主题1在线教育底层技术研究、主题2在线教学研究、主题3创造思维培养以及主题4在线学习研究。目前元宇宙的出现促进了在线教育的发展,给在线教育提供了沉浸式的学习环境。同时,在线教育促进了学生的个性化发展,在一定程度上弥补了教育不公平。 展开更多
关键词 BERtopic模型 在线教育 文本挖掘 主题分析
在线阅读 下载PDF
基于改进的BERTopic模型的政策文本主题挖掘
8
作者 王雨琪 刘晨 +1 位作者 刘建炜 蔡宏民 《计算机技术与发展》 2025年第5期90-96,共7页
自然语言处理技术在文本分析中的应用,显著提高了从海量数据中提取关键信息的效率。基于自然语言处理技术的主题分析方法也在文本分析领域中取得了一定成果。然而,由于政策文本数据具有场景复杂、文本长和头部效应等挑战,现有的主题挖... 自然语言处理技术在文本分析中的应用,显著提高了从海量数据中提取关键信息的效率。基于自然语言处理技术的主题分析方法也在文本分析领域中取得了一定成果。然而,由于政策文本数据具有场景复杂、文本长和头部效应等挑战,现有的主题挖掘方法生成的主题结果仍有较大的进步空间。针对政策文本主题建模的挑战,该文基于BERTopic方法,引入了动态文档嵌入优化器和流行度纠偏正则化项。分别克服了BERTopic只能在固定维度挖掘主题导致的普适性不足以及受到词级别的流行度偏差影响导致的主题结果同质化问题,实现了对最佳主题聚类向量维度的自动选择和对热门词汇的有效纠偏。通过对实验分析,改进后的BERTopic方法在主题一致性、主题多样性和综合质量指标上均显著优于原始BERTopic模型及先进的神经网络主题模型;在可视化结果上,生成的主题质量也显著优于原生模型。 展开更多
关键词 自然语言处理 主题模型 政策文本 BERtopic 流行度偏差
在线阅读 下载PDF
社交媒体数据驱动的公众低碳意识主题识别与演化分析——BERTopic与GM(1,1)模型结合研究
9
作者 赵晓春 高策 周瑛 《福建江夏学院学报》 2025年第6期87-97,共11页
本研究旨在通过主题建模技术与预测分析方法,系统探究社交媒体语境下公众低碳意识的结构特征与演化规律,为低碳政策优化、环境教育策略制定及舆情管理提供实证依据。基于新浪微博平台低碳意识主题文本数据集,首先构建BERTopic主题模型... 本研究旨在通过主题建模技术与预测分析方法,系统探究社交媒体语境下公众低碳意识的结构特征与演化规律,为低碳政策优化、环境教育策略制定及舆情管理提供实证依据。基于新浪微博平台低碳意识主题文本数据集,首先构建BERTopic主题模型进行语义特征提取与主题聚类分析,继而应用GM(1,1)灰色预测模型开展主题演化趋势预测,实现静态特征分析与动态演化分析的有机融合。研究识别出31个具有语义独立性的低碳意识主题,经层次聚类归纳为3个维度下的8个核心主题,分别涵盖低碳认知、低碳态度和低碳责任。在这些核心主题中,垃圾分类、绿色出行与生态发展等议题在公众讨论中占据主导地位,随着政策导向和社会事件呈现动态变化,并且预测模型显示公众关注度将保持稳定增长,表明公众低碳意识逐步深入,低碳生活理念已融入日常生活。 展开更多
关键词 公众低碳意识 数据挖掘 主题演化 BERtopic模型 GM(1 1)模型
在线阅读 下载PDF
基于BERTopic模型的国内教育数字化研究热点主题与演化分析 被引量:1
10
作者 王卫斌 蔡梅 《情报探索》 2025年第3期96-104,共9页
[目的/意义]教育数字化转型是我国教育变革的重要战略方向,对相关文献进行系统分析有助于为未来研究指明方向。[方法/过程]研究以937篇CNKI数据库中的文章摘要作为文本数据源,采用BERTopic模型对文献资源进行主题挖掘与识别,分析了研究... [目的/意义]教育数字化转型是我国教育变革的重要战略方向,对相关文献进行系统分析有助于为未来研究指明方向。[方法/过程]研究以937篇CNKI数据库中的文章摘要作为文本数据源,采用BERTopic模型对文献资源进行主题挖掘与识别,分析了研究热点主题,并从整体演化趋势和热点演化路径两个层面探讨了研究演化情况。[结果/结论]我国教育数字化研究包含20个潜在研究主题,其中热点主题主要有7个;从研究热点演化路径来看,教育现代化建设、职业教育发展变革和思想政治教育是贯穿整个转型过程的核心主题,数字化教材、高等教育发展路径、人工智能技术、教师素养与能力等主题交替更迭,体现了该研究领域与时俱进的特点。 展开更多
关键词 教育数字化 教育数字化转型 BERtopic 主题模型 文本挖掘
在线阅读 下载PDF
基于BERTopic模型的数字出版产业政策主题挖掘与演化研究
11
作者 张雯 《情报探索》 2025年第6期80-86,共7页
[目的/意义]探究我国数字出版产业政策核心主题及其演化特征,为强化数字出版产业政策支撑以及促进产业健康发展提供参考。[方法/过程]采用BERTopic模型,对我国中央和地方数字出版产业政策进行主题挖掘,并分析主题的演化趋势。[结果/结论... [目的/意义]探究我国数字出版产业政策核心主题及其演化特征,为强化数字出版产业政策支撑以及促进产业健康发展提供参考。[方法/过程]采用BERTopic模型,对我国中央和地方数字出版产业政策进行主题挖掘,并分析主题的演化趋势。[结果/结论]我国数字出版产业政策主要围绕4个主题:内容建设、监督管理、转型升级、技术支持;政策主题演化过程可分为3个阶段:萌芽期、发展期、成熟期,各主题在不同时期的演化趋势不尽相同。 展开更多
关键词 数字出版 BERtopic 政策文本 主题挖掘
在线阅读 下载PDF
消费品投诉识别与缺陷特征发现——基于BERTopic模型
12
作者 田晶晶 洪瑶瑶 +2 位作者 韦海霞 刘成伟 林春伟 《标准科学》 2025年第6期116-125,共10页
【目的】为改进消费品质量和服务、提升消费者满意度和品牌竞争力提供依据,助力消费品市场有序健康发展。【方法】以2016—2021年从政府官方平台获取的23,736条投诉文本为基础,应用BERTopic模型进行主题挖掘,识别主要主题及演化趋势,并... 【目的】为改进消费品质量和服务、提升消费者满意度和品牌竞争力提供依据,助力消费品市场有序健康发展。【方法】以2016—2021年从政府官方平台获取的23,736条投诉文本为基础,应用BERTopic模型进行主题挖掘,识别主要主题及演化趋势,并借助投诉主题网络分析缺陷特征之间的关联性。【结果】消费品投诉主要集中在电子产品的质量缺陷和售后服务不足,消费者对手机电池问题导致的自动关机关注度较高,投诉主题网络揭示了投诉内容之间的复杂关系,维修、售后等问题在网络中占据桥梁地位,消费者重视品牌,并对品牌和产品类别的投诉表现出显著差异。【结论】所构建的主题模型能够较好地识别投诉的类别、品牌、缺陷特征等,并详细展示了各投诉内容之间的关联性。后续将进一步扩大研究样本范围,从更广泛的渠道获得投诉文本并进行信息挖掘。 展开更多
关键词 消费品缺陷 BERtopic模型 文本挖掘 投诉主题网络
在线阅读 下载PDF
基于特定领域的中文微博热点话题挖掘系统BTopicMiner 被引量:26
13
作者 李劲 张华 +1 位作者 吴浩雄 向军 《计算机应用》 CSCD 北大核心 2012年第8期2346-2349,共4页
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本... 随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。 展开更多
关键词 数据挖掘 信息检索 微博 话题模型 文本聚类 互信息
在线阅读 下载PDF
文本主题分割任务中的深度学习研究综述
14
作者 周日飞 文勇 黄文旭 《软件导刊》 2026年第1期202-212,共11页
深入探讨文本主题分割任务,系统梳理并提炼现有文献,开展针对基于深度学习的文本主题分割技术的多维度分析。首先,回顾了文本主题分割技术的发展历程,分析了基于语篇结构理论、统计学习和深度学习的分割方法,并考察文本主题分割任务常... 深入探讨文本主题分割任务,系统梳理并提炼现有文献,开展针对基于深度学习的文本主题分割技术的多维度分析。首先,回顾了文本主题分割技术的发展历程,分析了基于语篇结构理论、统计学习和深度学习的分割方法,并考察文本主题分割任务常用的数据集及评价指标;其次,进一步比较了卷积神经网络、循环神经网络和Transformer网络等深度学习技术在文本主题分割任务中的应用和优缺点分析,并对比采用各模型方法在相同数据集上的实验结果;最后,指出了当前文本主题分割任务面临的挑战和潜在发展方向,为文本主题分割任务的进一步研究提供了参考。 展开更多
关键词 文本主题分割 深度学习 自然语言处理 数据集 评价指标
在线阅读 下载PDF
基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类研究 被引量:1
15
作者 武帅 杨秀璋 +1 位作者 何琳 公佐权 《情报学报》 CSSCI CSCD 北大核心 2024年第5期601-615,共15页
以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人... 以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人文研究范式的转型。首先,参照东汉古籍《说文解字》对文字的分析方式,以前期标注的古籍语料数据集为基础,构建全新的“字音(说)-原文(文)-结构(解)-字形(字)”四维特征数据集。其次,设计四维特征向量提取模型(speaking,word,pattern,and font to vector,SWPF2vec),并结合预训练模型实现对古籍文本细粒度的特征表示。再其次,构建融合卷积神经网络、循环神经网络和多头注意力机制的古籍文本主题分类模型(dianji-recurrent convolutional neural networks for text classification,DJ-TextRCNN)。最后,融入四维语义特征,实现对古籍文本多维度、深层次、细粒度的语义挖掘。在古籍文本主题分类任务上,DJ-TextRCNN模型在不同维度特征下的主题分类准确率均为最优,在“说文解字”四维特征下达到76.23%的准确率,初步实现了对古籍文本的精准主题分类。 展开更多
关键词 多维特征融合 古籍文本 主题分类 SWPF2vec DJ-textRCNN
在线阅读 下载PDF
The Organizational Patterns of English and Chinese Texts:A Contrastive Study 被引量:2
16
作者 Liu Lijin, Foreign Languages Training CenterGuangdong University Of FOreign StudiesGuangzhou, P R. China 510421 《现代外语》 CSSCI 北大核心 1999年第4期408-409,共2页
Thispapercontrastivelystudies,basedonthetheoreticframeworkof'topicanalysis'byvanDijkandsomeothers,theunderlyingarrangementpatternsoftopicsofEnglishandChinesetexts.Theoverallobjectiveistoexaminethediscoursepatt... Thispapercontrastivelystudies,basedonthetheoreticframeworkof'topicanalysis'byvanDijkandsomeothers,theunderlyingarrangementpatternsoftopicsofEnglishandChinesetexts.TheoverallobjectiveistoexaminethediscoursepatternsofarepresentativesampleofEnglishandCh... 展开更多
关键词 text topic ORGANIZATIONAL PATTERN CONTRASTIVE study
在线阅读 下载PDF
Hierarchical clustering based on single-pass for breaking topic detection and tracking 被引量:3
17
作者 Li Fenghuan Zhao Zongfei Wang Zhenyu 《High Technology Letters》 EI CAS 2018年第4期369-377,共9页
Single-pass is commonly used in topic detection and tracking( TDT) due to its simplicity,high efficiency and low cost. When dealing with large-scale data,time cost will increase sharply and clustering performance will... Single-pass is commonly used in topic detection and tracking( TDT) due to its simplicity,high efficiency and low cost. When dealing with large-scale data,time cost will increase sharply and clustering performance will be affected greatly. Aiming at this problem,hierarchical clustering algorithm based on single-pass is proposed,which is inspired by hierarchical and concurrent ideas to divide clustering process into three stages. News reports are classified into different categories firstly.Then there are twice single-pass clustering processes in the same category,and one agglomerative clustering among different categories. In addition,for semantic similarity in news reports,topic model is improved based on named entities. Experimental results show that the proposed method can effectively accelerate the process as well as improve the performance. 展开更多
关键词 topic detection and tracking(TDT) single-pass HIERARCHICAL CLUSTERING text CLUSTERING topic modeling
在线阅读 下载PDF
基于iTopicModel的关联文本分类算法
18
作者 梁鹏鹏 柴玉梅 王黎明 《计算机工程》 CAS CSCD 北大核心 2011年第21期124-125,130,共3页
针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类... 针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类。实验结果表明,当文档间的关联关系对类信息影响较大时,TC-iTM的分类性能优于传统文本分类方法。 展开更多
关键词 文本分类 文档网络 主题模型 EM算法
在线阅读 下载PDF
Assessing citizen science opportunities in forest monitoring using probabilistic topic modelling 被引量:1
19
作者 Stefan Daume Matthias Albert Klaus von Gadow 《Forestry Studies in China》 CAS 2014年第2期93-104,共12页
Background: With mounting global environmental, social and economic pressures the resilience and stability of forests and thus the provisioning of vital ecosystem services is increasingly threatened. Intensified moni... Background: With mounting global environmental, social and economic pressures the resilience and stability of forests and thus the provisioning of vital ecosystem services is increasingly threatened. Intensified monitoring can help to detect ecological threats and changes earlier, but monitoring resources are limited. Participatory forest monitoring with the help of "citizen scientists" can provide additional resources for forest monitoring and at the same time help to communicate with stakeholders and the general public. Examples for citizen science projects in the forestry domain can be found but a solid, applicable larger framework to utilise public participation in the area of forest monitoring seems to be lacking. We propose that a better understanding of shared and related topics in citizen science and forest monitoring might be a first step towards such a framework. Methods: We conduct a systematic meta-analysis of 1015 publication abstracts addressing "forest monitoring" and "citizen science" in order to explore the combined topical landscape of these subjects. We employ 'topic modelling an unsupervised probabilistic machine learning method, to identify latent shared topics in the analysed publications. Results: We find that large shared topics exist, but that these are primarily topics that would be expected in scientific publications in general. Common domain-specific topics are under-represented and indicate a topical separation of the two document sets on "forest monitoring" and "citizen science" and thus the represented domains. While topic modelling as a method proves to be a scalable and useful analytical tool, we propose that our approach could deliver even more useful data if a larger document set and full-text publications would be available for analysis. Conclusions: We propose that these results, together with the observation of non-shared but related topics, point at under-utilised opportunities for public participation in forest monitoring. Citizen science could be applied as a versatile tool in forest ecosystems monitoring, complementing traditional forest monitoring programmes, assisting early threat recognition and helping to connect forest management with the general public. We conclude that our presented approach should be pursued further as it may aid the understanding and setup of citizen science efforts in the forest monitoring domain. 展开更多
关键词 Forest monitoring Citizen science Participatory forest monitoring Probabilistic topic modelling text analysis
在线阅读 下载PDF
基于LDA和TextCNN的跨平台网络舆情风险预警研究 被引量:2
20
作者 管雨翔 王娟 +1 位作者 兰月新 张鹏 《情报探索》 2024年第10期109-115,共7页
[目的/意义]分析多个社交平台上的网络舆情数据,评估网络舆情风险,并进行风险预警研究,具有重要的社会意义和实际价值。[方法/过程]先构建网络舆情风险指标体系,然后使用层次分析法确定指标权重,以此构建网络舆情风险预警模型。实证部... [目的/意义]分析多个社交平台上的网络舆情数据,评估网络舆情风险,并进行风险预警研究,具有重要的社会意义和实际价值。[方法/过程]先构建网络舆情风险指标体系,然后使用层次分析法确定指标权重,以此构建网络舆情风险预警模型。实证部分使用某一地级市的网络舆情数据进行分析,先使用LDA对微博平台上的数据进行主题聚类,再根据聚类后的数据使用TextCNN对其余社交平台数据进行分类,最后使用网络舆情风险预警模型对各主题舆情进行研究。[结果/结论]本文构建的网络舆情风险预警模型具有一定的准确性和有效性。本文的网络舆情风险预警模型可以提供信息支持从而提高决策效率和网络舆情风险的监测效率。 展开更多
关键词 网络舆情 风险预警 主题聚类 文本分类
在线阅读 下载PDF
上一页 1 2 42 下一页 到第
使用帮助 返回顶部