期刊文献+
共找到418篇文章
< 1 2 21 >
每页显示 20 50 100
Enhancing BERTopic with Pre-Clustered Knowledge: Reducing Feature Sparsity in Short Text Topic Modeling
1
作者 Qian Wang Biao Ma 《Journal of Data Analysis and Information Processing》 2024年第4期597-611,共15页
Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic captur... Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic capture accuracy. We propose a novel approach that incorporates pre-clustered knowledge into the BERTopic model while reducing the l2 norm for low-frequency words. Our method effectively mitigates feature sparsity during cluster mapping. Empirical evaluation on the StackOverflow dataset demonstrates that our approach outperforms baseline models, achieving superior Macro-F1 scores. These results validate the effectiveness of our proposed feature sparsity reduction technique for short-text topic modeling. 展开更多
关键词 topic model BERtopic Short text Feature Sparsity CLUSTER
在线阅读 下载PDF
BURST-LDA: A NEW TOPIC MODEL FOR DETECTING BURSTY TOPICS FROM STREAM TEXT 被引量:3
2
作者 Qi Xiang Huang Yu +4 位作者 Chen Ziyan Liu Xiaoyan Tian Jing Huang Tinglei Wang Hongqi 《Journal of Electronics(China)》 2014年第6期565-575,共11页
Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty... Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty topics that experience a sudden increase during a period of time. In this paper, we propose a new topic model named Burst-LDA, which simultaneously discovers topics and reveals their burstiness through explicitly modeling each topic's burst states with a first order Markov chain and using the chain to generate the topic proportion of documents in a Logistic Normal fashion. A Gibbs sampling algorithm is developed for the posterior inference of the proposed model. Experimental results on a news data set show our model can efficiently discover bursty topics, outperforming the state-of-the-art method. 展开更多
关键词 text mining Burst detection topic model Graphical model Bayesian inference
在线阅读 下载PDF
基于iTopicModel的关联文本分类算法
3
作者 梁鹏鹏 柴玉梅 王黎明 《计算机工程》 CAS CSCD 北大核心 2011年第21期124-125,130,共3页
针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类... 针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类。实验结果表明,当文档间的关联关系对类信息影响较大时,TC-iTM的分类性能优于传统文本分类方法。 展开更多
关键词 文本分类 文档网络 主题模型 EM算法
在线阅读 下载PDF
我国政府数据开放研究与国家战略所需的匹配度分析——基于BERTopic模型与扎根理论 被引量:4
4
作者 吴应强 李白杨 +1 位作者 费巍 黄平平 《情报科学》 北大核心 2025年第1期117-126,共10页
【目的/意义】识别我国政府数据开放相关研究主题与战略发展方向,探究我国政府数据开放研究与国家发展战略的匹配性。【方法/过程】采用BERTopic模型对2010-2023年期间CNKI数据库中政府数据开放相关文献进行主题挖掘,借助扎根理论对12... 【目的/意义】识别我国政府数据开放相关研究主题与战略发展方向,探究我国政府数据开放研究与国家发展战略的匹配性。【方法/过程】采用BERTopic模型对2010-2023年期间CNKI数据库中政府数据开放相关文献进行主题挖掘,借助扎根理论对12份政府数据开放内容相关国家级政策文件归纳梳理战略发展方向。【结果/结论】我国政府数据开放研究可分为14个主题,国家战略发展方向可分为6个子范畴和13个初始范畴,经对比分析发现,政府数据开放相关研究与我国国家发展战略具有较高的匹配程度,表明学界研究在对接国家政策需求与发展战略过程中具有较强主动性与一致性。【创新/局限】结合利用BERTopic模型与扎根理论思想,探究我国政府数据开放研究与国家发展战略的匹配性。但本文主题挖掘模型单一,未进行多种模型结果的对比;需进一步完善、补充自定义词表,加强主题特征的提取;未来可考虑使用词汇关联的形式呈现政策文件内容结构,有助于可视化展示国家战略发展方向。 展开更多
关键词 政府数据开放 政策文本 文本挖掘 主题挖掘 BERtopic模型 扎根理论
原文传递
Assessing citizen science opportunities in forest monitoring using probabilistic topic modelling 被引量:1
5
作者 Stefan Daume Matthias Albert Klaus von Gadow 《Forestry Studies in China》 CAS 2014年第2期93-104,共12页
Background: With mounting global environmental, social and economic pressures the resilience and stability of forests and thus the provisioning of vital ecosystem services is increasingly threatened. Intensified moni... Background: With mounting global environmental, social and economic pressures the resilience and stability of forests and thus the provisioning of vital ecosystem services is increasingly threatened. Intensified monitoring can help to detect ecological threats and changes earlier, but monitoring resources are limited. Participatory forest monitoring with the help of "citizen scientists" can provide additional resources for forest monitoring and at the same time help to communicate with stakeholders and the general public. Examples for citizen science projects in the forestry domain can be found but a solid, applicable larger framework to utilise public participation in the area of forest monitoring seems to be lacking. We propose that a better understanding of shared and related topics in citizen science and forest monitoring might be a first step towards such a framework. Methods: We conduct a systematic meta-analysis of 1015 publication abstracts addressing "forest monitoring" and "citizen science" in order to explore the combined topical landscape of these subjects. We employ 'topic modelling an unsupervised probabilistic machine learning method, to identify latent shared topics in the analysed publications. Results: We find that large shared topics exist, but that these are primarily topics that would be expected in scientific publications in general. Common domain-specific topics are under-represented and indicate a topical separation of the two document sets on "forest monitoring" and "citizen science" and thus the represented domains. While topic modelling as a method proves to be a scalable and useful analytical tool, we propose that our approach could deliver even more useful data if a larger document set and full-text publications would be available for analysis. Conclusions: We propose that these results, together with the observation of non-shared but related topics, point at under-utilised opportunities for public participation in forest monitoring. Citizen science could be applied as a versatile tool in forest ecosystems monitoring, complementing traditional forest monitoring programmes, assisting early threat recognition and helping to connect forest management with the general public. We conclude that our presented approach should be pursued further as it may aid the understanding and setup of citizen science efforts in the forest monitoring domain. 展开更多
关键词 Forest monitoring Citizen science Participatory forest monitoring Probabilistic topic modelling text analysis
在线阅读 下载PDF
NON-PARAMETRIC TOPIC MODEL FOR DISCOVERING GEOGRAPHICAL TOPIC VARIATIONS
6
作者 Qi Xiang Huang Yu +3 位作者 Song Jun Huang Tinglei Wang Hongqi Fu Kun 《Journal of Electronics(China)》 2014年第6期576-586,共11页
This paper presents a non-parametric topic model that captures not only the latent topics in text collections, but also how the topics change over space. Unlike other recent work that relies on either Gaussian assumpt... This paper presents a non-parametric topic model that captures not only the latent topics in text collections, but also how the topics change over space. Unlike other recent work that relies on either Gaussian assumptions or discretization of locations, here topics are associated with a distance dependent Chinese Restaurant Process(ddC RP), and for each document, the observed words are influenced by the document's GPS-tag. Our model allows both unbound number and flexible distribution of the geographical variations of the topics' content. We develop a Gibbs sampler for the proposal, and compare it with existing models on a real data set basis. 展开更多
关键词 text mining topic model Geographical topics Bayesian non-parameter
在线阅读 下载PDF
BTVis:基于BERTopic的交互式层次主题建模可视分析系统
7
作者 卢文昊 邹杭纳 汤颖 《计算机辅助设计与图形学学报》 北大核心 2025年第12期2112-2130,共19页
主题建模是自然语言处理中的重要文本挖掘方法,但其建模过程复杂且会生成部分不符合用户期望的结果.为帮助非专家用户理解模型建模过程,高效掌握和修改模型结果,设计了基于BERTopic的交互式可视分析系统.系统通过以下关键功能提升BERTo... 主题建模是自然语言处理中的重要文本挖掘方法,但其建模过程复杂且会生成部分不符合用户期望的结果.为帮助非专家用户理解模型建模过程,高效掌握和修改模型结果,设计了基于BERTopic的交互式可视分析系统.系统通过以下关键功能提升BERTopic的可解释性与实用性:(1)挖掘并展示BERTopic层次聚类的中间过程,直观地揭示主题生成机制;(2)分析离群文档,揭示其与主题间的潜在关系;(3)提出多粒度局部模型编辑算法,增强BERTopic主题模型准确性;(4)开发基于Web的交互式层次主题模型系统BTVis,支持用户通过可视分析与交互探索理解并提升模型结果.在TED、豆瓣影评等真实长文本和短文本数据集中进行了定性分析,面向100位参与者设计用户实验,并通过一致性、多样性和稳定性指标和其他模型进行对比,实验结果验证了所提系统的有效性和实用性. 展开更多
关键词 文本数据 主题建模 模型提升 可视分析
在线阅读 下载PDF
基于PaECTER-BERTopic与大模型的专利技术主题识别及演化分析——以生成式人工智能领域为例 被引量:5
8
作者 黄怡 隗玲 张凯 《数字图书馆论坛》 2025年第2期1-11,共11页
为解决目前专利文本向量化表征效果不佳、专利技术主题识别结果可解释性不够等问题,提出一种基于PaECTER专利预训练语言模型、BERTopic与大模型的专利技术主题识别及演化分析方法。首先,采用PaECTER专利预训练语言模型对专利文本进行向... 为解决目前专利文本向量化表征效果不佳、专利技术主题识别结果可解释性不够等问题,提出一种基于PaECTER专利预训练语言模型、BERTopic与大模型的专利技术主题识别及演化分析方法。首先,采用PaECTER专利预训练语言模型对专利文本进行向量化表示;其次,基于BERTopic模型结合KeyBERT对专利技术主题进行识别,并使用GPT-4o大模型对技术主题进行体系化分析;再次,基于PaECTER对专利技术主题进行相似度关联计算,生成专利技术演化路径;最后,以生成式人工智能领域为例,验证所提方法的有效性。实验结果表明,对比传统的BERTopic模型,所提方法提高了专利技术主题的可解释性、一致性和多样性,实现了准确的专利技术演化路径识别,同时揭示了生成式人工智能领域技术的发展状态和演进路径,为相关领域研究提供理论参考。 展开更多
关键词 专利文本 技术主题识别 技术演化分析 PaECTER-BERtopic 大模型
在线阅读 下载PDF
基于BERTopic模型的国内教育数字化研究热点主题与演化分析 被引量:3
9
作者 王卫斌 蔡梅 《情报探索》 2025年第3期96-104,共9页
[目的/意义]教育数字化转型是我国教育变革的重要战略方向,对相关文献进行系统分析有助于为未来研究指明方向。[方法/过程]研究以937篇CNKI数据库中的文章摘要作为文本数据源,采用BERTopic模型对文献资源进行主题挖掘与识别,分析了研究... [目的/意义]教育数字化转型是我国教育变革的重要战略方向,对相关文献进行系统分析有助于为未来研究指明方向。[方法/过程]研究以937篇CNKI数据库中的文章摘要作为文本数据源,采用BERTopic模型对文献资源进行主题挖掘与识别,分析了研究热点主题,并从整体演化趋势和热点演化路径两个层面探讨了研究演化情况。[结果/结论]我国教育数字化研究包含20个潜在研究主题,其中热点主题主要有7个;从研究热点演化路径来看,教育现代化建设、职业教育发展变革和思想政治教育是贯穿整个转型过程的核心主题,数字化教材、高等教育发展路径、人工智能技术、教师素养与能力等主题交替更迭,体现了该研究领域与时俱进的特点。 展开更多
关键词 教育数字化 教育数字化转型 BERtopic 主题模型 文本挖掘
在线阅读 下载PDF
基于改进的BERTopic模型的政策文本主题挖掘
10
作者 王雨琪 刘晨 +1 位作者 刘建炜 蔡宏民 《计算机技术与发展》 2025年第5期90-96,共7页
自然语言处理技术在文本分析中的应用,显著提高了从海量数据中提取关键信息的效率。基于自然语言处理技术的主题分析方法也在文本分析领域中取得了一定成果。然而,由于政策文本数据具有场景复杂、文本长和头部效应等挑战,现有的主题挖... 自然语言处理技术在文本分析中的应用,显著提高了从海量数据中提取关键信息的效率。基于自然语言处理技术的主题分析方法也在文本分析领域中取得了一定成果。然而,由于政策文本数据具有场景复杂、文本长和头部效应等挑战,现有的主题挖掘方法生成的主题结果仍有较大的进步空间。针对政策文本主题建模的挑战,该文基于BERTopic方法,引入了动态文档嵌入优化器和流行度纠偏正则化项。分别克服了BERTopic只能在固定维度挖掘主题导致的普适性不足以及受到词级别的流行度偏差影响导致的主题结果同质化问题,实现了对最佳主题聚类向量维度的自动选择和对热门词汇的有效纠偏。通过对实验分析,改进后的BERTopic方法在主题一致性、主题多样性和综合质量指标上均显著优于原始BERTopic模型及先进的神经网络主题模型;在可视化结果上,生成的主题质量也显著优于原生模型。 展开更多
关键词 自然语言处理 主题模型 政策文本 BERtopic 流行度偏差
在线阅读 下载PDF
基于BERTopic模型的在线教育主题文本挖掘分析 被引量:1
11
作者 陈加元 刘彦 《情报探索》 2025年第2期59-67,共9页
[目的/意义]旨在为在线教育的发展提供参考。[方法/过程]检索Web of Science(WoS)核心数据库关于在线教育的文献(保留摘要以Excel格式导出),运用BERTopic模型进行热点主题抽取,进而对在线教育领域主题进行分析。[结果/结论]BERTopic模... [目的/意义]旨在为在线教育的发展提供参考。[方法/过程]检索Web of Science(WoS)核心数据库关于在线教育的文献(保留摘要以Excel格式导出),运用BERTopic模型进行热点主题抽取,进而对在线教育领域主题进行分析。[结果/结论]BERTopic模型自动生成145个主题(未经干扰),经过归纳和筛选共得到四个主题,即主题1在线教育底层技术研究、主题2在线教学研究、主题3创造思维培养以及主题4在线学习研究。目前元宇宙的出现促进了在线教育的发展,给在线教育提供了沉浸式的学习环境。同时,在线教育促进了学生的个性化发展,在一定程度上弥补了教育不公平。 展开更多
关键词 BERtopic模型 在线教育 文本挖掘 主题分析
在线阅读 下载PDF
消费品投诉识别与缺陷特征发现——基于BERTopic模型 被引量:1
12
作者 田晶晶 洪瑶瑶 +2 位作者 韦海霞 刘成伟 林春伟 《标准科学》 2025年第6期116-125,共10页
【目的】为改进消费品质量和服务、提升消费者满意度和品牌竞争力提供依据,助力消费品市场有序健康发展。【方法】以2016—2021年从政府官方平台获取的23,736条投诉文本为基础,应用BERTopic模型进行主题挖掘,识别主要主题及演化趋势,并... 【目的】为改进消费品质量和服务、提升消费者满意度和品牌竞争力提供依据,助力消费品市场有序健康发展。【方法】以2016—2021年从政府官方平台获取的23,736条投诉文本为基础,应用BERTopic模型进行主题挖掘,识别主要主题及演化趋势,并借助投诉主题网络分析缺陷特征之间的关联性。【结果】消费品投诉主要集中在电子产品的质量缺陷和售后服务不足,消费者对手机电池问题导致的自动关机关注度较高,投诉主题网络揭示了投诉内容之间的复杂关系,维修、售后等问题在网络中占据桥梁地位,消费者重视品牌,并对品牌和产品类别的投诉表现出显著差异。【结论】所构建的主题模型能够较好地识别投诉的类别、品牌、缺陷特征等,并详细展示了各投诉内容之间的关联性。后续将进一步扩大研究样本范围,从更广泛的渠道获得投诉文本并进行信息挖掘。 展开更多
关键词 消费品缺陷 BERtopic模型 文本挖掘 投诉主题网络
在线阅读 下载PDF
社交媒体数据驱动的公众低碳意识主题识别与演化分析——BERTopic与GM(1,1)模型结合研究
13
作者 赵晓春 高策 周瑛 《福建江夏学院学报》 2025年第6期87-97,共11页
本研究旨在通过主题建模技术与预测分析方法,系统探究社交媒体语境下公众低碳意识的结构特征与演化规律,为低碳政策优化、环境教育策略制定及舆情管理提供实证依据。基于新浪微博平台低碳意识主题文本数据集,首先构建BERTopic主题模型... 本研究旨在通过主题建模技术与预测分析方法,系统探究社交媒体语境下公众低碳意识的结构特征与演化规律,为低碳政策优化、环境教育策略制定及舆情管理提供实证依据。基于新浪微博平台低碳意识主题文本数据集,首先构建BERTopic主题模型进行语义特征提取与主题聚类分析,继而应用GM(1,1)灰色预测模型开展主题演化趋势预测,实现静态特征分析与动态演化分析的有机融合。研究识别出31个具有语义独立性的低碳意识主题,经层次聚类归纳为3个维度下的8个核心主题,分别涵盖低碳认知、低碳态度和低碳责任。在这些核心主题中,垃圾分类、绿色出行与生态发展等议题在公众讨论中占据主导地位,随着政策导向和社会事件呈现动态变化,并且预测模型显示公众关注度将保持稳定增长,表明公众低碳意识逐步深入,低碳生活理念已融入日常生活。 展开更多
关键词 公众低碳意识 数据挖掘 主题演化 BERtopic模型 GM(1 1)模型
在线阅读 下载PDF
政策再生产视角下老旧小区改造的话语演变与治理转向
14
作者 刘铮 李倩如 《风景园林》 北大核心 2026年第2期40-49,共10页
【目的】基于政策再生产理论,分析中国老旧小区改造政策的演进特征与城市差异,为推动老旧小区改造的制度完善与治理创新提供实证依据。【方法】选取2005—2025年中央及地方改造政策文本,采用主题模型提取各阶段政策主题,并结合Word2Vec... 【目的】基于政策再生产理论,分析中国老旧小区改造政策的演进特征与城市差异,为推动老旧小区改造的制度完善与治理创新提供实证依据。【方法】选取2005—2025年中央及地方改造政策文本,采用主题模型提取各阶段政策主题,并结合Word2Vec词向量模型计算主题相似度,构建政策主题演化路径。基于住建部最新颁布的八批次城镇老旧小区改造可复制政策机制清单,进一步论证现阶段政策的话语构成与制度特征。【结果】老旧小区改造政策实现了从政策实验探索向政策机制完善的阶段演化,近年来呈现出多元共治的治理转向特征。同时,各地改造政策制定从早期的差异化探索逐步走向治理机制协同深化。【结论】老旧小区改造的治理投入持续提升,已实现从政策试验向制度完善的系统演进。进入存量增效提质阶段,老旧小区改造工作应进一步以“设计治理”理念为指引,充分吸收分借鉴可复制政策机制清单的创新经验,最终实现城市空间品质与治理效能的持续提升。 展开更多
关键词 城市更新 老旧小区改造 政策再生产 可复制政策机制清单 政策文本分析 主题建模分析
在线阅读 下载PDF
基于特定领域的中文微博热点话题挖掘系统BTopicMiner 被引量:26
15
作者 李劲 张华 +1 位作者 吴浩雄 向军 《计算机应用》 CSCD 北大核心 2012年第8期2346-2349,共4页
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本... 随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。 展开更多
关键词 数据挖掘 信息检索 微博 话题模型 文本聚类 互信息
在线阅读 下载PDF
基于无监督文本特征的隐含主题自动抽取方法
16
作者 包永红 《现代电子技术》 北大核心 2026年第4期42-46,共5页
文本数据中蕴含着丰富的信息,但这些信息往往以隐含的方式存在,不易被直接观察或理解。目前传统的监督学习方法需要大量的人工标注数据来训练模型,易受标注者的主观性影响,为解决该问题,提出一种基于无监督文本特征的隐含主题自动抽取... 文本数据中蕴含着丰富的信息,但这些信息往往以隐含的方式存在,不易被直接观察或理解。目前传统的监督学习方法需要大量的人工标注数据来训练模型,易受标注者的主观性影响,为解决该问题,提出一种基于无监督文本特征的隐含主题自动抽取方法。利用双向最大匹配法对文本进行分词后,去除其中的停用词,完成文本预处理工作;采用无监督TF-IDF算法提取预处理后文本的特征,再将文本数据转换为数值型特征向量,构建词特征向量集;引入LDA模型自动抽取隐含主题,即构建词特征向量中词汇对应隐含主题的概率分布模型,并利用Gibbs快速抽样法获取模型超参数,得到隐含主题概率分布,进而依据该分布结果实现文本隐含主题的自动抽取。实验结果表明,所提方法在应用过程中的F1值高于0.93,困惑度低于0.6,能够精准地抽取文本中的隐含主题。 展开更多
关键词 隐含主题 自动抽取 文本特征 无监督TF-IDF算法 LDA模型 Gibbs快速抽样法
在线阅读 下载PDF
基于动态主题模型的我国公共文化服务政策演进分析
17
作者 谢紫悦 陈雅 +2 位作者 杜佳 吴柯烨 王丹 《图书馆杂志》 北大核心 2026年第2期19-32,57,共15页
系统梳理我国公共文化服务政策发展轨迹,掌握其主题与演化趋势,提取优化逻辑,为后续政策制定与实践发力提供科学依据。选取我国20062023年间中央与省级层面公共文化服务政策文本,利用动态主题模型(Dynamic Topic Model,DTM)从主题强度... 系统梳理我国公共文化服务政策发展轨迹,掌握其主题与演化趋势,提取优化逻辑,为后续政策制定与实践发力提供科学依据。选取我国20062023年间中央与省级层面公共文化服务政策文本,利用动态主题模型(Dynamic Topic Model,DTM)从主题强度及语义层面捕捉我国公共文化服务政策演化趋势,并以可视化形式回溯其具体演进趋势与轨迹,精准提取我国公共文化服务政策体系的优化逻辑。基于动态主题模型挖掘出13个政策主题,根据时序分布、主题强度与语义演化可以看出我国公共文化服务政策布局逻辑遵循“建构解构再建构”的循环模式,呈现多元性与均衡性的结构特征,兼具协调发展与跨域融合的双重优势,实现了优化改革与持续性发展中的动态平衡,并对新机遇和挑战表现出高度敏感性和适应性。 展开更多
关键词 公共文化服务 政策文本分析 DTM 政策演化 主题演化
原文传递
基于LDA主题模型的我国数据治理政策文本主题分析
18
作者 孙晓涵 马海群 《图书情报导刊》 2026年第2期33-41,共9页
系统识别了近10年来我国数据治理政策的主题焦点与结构特征,揭示了其内在的关注重点与潜在挑战,以期为优化数据治理政策体系、提升政策制定的系统性与针对性提供实证依据;收集并研究了2015年至2025年5月间中央及省级政府发布的308份有... 系统识别了近10年来我国数据治理政策的主题焦点与结构特征,揭示了其内在的关注重点与潜在挑战,以期为优化数据治理政策体系、提升政策制定的系统性与针对性提供实证依据;收集并研究了2015年至2025年5月间中央及省级政府发布的308份有效数据治理政策文本;采用LDA主题模型作为核心分析方法,通过困惑度与一致性得分确定最优主题数,对政策全文进行主题挖掘与识别,并辅以词云分析和主题可视化进行综合研判;分析结果表明,我国数据治理政策可归纳为4个核心主题,即数据共享与开放、数据安全与监管、数据治理与质量控制、数据应用与创新;研究发现,当前政策存在工具结构不平衡(命令型工具过溢)、跨部门协调机制不完善、数据应用创新未能充分释放数据价值等挑战,据此提出了优化政策工具体系、强化跨部门协作、构建支持数据创新的生态系统等针对性建议。 展开更多
关键词 数据治理政策 政策文本分析 LDA主题模型
在线阅读 下载PDF
基于LDA主题模型的我国医保支付方式改革政策主题演化分析
19
作者 张礼亮 袁靖雅 韩优莉 《中国医院》 北大核心 2026年第3期6-10,共5页
目的:医保支付方式改革是医疗保障制度改革的重要抓手,揭示改革政策的演变特征和内在规律有助于优化未来政策设计。方法:采用潜在狄立克雷分配(LDA)主题模型,对1998-2024年国家层面136份医保支付方式改革政策文本进行系统分析,揭示其政... 目的:医保支付方式改革是医疗保障制度改革的重要抓手,揭示改革政策的演变特征和内在规律有助于优化未来政策设计。方法:采用潜在狄立克雷分配(LDA)主题模型,对1998-2024年国家层面136份医保支付方式改革政策文本进行系统分析,揭示其政策主题演化特征。结果:整体上,医疗行为治理与医保基金可持续始终是改革关注的重点领域;政策主题演化呈现出从支付探索和试点到协同治理的阶段性递进趋势。结论:未来应持续关注和优化医疗服务管理主题、推动改革向综合性治理转变、强化制度创新和政策协同,以实现医保支付方式改革高质量发展。 展开更多
关键词 医保支付 支付改革 政策文本 LDA 主题模型
暂未订购
基于主题约束采样的文本生成方法
20
作者 冉文议 万家强 +3 位作者 喻靖峰 李琪玥 陈鼎丽 邢欣来 《计算机工程与应用》 北大核心 2026年第6期134-145,共12页
预训练语言模型通过精调使其能够具有本地语料的相关知识和用语习惯,但通常面临高昂的训练成本和资源开销。因此,提出了一种基于主题约束的采样方法。该方法利用本地语料构建潜在狄利克雷分布(latent Dirichlet allocation,LDA)主题模型... 预训练语言模型通过精调使其能够具有本地语料的相关知识和用语习惯,但通常面临高昂的训练成本和资源开销。因此,提出了一种基于主题约束的采样方法。该方法利用本地语料构建潜在狄利克雷分布(latent Dirichlet allocation,LDA)主题模型;利用LDA对输出内容进行主题约束。一方面,这种方法简单易实现;另一方面,该方法增强了模型在本地语料上的泛化能力。实验结果表明,所提出的方法在多样性指标和泛化性指标上相较于基线模型明显提升。 展开更多
关键词 预训练语言模型 主题约束 文本生成 采样策略
在线阅读 下载PDF
上一页 1 2 21 下一页 到第
使用帮助 返回顶部