期刊文献+
共找到844篇文章
< 1 2 43 >
每页显示 20 50 100
News Text Topic Clustering Optimized Method Based on TF-IDF Algorithm on Spark 被引量:20
1
作者 Zhuo Zhou Jiaohua Qin +3 位作者 Xuyu Xiang Yun Tan Qiang Liu Neal N.Xiong 《Computers, Materials & Continua》 SCIE EI 2020年第1期217-231,共15页
Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm... Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm based on Spark big data platform.Since the TF-IDF(term frequency-inverse document frequency)algorithm under Spark is irreversible to word mapping,the mapped words indexes cannot be traced back to the original words.In this paper,an optimized method is proposed that TF-IDF under Spark to ensure the text words can be restored.Firstly,the text feature is extracted by the TF-IDF algorithm combined CountVectorizer proposed in this paper,and then the features are inputted to the LDA(Latent Dirichlet Allocation)topic model for training.Finally,the text topic clustering is obtained.Experimental results show that for large data samples,the processing speed of LDA topic model clustering has been improved based Spark.At the same time,compared with the LDA topic model based on word frequency input,the model proposed in this paper has a reduction of perplexity. 展开更多
关键词 News text topic clustering spark platform countvectorizer algorithm TF-IDF algorithm latent dirichlet allocation model
在线阅读 下载PDF
Enhancing BERTopic with Pre-Clustered Knowledge: Reducing Feature Sparsity in Short Text Topic Modeling
2
作者 Qian Wang Biao Ma 《Journal of Data Analysis and Information Processing》 2024年第4期597-611,共15页
Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic captur... Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic capture accuracy. We propose a novel approach that incorporates pre-clustered knowledge into the BERTopic model while reducing the l2 norm for low-frequency words. Our method effectively mitigates feature sparsity during cluster mapping. Empirical evaluation on the StackOverflow dataset demonstrates that our approach outperforms baseline models, achieving superior Macro-F1 scores. These results validate the effectiveness of our proposed feature sparsity reduction technique for short-text topic modeling. 展开更多
关键词 topic Model BERtopic Short text Feature Sparsity CLUSTER
在线阅读 下载PDF
基于BERTopic和长短期记忆网络(LSTM)模型的政策主题挖掘与预测研究——以工业互联网政策为例 被引量:1
3
作者 李艳 辛云丽 《科技管理研究》 2025年第9期31-41,共11页
通过对政策文本进行主题挖掘并预测其发展趋势,有助于明晰政策重点和趋势,为完善相关领域政策体系提供参考。首先从主题内容视角出发,引入新兴BERTopic模型挖掘潜在主题;其次增加时间维度,构建动态主题模型,从主题频率方面刻画主题演化... 通过对政策文本进行主题挖掘并预测其发展趋势,有助于明晰政策重点和趋势,为完善相关领域政策体系提供参考。首先从主题内容视角出发,引入新兴BERTopic模型挖掘潜在主题;其次增加时间维度,构建动态主题模型,从主题频率方面刻画主题演化趋势;再次,构建支持度指标,应用长短期记忆网络(LSTM)模型对政策热点进行定量预测,并与传统时间序列自回归移动平均模型(ARIMA)对比以验证模型拟合效果;最后以工业互联网领域2016—2023年发布的1304篇政策为例进行实证检验。检验结果表明,工业互联网相关政策可细分为15个核心主题,聚焦于创新应用、网络体系、平台建设、安全保障、资金奖励五大方面,随着时间的推移,工业互联网由初期的摸索借鉴转为规模化应用,政策主题也渐趋丰富。未来,数字赋能标杆平台、新型工业化信息化、标识解析体系的贯通应用或将成为热点方向,主题热度较高。 展开更多
关键词 BERtopic 政策文本 主题预测 长短期记忆网络 工业互联网
在线阅读 下载PDF
我国政府数据开放研究与国家战略所需的匹配度分析——基于BERTopic模型与扎根理论 被引量:2
4
作者 吴应强 李白杨 +1 位作者 费巍 黄平平 《情报科学》 北大核心 2025年第1期117-126,共10页
【目的/意义】识别我国政府数据开放相关研究主题与战略发展方向,探究我国政府数据开放研究与国家发展战略的匹配性。【方法/过程】采用BERTopic模型对2010-2023年期间CNKI数据库中政府数据开放相关文献进行主题挖掘,借助扎根理论对12... 【目的/意义】识别我国政府数据开放相关研究主题与战略发展方向,探究我国政府数据开放研究与国家发展战略的匹配性。【方法/过程】采用BERTopic模型对2010-2023年期间CNKI数据库中政府数据开放相关文献进行主题挖掘,借助扎根理论对12份政府数据开放内容相关国家级政策文件归纳梳理战略发展方向。【结果/结论】我国政府数据开放研究可分为14个主题,国家战略发展方向可分为6个子范畴和13个初始范畴,经对比分析发现,政府数据开放相关研究与我国国家发展战略具有较高的匹配程度,表明学界研究在对接国家政策需求与发展战略过程中具有较强主动性与一致性。【创新/局限】结合利用BERTopic模型与扎根理论思想,探究我国政府数据开放研究与国家发展战略的匹配性。但本文主题挖掘模型单一,未进行多种模型结果的对比;需进一步完善、补充自定义词表,加强主题特征的提取;未来可考虑使用词汇关联的形式呈现政策文件内容结构,有助于可视化展示国家战略发展方向。 展开更多
关键词 政府数据开放 政策文本 文本挖掘 主题挖掘 BERtopic模型 扎根理论
原文传递
BURST-LDA: A NEW TOPIC MODEL FOR DETECTING BURSTY TOPICS FROM STREAM TEXT 被引量:3
5
作者 Qi Xiang Huang Yu +4 位作者 Chen Ziyan Liu Xiaoyan Tian Jing Huang Tinglei Wang Hongqi 《Journal of Electronics(China)》 2014年第6期565-575,共11页
Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty... Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty topics that experience a sudden increase during a period of time. In this paper, we propose a new topic model named Burst-LDA, which simultaneously discovers topics and reveals their burstiness through explicitly modeling each topic's burst states with a first order Markov chain and using the chain to generate the topic proportion of documents in a Logistic Normal fashion. A Gibbs sampling algorithm is developed for the posterior inference of the proposed model. Experimental results on a news data set show our model can efficiently discover bursty topics, outperforming the state-of-the-art method. 展开更多
关键词 text mining Burst detection topic model Graphical model Bayesian inference
在线阅读 下载PDF
基于PaECTER-BERTopic与大模型的专利技术主题识别及演化分析——以生成式人工智能领域为例 被引量:4
6
作者 黄怡 隗玲 张凯 《数字图书馆论坛》 2025年第2期1-11,共11页
为解决目前专利文本向量化表征效果不佳、专利技术主题识别结果可解释性不够等问题,提出一种基于PaECTER专利预训练语言模型、BERTopic与大模型的专利技术主题识别及演化分析方法。首先,采用PaECTER专利预训练语言模型对专利文本进行向... 为解决目前专利文本向量化表征效果不佳、专利技术主题识别结果可解释性不够等问题,提出一种基于PaECTER专利预训练语言模型、BERTopic与大模型的专利技术主题识别及演化分析方法。首先,采用PaECTER专利预训练语言模型对专利文本进行向量化表示;其次,基于BERTopic模型结合KeyBERT对专利技术主题进行识别,并使用GPT-4o大模型对技术主题进行体系化分析;再次,基于PaECTER对专利技术主题进行相似度关联计算,生成专利技术演化路径;最后,以生成式人工智能领域为例,验证所提方法的有效性。实验结果表明,对比传统的BERTopic模型,所提方法提高了专利技术主题的可解释性、一致性和多样性,实现了准确的专利技术演化路径识别,同时揭示了生成式人工智能领域技术的发展状态和演进路径,为相关领域研究提供理论参考。 展开更多
关键词 专利文本 技术主题识别 技术演化分析 PaECTER-BERtopic 大模型
在线阅读 下载PDF
BTVis:基于BERTopic的交互式层次主题建模可视分析系统
7
作者 卢文昊 邹杭纳 汤颖 《计算机辅助设计与图形学学报》 北大核心 2025年第12期2112-2130,共19页
主题建模是自然语言处理中的重要文本挖掘方法,但其建模过程复杂且会生成部分不符合用户期望的结果.为帮助非专家用户理解模型建模过程,高效掌握和修改模型结果,设计了基于BERTopic的交互式可视分析系统.系统通过以下关键功能提升BERTo... 主题建模是自然语言处理中的重要文本挖掘方法,但其建模过程复杂且会生成部分不符合用户期望的结果.为帮助非专家用户理解模型建模过程,高效掌握和修改模型结果,设计了基于BERTopic的交互式可视分析系统.系统通过以下关键功能提升BERTopic的可解释性与实用性:(1)挖掘并展示BERTopic层次聚类的中间过程,直观地揭示主题生成机制;(2)分析离群文档,揭示其与主题间的潜在关系;(3)提出多粒度局部模型编辑算法,增强BERTopic主题模型准确性;(4)开发基于Web的交互式层次主题模型系统BTVis,支持用户通过可视分析与交互探索理解并提升模型结果.在TED、豆瓣影评等真实长文本和短文本数据集中进行了定性分析,面向100位参与者设计用户实验,并通过一致性、多样性和稳定性指标和其他模型进行对比,实验结果验证了所提系统的有效性和实用性. 展开更多
关键词 文本数据 主题建模 模型提升 可视分析
在线阅读 下载PDF
基于BERTopic模型的在线教育主题文本挖掘分析 被引量:1
8
作者 陈加元 刘彦 《情报探索》 2025年第2期59-67,共9页
[目的/意义]旨在为在线教育的发展提供参考。[方法/过程]检索Web of Science(WoS)核心数据库关于在线教育的文献(保留摘要以Excel格式导出),运用BERTopic模型进行热点主题抽取,进而对在线教育领域主题进行分析。[结果/结论]BERTopic模... [目的/意义]旨在为在线教育的发展提供参考。[方法/过程]检索Web of Science(WoS)核心数据库关于在线教育的文献(保留摘要以Excel格式导出),运用BERTopic模型进行热点主题抽取,进而对在线教育领域主题进行分析。[结果/结论]BERTopic模型自动生成145个主题(未经干扰),经过归纳和筛选共得到四个主题,即主题1在线教育底层技术研究、主题2在线教学研究、主题3创造思维培养以及主题4在线学习研究。目前元宇宙的出现促进了在线教育的发展,给在线教育提供了沉浸式的学习环境。同时,在线教育促进了学生的个性化发展,在一定程度上弥补了教育不公平。 展开更多
关键词 BERtopic模型 在线教育 文本挖掘 主题分析
在线阅读 下载PDF
基于BERTopic模型的国内教育数字化研究热点主题与演化分析 被引量:2
9
作者 王卫斌 蔡梅 《情报探索》 2025年第3期96-104,共9页
[目的/意义]教育数字化转型是我国教育变革的重要战略方向,对相关文献进行系统分析有助于为未来研究指明方向。[方法/过程]研究以937篇CNKI数据库中的文章摘要作为文本数据源,采用BERTopic模型对文献资源进行主题挖掘与识别,分析了研究... [目的/意义]教育数字化转型是我国教育变革的重要战略方向,对相关文献进行系统分析有助于为未来研究指明方向。[方法/过程]研究以937篇CNKI数据库中的文章摘要作为文本数据源,采用BERTopic模型对文献资源进行主题挖掘与识别,分析了研究热点主题,并从整体演化趋势和热点演化路径两个层面探讨了研究演化情况。[结果/结论]我国教育数字化研究包含20个潜在研究主题,其中热点主题主要有7个;从研究热点演化路径来看,教育现代化建设、职业教育发展变革和思想政治教育是贯穿整个转型过程的核心主题,数字化教材、高等教育发展路径、人工智能技术、教师素养与能力等主题交替更迭,体现了该研究领域与时俱进的特点。 展开更多
关键词 教育数字化 教育数字化转型 BERtopic 主题模型 文本挖掘
在线阅读 下载PDF
基于改进的BERTopic模型的政策文本主题挖掘
10
作者 王雨琪 刘晨 +1 位作者 刘建炜 蔡宏民 《计算机技术与发展》 2025年第5期90-96,共7页
自然语言处理技术在文本分析中的应用,显著提高了从海量数据中提取关键信息的效率。基于自然语言处理技术的主题分析方法也在文本分析领域中取得了一定成果。然而,由于政策文本数据具有场景复杂、文本长和头部效应等挑战,现有的主题挖... 自然语言处理技术在文本分析中的应用,显著提高了从海量数据中提取关键信息的效率。基于自然语言处理技术的主题分析方法也在文本分析领域中取得了一定成果。然而,由于政策文本数据具有场景复杂、文本长和头部效应等挑战,现有的主题挖掘方法生成的主题结果仍有较大的进步空间。针对政策文本主题建模的挑战,该文基于BERTopic方法,引入了动态文档嵌入优化器和流行度纠偏正则化项。分别克服了BERTopic只能在固定维度挖掘主题导致的普适性不足以及受到词级别的流行度偏差影响导致的主题结果同质化问题,实现了对最佳主题聚类向量维度的自动选择和对热门词汇的有效纠偏。通过对实验分析,改进后的BERTopic方法在主题一致性、主题多样性和综合质量指标上均显著优于原始BERTopic模型及先进的神经网络主题模型;在可视化结果上,生成的主题质量也显著优于原生模型。 展开更多
关键词 自然语言处理 主题模型 政策文本 BERtopic 流行度偏差
在线阅读 下载PDF
社交媒体数据驱动的公众低碳意识主题识别与演化分析——BERTopic与GM(1,1)模型结合研究
11
作者 赵晓春 高策 周瑛 《福建江夏学院学报》 2025年第6期87-97,共11页
本研究旨在通过主题建模技术与预测分析方法,系统探究社交媒体语境下公众低碳意识的结构特征与演化规律,为低碳政策优化、环境教育策略制定及舆情管理提供实证依据。基于新浪微博平台低碳意识主题文本数据集,首先构建BERTopic主题模型... 本研究旨在通过主题建模技术与预测分析方法,系统探究社交媒体语境下公众低碳意识的结构特征与演化规律,为低碳政策优化、环境教育策略制定及舆情管理提供实证依据。基于新浪微博平台低碳意识主题文本数据集,首先构建BERTopic主题模型进行语义特征提取与主题聚类分析,继而应用GM(1,1)灰色预测模型开展主题演化趋势预测,实现静态特征分析与动态演化分析的有机融合。研究识别出31个具有语义独立性的低碳意识主题,经层次聚类归纳为3个维度下的8个核心主题,分别涵盖低碳认知、低碳态度和低碳责任。在这些核心主题中,垃圾分类、绿色出行与生态发展等议题在公众讨论中占据主导地位,随着政策导向和社会事件呈现动态变化,并且预测模型显示公众关注度将保持稳定增长,表明公众低碳意识逐步深入,低碳生活理念已融入日常生活。 展开更多
关键词 公众低碳意识 数据挖掘 主题演化 BERtopic模型 GM(1 1)模型
在线阅读 下载PDF
基于BERTopic模型的数字出版产业政策主题挖掘与演化研究
12
作者 张雯 《情报探索》 2025年第6期80-86,共7页
[目的/意义]探究我国数字出版产业政策核心主题及其演化特征,为强化数字出版产业政策支撑以及促进产业健康发展提供参考。[方法/过程]采用BERTopic模型,对我国中央和地方数字出版产业政策进行主题挖掘,并分析主题的演化趋势。[结果/结论... [目的/意义]探究我国数字出版产业政策核心主题及其演化特征,为强化数字出版产业政策支撑以及促进产业健康发展提供参考。[方法/过程]采用BERTopic模型,对我国中央和地方数字出版产业政策进行主题挖掘,并分析主题的演化趋势。[结果/结论]我国数字出版产业政策主要围绕4个主题:内容建设、监督管理、转型升级、技术支持;政策主题演化过程可分为3个阶段:萌芽期、发展期、成熟期,各主题在不同时期的演化趋势不尽相同。 展开更多
关键词 数字出版 BERtopic 政策文本 主题挖掘
在线阅读 下载PDF
消费品投诉识别与缺陷特征发现——基于BERTopic模型
13
作者 田晶晶 洪瑶瑶 +2 位作者 韦海霞 刘成伟 林春伟 《标准科学》 2025年第6期116-125,共10页
【目的】为改进消费品质量和服务、提升消费者满意度和品牌竞争力提供依据,助力消费品市场有序健康发展。【方法】以2016—2021年从政府官方平台获取的23,736条投诉文本为基础,应用BERTopic模型进行主题挖掘,识别主要主题及演化趋势,并... 【目的】为改进消费品质量和服务、提升消费者满意度和品牌竞争力提供依据,助力消费品市场有序健康发展。【方法】以2016—2021年从政府官方平台获取的23,736条投诉文本为基础,应用BERTopic模型进行主题挖掘,识别主要主题及演化趋势,并借助投诉主题网络分析缺陷特征之间的关联性。【结果】消费品投诉主要集中在电子产品的质量缺陷和售后服务不足,消费者对手机电池问题导致的自动关机关注度较高,投诉主题网络揭示了投诉内容之间的复杂关系,维修、售后等问题在网络中占据桥梁地位,消费者重视品牌,并对品牌和产品类别的投诉表现出显著差异。【结论】所构建的主题模型能够较好地识别投诉的类别、品牌、缺陷特征等,并详细展示了各投诉内容之间的关联性。后续将进一步扩大研究样本范围,从更广泛的渠道获得投诉文本并进行信息挖掘。 展开更多
关键词 消费品缺陷 BERtopic模型 文本挖掘 投诉主题网络
在线阅读 下载PDF
政策再生产视角下老旧小区改造的话语演变与治理转向
14
作者 刘铮 李倩如 《风景园林》 北大核心 2026年第2期40-49,共10页
【目的】基于政策再生产理论,分析中国老旧小区改造政策的演进特征与城市差异,为推动老旧小区改造的制度完善与治理创新提供实证依据。【方法】选取2005—2025年中央及地方改造政策文本,采用主题模型提取各阶段政策主题,并结合Word2Vec... 【目的】基于政策再生产理论,分析中国老旧小区改造政策的演进特征与城市差异,为推动老旧小区改造的制度完善与治理创新提供实证依据。【方法】选取2005—2025年中央及地方改造政策文本,采用主题模型提取各阶段政策主题,并结合Word2Vec词向量模型计算主题相似度,构建政策主题演化路径。基于住建部最新颁布的八批次城镇老旧小区改造可复制政策机制清单,进一步论证现阶段政策的话语构成与制度特征。【结果】老旧小区改造政策实现了从政策实验探索向政策机制完善的阶段演化,近年来呈现出多元共治的治理转向特征。同时,各地改造政策制定从早期的差异化探索逐步走向治理机制协同深化。【结论】老旧小区改造的治理投入持续提升,已实现从政策试验向制度完善的系统演进。进入存量增效提质阶段,老旧小区改造工作应进一步以“设计治理”理念为指引,充分吸收分借鉴可复制政策机制清单的创新经验,最终实现城市空间品质与治理效能的持续提升。 展开更多
关键词 城市更新 老旧小区改造 政策再生产 可复制政策机制清单 政策文本分析 主题建模分析
在线阅读 下载PDF
基于无监督文本特征的隐含主题自动抽取方法
15
作者 包永红 《现代电子技术》 北大核心 2026年第4期42-46,共5页
文本数据中蕴含着丰富的信息,但这些信息往往以隐含的方式存在,不易被直接观察或理解。目前传统的监督学习方法需要大量的人工标注数据来训练模型,易受标注者的主观性影响,为解决该问题,提出一种基于无监督文本特征的隐含主题自动抽取... 文本数据中蕴含着丰富的信息,但这些信息往往以隐含的方式存在,不易被直接观察或理解。目前传统的监督学习方法需要大量的人工标注数据来训练模型,易受标注者的主观性影响,为解决该问题,提出一种基于无监督文本特征的隐含主题自动抽取方法。利用双向最大匹配法对文本进行分词后,去除其中的停用词,完成文本预处理工作;采用无监督TF-IDF算法提取预处理后文本的特征,再将文本数据转换为数值型特征向量,构建词特征向量集;引入LDA模型自动抽取隐含主题,即构建词特征向量中词汇对应隐含主题的概率分布模型,并利用Gibbs快速抽样法获取模型超参数,得到隐含主题概率分布,进而依据该分布结果实现文本隐含主题的自动抽取。实验结果表明,所提方法在应用过程中的F1值高于0.93,困惑度低于0.6,能够精准地抽取文本中的隐含主题。 展开更多
关键词 隐含主题 自动抽取 文本特征 无监督TF-IDF算法 LDA模型 Gibbs快速抽样法
在线阅读 下载PDF
基于特定领域的中文微博热点话题挖掘系统BTopicMiner 被引量:26
16
作者 李劲 张华 +1 位作者 吴浩雄 向军 《计算机应用》 CSCD 北大核心 2012年第8期2346-2349,共4页
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本... 随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。 展开更多
关键词 数据挖掘 信息检索 微博 话题模型 文本聚类 互信息
在线阅读 下载PDF
基于动态主题模型的我国公共文化服务政策演进分析
17
作者 谢紫悦 陈雅 +2 位作者 杜佳 吴柯烨 王丹 《图书馆杂志》 北大核心 2026年第2期19-32,57,共15页
系统梳理我国公共文化服务政策发展轨迹,掌握其主题与演化趋势,提取优化逻辑,为后续政策制定与实践发力提供科学依据。选取我国20062023年间中央与省级层面公共文化服务政策文本,利用动态主题模型(Dynamic Topic Model,DTM)从主题强度... 系统梳理我国公共文化服务政策发展轨迹,掌握其主题与演化趋势,提取优化逻辑,为后续政策制定与实践发力提供科学依据。选取我国20062023年间中央与省级层面公共文化服务政策文本,利用动态主题模型(Dynamic Topic Model,DTM)从主题强度及语义层面捕捉我国公共文化服务政策演化趋势,并以可视化形式回溯其具体演进趋势与轨迹,精准提取我国公共文化服务政策体系的优化逻辑。基于动态主题模型挖掘出13个政策主题,根据时序分布、主题强度与语义演化可以看出我国公共文化服务政策布局逻辑遵循“建构解构再建构”的循环模式,呈现多元性与均衡性的结构特征,兼具协调发展与跨域融合的双重优势,实现了优化改革与持续性发展中的动态平衡,并对新机遇和挑战表现出高度敏感性和适应性。 展开更多
关键词 公共文化服务 政策文本分析 DTM 政策演化 主题演化
原文传递
文本主题分割任务中的深度学习研究综述
18
作者 周日飞 文勇 黄文旭 《软件导刊》 2026年第1期202-212,共11页
深入探讨文本主题分割任务,系统梳理并提炼现有文献,开展针对基于深度学习的文本主题分割技术的多维度分析。首先,回顾了文本主题分割技术的发展历程,分析了基于语篇结构理论、统计学习和深度学习的分割方法,并考察文本主题分割任务常... 深入探讨文本主题分割任务,系统梳理并提炼现有文献,开展针对基于深度学习的文本主题分割技术的多维度分析。首先,回顾了文本主题分割技术的发展历程,分析了基于语篇结构理论、统计学习和深度学习的分割方法,并考察文本主题分割任务常用的数据集及评价指标;其次,进一步比较了卷积神经网络、循环神经网络和Transformer网络等深度学习技术在文本主题分割任务中的应用和优缺点分析,并对比采用各模型方法在相同数据集上的实验结果;最后,指出了当前文本主题分割任务面临的挑战和潜在发展方向,为文本主题分割任务的进一步研究提供了参考。 展开更多
关键词 文本主题分割 深度学习 自然语言处理 数据集 评价指标
在线阅读 下载PDF
多元关系融合视角下前沿交叉技术主题演化路径识别研究
19
作者 李嘉晖 张娴 +1 位作者 李姝影 许海云 《现代情报》 北大核心 2026年第3期124-139,共16页
[目的/意义]通过多元主题关联关系挖掘技术主题间潜在关系,融合多元关系补充潜在信息,挖掘前沿交叉技术主题演化潜在路径。[方法/过程]基于专利技术引文与合作关系,提出技术主题强化关系与新增关系,利用熵权法融合多元关系,结合主题聚... [目的/意义]通过多元主题关联关系挖掘技术主题间潜在关系,融合多元关系补充潜在信息,挖掘前沿交叉技术主题演化潜在路径。[方法/过程]基于专利技术引文与合作关系,提出技术主题强化关系与新增关系,利用熵权法融合多元关系,结合主题聚类与相似度计算,测度技术路径强弱关系,识别技术主题演化路径。[结果/结论]以“石墨烯传感”领域进行实证,识别出包含生物分子分离纯化与感测、葡萄糖检测与控制、光电化学传感等技术主题的3条潜在主路径,验证了本文方法的有效性与可行性。研究表明,多元关系融合利用对主题演化研究具有较好补充效果;主题词可在语义层面反映出主题间关系走向;技术主题间弱关系的增叠有助于挖掘技术主题演化潜在主路径。 展开更多
关键词 前沿交叉技术 多元关系融合 主路径分析 专利文本挖掘 技术主题演化路径
在线阅读 下载PDF
基于专利分析的激光诱导击穿光谱技术全球发展态势
20
作者 张德熙 李娜 +1 位作者 曾强 马玥 《中国无机分析化学》 北大核心 2026年第2期177-188,共12页
激光诱导击穿光谱(LIBS)技术是一种物质元素分析方法,具有全元素检测、非接触、样品无需预处理等优势,应用场景广泛。为了解该技术当前的发展态势,本研究基于专利计量和文本聚类方法,进行定量统计和主题挖掘,探讨LIBS技术的全球发展趋... 激光诱导击穿光谱(LIBS)技术是一种物质元素分析方法,具有全元素检测、非接触、样品无需预处理等优势,应用场景广泛。为了解该技术当前的发展态势,本研究基于专利计量和文本聚类方法,进行定量统计和主题挖掘,探讨LIBS技术的全球发展趋势。结果显示:LIBS技术自1980年后开始有序累积时期,专利申请量和申请人数持续增长,尤其2010年后加速显著;中国以1812项专利居全球首位,其中华中科技大学主导的研发工作尤为突出;发明主题主要分布在材料检测和光谱测量领域,技术发展则聚焦速度提升及其仪器设备结构复杂性的降低,效用集中于测量实验参数等优化方面。文本聚类识别出8个核心主题,归纳为三方向:一是LIBS检测设备与光谱分析优化;二是LIBS等离子体光谱与元素检测技术;三是LIBS垂直领域应用。研究显示,现存挑战包括高价值专利集中于少数机构,多数技术成熟度不足;科研院所主导,企业参与及转化能力弱;专利数据来源单一且近年有公开时滞误差。未来LIBS技术发展趋势为:深化算法融合、推进垂直领域定制化、实现设备便携化、突破产业化障碍(强化产学研合作)。本研究可为LIBS领域研发决策、专利布局及产业协同提供参考依据。 展开更多
关键词 激光诱导击穿光谱 等离子体光谱分析 专利计量分析 文本主题聚类
在线阅读 下载PDF
上一页 1 2 43 下一页 到第
使用帮助 返回顶部