期刊文献+
共找到580篇文章
< 1 2 29 >
每页显示 20 50 100
News Text Topic Clustering Optimized Method Based on TF-IDF Algorithm on Spark 被引量:20
1
作者 Zhuo Zhou Jiaohua Qin +3 位作者 Xuyu Xiang Yun Tan Qiang Liu Neal N.Xiong 《Computers, Materials & Continua》 SCIE EI 2020年第1期217-231,共15页
Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm... Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm based on Spark big data platform.Since the TF-IDF(term frequency-inverse document frequency)algorithm under Spark is irreversible to word mapping,the mapped words indexes cannot be traced back to the original words.In this paper,an optimized method is proposed that TF-IDF under Spark to ensure the text words can be restored.Firstly,the text feature is extracted by the TF-IDF algorithm combined CountVectorizer proposed in this paper,and then the features are inputted to the LDA(Latent Dirichlet Allocation)topic model for training.Finally,the text topic clustering is obtained.Experimental results show that for large data samples,the processing speed of LDA topic model clustering has been improved based Spark.At the same time,compared with the LDA topic model based on word frequency input,the model proposed in this paper has a reduction of perplexity. 展开更多
关键词 News text topic clustering spark platform countvectorizer algorithm TF-IDF algorithm latent dirichlet allocation model
在线阅读 下载PDF
GenAI教育应用的未来:基于改进后的BERTopic工具的主题建模
2
作者 胡艺龄 陈煜 +1 位作者 何雨桐 顾小清 《现代教育技术》 2025年第7期44-53,共10页
生成式人工智能(Generative Artificial Intelligence,GenAI)技术及其应用的加速渗透,为全球人才竞争格局带来更多不稳定因素,其引发的变革正在重新定义知识、定义学习。囿于视角与方法的局限,目前针对GenAI赋能教育的综述研究尚未充分... 生成式人工智能(Generative Artificial Intelligence,GenAI)技术及其应用的加速渗透,为全球人才竞争格局带来更多不稳定因素,其引发的变革正在重新定义知识、定义学习。囿于视角与方法的局限,目前针对GenAI赋能教育的综述研究尚未充分挖掘文本之间的深层语义,也未建构系统性的应用框架。对此,文章探索性地从结构调整和算法选型两个方面对自动化主题建模工具BERTopic进行改进,设计了改进后的BERTopic主题聚类流程,并通过对比分析验证了改进后的BERTopic的主题聚类效果。应用改进后的BERTopic工具,文章从主题核心特征、演变趋势和层次关系三个方面剖析了GenAI教育应用的主题聚类结果,在此基础上建构了GenAI教育应用的主题模型。文章的研究对主题建模工具进行了探索性应用,拓展了GenAI教育应用的视角,可为推动GenAI赋能教育提供理论参考。 展开更多
关键词 生成式人工智能 BERtopic 人工智能教育应用 主题聚类
在线阅读 下载PDF
Hierarchical clustering based on single-pass for breaking topic detection and tracking 被引量:3
3
作者 Li Fenghuan Zhao Zongfei Wang Zhenyu 《High Technology Letters》 EI CAS 2018年第4期369-377,共9页
Single-pass is commonly used in topic detection and tracking( TDT) due to its simplicity,high efficiency and low cost. When dealing with large-scale data,time cost will increase sharply and clustering performance will... Single-pass is commonly used in topic detection and tracking( TDT) due to its simplicity,high efficiency and low cost. When dealing with large-scale data,time cost will increase sharply and clustering performance will be affected greatly. Aiming at this problem,hierarchical clustering algorithm based on single-pass is proposed,which is inspired by hierarchical and concurrent ideas to divide clustering process into three stages. News reports are classified into different categories firstly.Then there are twice single-pass clustering processes in the same category,and one agglomerative clustering among different categories. In addition,for semantic similarity in news reports,topic model is improved based on named entities. Experimental results show that the proposed method can effectively accelerate the process as well as improve the performance. 展开更多
关键词 topic detection and tracking(TDT) single-pass HIERARCHICAL clusterING TEXT clusterING topic modeling
在线阅读 下载PDF
Enhancing BERTopic with Pre-Clustered Knowledge: Reducing Feature Sparsity in Short Text Topic Modeling
4
作者 Qian Wang Biao Ma 《Journal of Data Analysis and Information Processing》 2024年第4期597-611,共15页
Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic captur... Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic capture accuracy. We propose a novel approach that incorporates pre-clustered knowledge into the BERTopic model while reducing the l2 norm for low-frequency words. Our method effectively mitigates feature sparsity during cluster mapping. Empirical evaluation on the StackOverflow dataset demonstrates that our approach outperforms baseline models, achieving superior Macro-F1 scores. These results validate the effectiveness of our proposed feature sparsity reduction technique for short-text topic modeling. 展开更多
关键词 topic Model BERtopic Short Text Feature Sparsity cluster
在线阅读 下载PDF
基于特定领域的中文微博热点话题挖掘系统BTopicMiner 被引量:26
5
作者 李劲 张华 +1 位作者 吴浩雄 向军 《计算机应用》 CSCD 北大核心 2012年第8期2346-2349,共4页
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本... 随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。 展开更多
关键词 数据挖掘 信息检索 微博 话题模型 文本聚类 互信息
在线阅读 下载PDF
深度演化主题聚类模型
6
作者 程梓洋 黄瑞章 薛菁菁 《计算机应用》 北大核心 2026年第1期85-94,共10页
针对现有的深度文档聚类方法在处理动态文档数据时,文档主题随时间演化过程中存在主题混淆和对齐不准确问题,提出一种深度演化主题聚类模型(DETCM)。DETCM可以捕捉动态文档随时间演化的主题信息,结合历史主题信息与当前时间片文档特征,... 针对现有的深度文档聚类方法在处理动态文档数据时,文档主题随时间演化过程中存在主题混淆和对齐不准确问题,提出一种深度演化主题聚类模型(DETCM)。DETCM可以捕捉动态文档随时间演化的主题信息,结合历史主题信息与当前时间片文档特征,发掘事件主题演化脉络,生成动态文档主题表示。具体来说,为了解决主题随时间演变时的主题混淆问题,设计了基于混合编码器的主题融合学习模块,借助前置时间片的主题信息,加强当前时间片的主题区分度与特征提取。此外,还设计了一种跨时间片的动态主题继承模块,通过将不同时间片上的主题匹配对齐,有效地将历史时间片上的主题信息融入当前时间片的类簇划分过程中。这一设计使得DETCM学习主题时能够继承并借鉴历史时间片的主题信息,有效跟踪动态文本主题持续演化的过程。基于arXiv真实演化文本文档数据集的实验结果表明,相较于深度演化聚类模型DEDC-IMAE(Deep Evolutionary Document Clustering model with Instance-level Mutual Attention Enhancement),DETCM在所有时间片上的标准化互信息(NMI)指标平均提升了3.08%(-0.37%~5.43%),验证了DETCM在动态场景中具有更好的主题演化追踪能力,能够更准确地捕捉主题的时序变化特征,实现更优的聚类性能。 展开更多
关键词 主题演化 深度动态聚类 表示学习 主题挖掘 对比学习
在线阅读 下载PDF
基于文本挖掘的蒙古族“时装”消费影响因素研究
7
作者 木斯 雷青 王思琴 《丝绸》 北大核心 2026年第3期30-40,共11页
为探究消费者在线购买蒙古族“时装”的关注因素,文章以抖音商城蒙古族“时装”购买的在线评论为依据,采用文本挖掘方法分析其消费影响因素。通过情感分析、聚类分析与主题建模等方法识别出评论数据中产品质量、外观版型、舒适度、价格... 为探究消费者在线购买蒙古族“时装”的关注因素,文章以抖音商城蒙古族“时装”购买的在线评论为依据,采用文本挖掘方法分析其消费影响因素。通过情感分析、聚类分析与主题建模等方法识别出评论数据中产品质量、外观版型、舒适度、价格感知、服务体验等关键维度。研究结果表明:当下消费者对蒙古族“时装”整体的视觉美感与工艺质量等方面的满意度相对较高,但价格适配度、尺码准确性与日常场景适用性等方面的缺失也显著影响着消费者满意度。文章从消费反馈视角厘清蒙古族“时装”消费过程中影响因素、感知价值与满意度之间的递进关系,为品牌在产品创新、定价策略、服务优化与文化转译等方面提供决策参考与有益启示。 展开更多
关键词 蒙古族“时装” 文本挖掘 抖音商城 在线评论 情感分析 聚类分析 主题建模
在线阅读 下载PDF
基于专利分析的激光诱导击穿光谱技术全球发展态势
8
作者 张德熙 李娜 +1 位作者 曾强 马玥 《中国无机分析化学》 北大核心 2026年第2期177-188,共12页
激光诱导击穿光谱(LIBS)技术是一种物质元素分析方法,具有全元素检测、非接触、样品无需预处理等优势,应用场景广泛。为了解该技术当前的发展态势,本研究基于专利计量和文本聚类方法,进行定量统计和主题挖掘,探讨LIBS技术的全球发展趋... 激光诱导击穿光谱(LIBS)技术是一种物质元素分析方法,具有全元素检测、非接触、样品无需预处理等优势,应用场景广泛。为了解该技术当前的发展态势,本研究基于专利计量和文本聚类方法,进行定量统计和主题挖掘,探讨LIBS技术的全球发展趋势。结果显示:LIBS技术自1980年后开始有序累积时期,专利申请量和申请人数持续增长,尤其2010年后加速显著;中国以1812项专利居全球首位,其中华中科技大学主导的研发工作尤为突出;发明主题主要分布在材料检测和光谱测量领域,技术发展则聚焦速度提升及其仪器设备结构复杂性的降低,效用集中于测量实验参数等优化方面。文本聚类识别出8个核心主题,归纳为三方向:一是LIBS检测设备与光谱分析优化;二是LIBS等离子体光谱与元素检测技术;三是LIBS垂直领域应用。研究显示,现存挑战包括高价值专利集中于少数机构,多数技术成熟度不足;科研院所主导,企业参与及转化能力弱;专利数据来源单一且近年有公开时滞误差。未来LIBS技术发展趋势为:深化算法融合、推进垂直领域定制化、实现设备便携化、突破产业化障碍(强化产学研合作)。本研究可为LIBS领域研发决策、专利布局及产业协同提供参考依据。 展开更多
关键词 激光诱导击穿光谱 等离子体光谱分析 专利计量分析 文本主题聚类
在线阅读 下载PDF
基于BERTopic模型的用户层次化需求及动机分析--以抖音平台为例 被引量:47
9
作者 刘洋 柳卓心 +1 位作者 金昊 陈飞扬 《情报杂志》 CSSCI 北大核心 2023年第12期159-167,共9页
[研究目的]在分析短视频平台的用户生成内容构成,提炼其在时间演化与社会事件影响下表现出的构造与演化规律,挖掘短视频用户的内在行为需要,探讨其用户参与行为的潜在动机因素。[研究方法]以抖音平台237万条短视频发布数据作为研究样本... [研究目的]在分析短视频平台的用户生成内容构成,提炼其在时间演化与社会事件影响下表现出的构造与演化规律,挖掘短视频用户的内在行为需要,探讨其用户参与行为的潜在动机因素。[研究方法]以抖音平台237万条短视频发布数据作为研究样本,使用BERTopic模型实现主题聚类,总结用户一定时间内的话题的关注情况,并在互联网视角下结合马斯洛需求层次理论,揭示用户参与行为背后需求与动机。[研究结论]首先,用户的需求关注度由高至低的排列顺序为尊重需求、安全需求、社交需求、自我实现需求与生理需求,且该关注顺序能在日常的时间推移中保持稳定;其次,用户对于社会事件有着较高的讨论度,相关事件能够显著影响时段内用户的视频内容构成,但对用户的关注程度分布影响微弱;最后,用户在发布视频过程中和点赞互动的关注热点存在差异。用户在发布视频时更关注尊重层次需求,而在浏览互动时,自我实现层次需求受到的关注程度显著提升。 展开更多
关键词 短视频 用户需求 用户行为 主题聚类 主题演化 BERtopic模型 马斯洛需求理论
在线阅读 下载PDF
Identification and Prediction of Interdisciplinary Research Topics: A Study Based on the Concept Lattice Theory 被引量:4
10
作者 Haiyun Xu Chao Wang +1 位作者 Kun Dong Zenghui Yue 《Journal of Data and Information Science》 CSCD 2019年第1期60-88,共29页
Purpose: Formal concept analysis(FCA) and concept lattice theory(CLT) are introduced for constructing a network of IDR topics and for evaluating their effectiveness for knowledge structure exploration.Design/methodolo... Purpose: Formal concept analysis(FCA) and concept lattice theory(CLT) are introduced for constructing a network of IDR topics and for evaluating their effectiveness for knowledge structure exploration.Design/methodology/approach: We introduced the theory and applications of FCA and CLT, and then proposed a method for interdisciplinary knowledge discovery based on CLT. As an example of empirical analysis, interdisciplinary research(IDR) topics in Information & Library Science(LIS) and Medical Informatics, and in LIS and Geography-Physical, were utilized as empirical fields. Subsequently, we carried out a comparative analysis with two other IDR topic recognition methods.Findings: The CLT approach is suitable for IDR topic identification and predictions.Research limitations: IDR topic recognition based on the CLT is not sensitive to the interdisciplinarity of topic terms, since the data can only reflect whether there is a relationship between the discipline and the topic terms. Moreover, the CLT cannot clearly represent a large amounts of concepts.Practical implications: A deeper understanding of the IDR topics was obtained as the structural and hierarchical relationships between them were identified, which can help to get more precise identification and prediction to IDR topics.Originality/value: IDR topics identification based on CLT have performed well and this theory has several advantages for identifying and predicting IDR topics. First, in a concept lattice, there is a partial order relation between interconnected nodes, and consequently, a complete concept lattice can present hierarchical properties. Second, clustering analysis of IDR topics based on concept lattices can yield clusters that highlight the essential knowledge features and help display the semantic relationship between different IDR topics. Furthermore, the Hasse diagram automatically displays all the IDR topics associated with the different disciplines, thus forming clusters of specific concepts and visually retaining and presenting the associations of IDR topics through multiple inheritance relationships between the concepts. 展开更多
关键词 INTERDISCIPLINARY research IDR topicS CONCEPT lattice FORMAL ANALYSIS cluster ANALYSIS
在线阅读 下载PDF
ChatGPT大语言模型的评论情感分类预测与主题识别研究 被引量:3
11
作者 朱益平 慕钰 孙逸宁 《情报科学》 北大核心 2025年第5期43-57,共15页
【目的/意义】探究大众对于ChatGPT大语言模型的情感和主要关注点,有助于人工智能企业推进AIGC技术的开发,可为政府制定相应技术监管策略提供建议。【方法/过程】爬取微博数据并进行预处理后,构建Bert模型进行情感分类,并结合LDA主题聚... 【目的/意义】探究大众对于ChatGPT大语言模型的情感和主要关注点,有助于人工智能企业推进AIGC技术的开发,可为政府制定相应技术监管策略提供建议。【方法/过程】爬取微博数据并进行预处理后,构建Bert模型进行情感分类,并结合LDA主题聚类及ARIMA时间序列模型,揭示公众对ChatGPT大语言模型的关注焦点和态度倾向,预测用户评论情感走向。【结果/结论】大众对以ChatGPT为代表的大语言模型的态度因人而异,情感分布较为均衡。用户的主要关注点呈现复杂化的特点,未来以ChatGPT为代表的大语言模型在公众的认可度和情感态度方面有着良好预期。【创新/局限】对情感分类结果进行细粒度情感评论LDA主题聚类的同时,将粗粒度分类结果与ARIMA时间序列模型结合,打破单纯依赖静态情感分析的局限性,多角度、多方面地对大众之于ChatGPT大语言模型的态度、关注点和未来预期进行分析,深入探究ChatGPT大语言模型的发展趋势和潜在风险。 展开更多
关键词 ChatGPT 大语言模型 机器学习 情感分析 主题聚类
原文传递
基于技术距离测度的产业高价值专利识别研究
12
作者 冉从敬 蒋云龙 +2 位作者 李旺 贾志轩 程凡 《情报学报》 北大核心 2025年第12期1503-1522,共20页
高价值专利识别是抢占产业全球战略高地、推动产业持续高效健康发展的重要课题,可为产业关键核心技术的挖掘提供重要线索。本文从专利技术距离测度视角出发,在进行主题聚类提取领域上位类主题基础上,提出一种基于主题知识贡献距离与主... 高价值专利识别是抢占产业全球战略高地、推动产业持续高效健康发展的重要课题,可为产业关键核心技术的挖掘提供重要线索。本文从专利技术距离测度视角出发,在进行主题聚类提取领域上位类主题基础上,提出一种基于主题知识贡献距离与主题联系程度双维影响下的高价值专利识别方法。在主题知识贡献距离维度上,构建专利间分层专利引用网络,计算各专利与主题的持续知识贡献值,基于知识贡献时间序列计算主题间的动态时间规整(dynamic time warping,DTW)距离,形成主题知识贡献距离矩阵;在主题联系程度维度上,构建主题与专利二分图网络,结合专利共现频率与引用关系强度进行初始强度与全局逻辑计算,形成主题联系程度矩阵。融合双维度矩阵构建专利技术距离矩阵,基于技术距离矩阵进行各专利的绝对技术距离计算,选取阈值范围内的高绝对技术距离专利作为领域内高技术价值的专利。经验证数据集检验,本文方法的精准率达到0.8218,F1指标达到0.8014。基于此,对“生成式人工智能”领域专利进行实证,识别出产业内具有较高价值的专利1437件,并发现识别出的高价值专利集具有较高的转让比例,转让比例达58.59%。本文基于技术本质的视角对专利间的技术差距进行量化,打破了以往仅从外部特征或简单统计数据判断专利价值的局限性,提升了识别的准确性;同时,提出双维度的技术距离影响机理,进一步提升了识别的可解释性。 展开更多
关键词 高价值专利识别 技术距离 主题聚类 专利引用网络 二分图网络
在线阅读 下载PDF
微信会话文本关键词提取的算法研究
13
作者 王宝会 许卜仁 +1 位作者 李长傲 叶子豪 《计算机科学》 北大核心 2025年第S1期239-246,共8页
微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,... 微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,提出了一种结合预训练知识的会话主题聚类算法(Single Pass Using Thread Segmentation and Pre-training Knowledge,SP_(TSPK)),综合考虑语义相关性、消息活跃度和用户亲密度,有效解决了会话主题交叉和信息量不足的问题。其次,设计了一种多阶段关键词提取算法(Multi-Stage Keyword Extraction,MSKE),将任务分解为无监督关键词抽取和有监督关键词生成,有效提取原文中存在和缺失的关键词,减少了候选词规模和语义冗余;最终,组合SP_(TSPK)算法与MSKE算法实现微信会话文本关键词提取。在WeChat数据集上相比AutoKeyGen算法,F_(1)@5和F_(1)@O平均提升了12.8%与10.8%,R@10平均达到其2.59倍。实验结果表明,该算法能有效地提取微信会话文本关键词。 展开更多
关键词 文本聚类 文本生成 会话主题聚类 关键词提取
在线阅读 下载PDF
情报学领域典型文本主题聚类算法比较研究 被引量:2
14
作者 崔文波 张涛 许鑫 《情报理论与实践》 北大核心 2025年第7期199-207,共9页
[目的/意义]主题聚类算法是情报学领域研究中重要的方法和工具,对主题聚类算法进行比较研究,有助于研究人员选择合适的算法开展相关研究。[方法/过程]首先,系统梳理情报学领域研究从传统到融合语义信息的典型主题聚类算法;其次,从主题... [目的/意义]主题聚类算法是情报学领域研究中重要的方法和工具,对主题聚类算法进行比较研究,有助于研究人员选择合适的算法开展相关研究。[方法/过程]首先,系统梳理情报学领域研究从传统到融合语义信息的典型主题聚类算法;其次,从主题语义连贯、可解释和主题结构质量层面构建主题聚类算法评估框架;最后,基于评估框架选择经过验证的政策、媒体和学术论文三类数据集进行实证分析。[结果/结论](1)K-means、NMF、BERTopic、BERT-HDBSCAN和LDA是适用于强调语义连贯性、可解释性较高的聚类研究,但LDA在媒体类数据集中表现较差,且融合语义嵌入后表现不佳。(2)LDA2Vec是适用于强调主题结构质量的聚类研究。(3)Sentence-BERT-K-means和BERT-K-means是适用于强调平衡主题可解释性和主题结构质量的聚类研究,特别是Sentence-BERT-K-means能提供较好的主题聚类效果。 展开更多
关键词 情报学 主题聚类 主题聚类算法 LDA模型 BERtopic 比较分析
原文传递
全球干热岩勘探开发研究态势分析 被引量:1
15
作者 赵婉雨 贾苹 《矿业研究与开发》 北大核心 2025年第9期287-302,共16页
干热岩勘探开发研究对推动全球能源结构转型、实现清洁能源可持续利用以及助力碳中和目标具有重要意义。为全面宏观地了解干热岩勘探开发领域最新研究进展和技术发展态势,对干热岩领域相关论文和专利进行了计量分析和主题挖掘,分析了发... 干热岩勘探开发研究对推动全球能源结构转型、实现清洁能源可持续利用以及助力碳中和目标具有重要意义。为全面宏观地了解干热岩勘探开发领域最新研究进展和技术发展态势,对干热岩领域相关论文和专利进行了计量分析和主题挖掘,分析了发文趋势、专利申请趋势、主要国家与机构分布、研究主题及研究热点等。分析表明,全球范围内干热岩领域研究处于快速发展时期,中国在基础研究和技术研发方面已占据主导地位,但研究质量和国际化进程仍有提升空间;研究热点集中在地热能提取与利用、干热岩成因机制与资源勘探、储层力学特性与热储建造、储层监测与评价、地震预测与控制等5个方面,其中高温环境与应力耦合作用机制、低温压裂技术、核磁共振技术的应用等是近年来的重要研究领域。尽管干热岩的开发利用正逐步进入工程示范阶段,但商业化开发仍面临技术瓶颈、环境风险和经济性不足等挑战,未来应进一步加强地球物理勘探技术的研发和应用,提升热储改造技术,优化水力压裂和钻井工艺,深入探索裂缝网络的动态演化、热储层的长期稳定性,优化热储层的热能提取过程,提高热提取和换热效率;同时持续深化基础研究与应用技术的协同发展,突破技术瓶颈,降低开发成本,推动干热岩资源的可持续开发利用。 展开更多
关键词 干热岩 增强型地热系统 勘探开发 文献计量 主题聚类
原文传递
融合输出关联和聚类图谱的突发舆情衍生主题发现 被引量:1
16
作者 王润周 张新生 《情报理论与实践》 北大核心 2025年第8期135-148,共14页
[目的/意义]通过在海量舆情数据中准确识别衍生话题,可解释性地挖掘衍生主题的演化过程,从而有效发掘危险话题,实现有针对性的舆论管控。[方法/过程]结合深度学习和复杂网络方法构建Graph-BERTopic主题模型。首先,通过加强模型的输出关... [目的/意义]通过在海量舆情数据中准确识别衍生话题,可解释性地挖掘衍生主题的演化过程,从而有效发掘危险话题,实现有针对性的舆论管控。[方法/过程]结合深度学习和复杂网络方法构建Graph-BERTopic主题模型。首先,通过加强模型的输出关联性显著提高主题聚类性能;其次,基于语义相似度将主题嵌入向量构建聚类图谱;最后,采用社区发现检测图谱中的衍生主题,采用最短路径算法捕捉主题间的演化关系。[结果/结论]对收集的“东航MU5735飞机失事”数据集进行实验验证,其聚类性能与多种基准模型相比取得最优性能,NPMI、TD分别达到0.187、0.873。通过聚类图谱划分的衍生主题结构的质量函数达到0.831。所构建的模型能够从大规模文本中精准挖掘衍生主题,可解释性地捕捉舆情主题之间的演变过程。 展开更多
关键词 网络舆情 输出关联 衍生主题发现 聚类图谱
原文传递
融合超图聚类和动态主题建模的图情领域研究主题挖掘与演化分析 被引量:1
17
作者 王有建 程曦 +2 位作者 刘世莹 徐车 朱鹏 《情报理论与实践》 北大核心 2025年第8期21-31,共11页
[目的/意义]挖掘图情领域研究主题,并细粒化剖析演化路径,对于洞悉学科发展态势,揭示知识体系演进脉络和引领学科创新发展具有重要理论价值与现实意义。[方法/过程]以2019—2024年图情领域CSSCI来源期刊文献数据为研究对象,在采用超图... [目的/意义]挖掘图情领域研究主题,并细粒化剖析演化路径,对于洞悉学科发展态势,揭示知识体系演进脉络和引领学科创新发展具有重要理论价值与现实意义。[方法/过程]以2019—2024年图情领域CSSCI来源期刊文献数据为研究对象,在采用超图谱聚类和TF-IDF对文献组别及研究方向进行初步挖掘基础上,利用动态主题模型细粒化剖析不同组别文献研究主题及演化路径,进而揭示各研究主题发展趋势和演进特征。[结果/结论]图情领域文献研究方向呈现广泛性和多元性特征,可聚类划分为在线社交与健康信息行为、国家情报与战略竞争、开放科学与数据政策治理等9个方向。通过动态主题建模,提炼出40个研究主题,其中,舆情传播演化、国家应急情报与战略决策、学术影响力评价、社交媒体与隐私感知、技术识别分析等主题的关注度较高,且不同研究方向的主题间存在内在联系与交叉点。从主题演化角度看,热点主题紧密关联社会发展、技术进步和政策导向,时代性特征突出。融合超图聚类和动态主题建模的研究主题挖掘与演化分析模型,不仅能够有效捕捉知识网络中复杂的高阶语义结构,还能实现对各研究主题的细粒化剖析。[局限]仅采用超图谱聚类对文献组别进行区分,且动态主题建模在捕捉主题长短期演化特征方面存在不足,可在后续研究中进一步探究。 展开更多
关键词 对偶超图 超图聚类 动态主题建模 主题挖掘 演化路径
原文传递
基于双向图注意力网络的潜在热点话题谣言检测 被引量:2
18
作者 李劭 蒋方婷 +1 位作者 杨鑫岩 梁刚 《计算机科学》 北大核心 2025年第3期277-286,共10页
现有社交网络谣言检测方法大多将社交网络中的单个帖子视为检测目标,存在因数据量不足而导致的检测冷启动问题,影响检测性能。另外,现有方法没有对海量社交网络信息中与检测无关的信息进行过滤,导致检测时延较长,性能较差。在分析谣言... 现有社交网络谣言检测方法大多将社交网络中的单个帖子视为检测目标,存在因数据量不足而导致的检测冷启动问题,影响检测性能。另外,现有方法没有对海量社交网络信息中与检测无关的信息进行过滤,导致检测时延较长,性能较差。在分析谣言的传播特征时,现有方法大多侧重于谣言传播过程中的静态特征,难以充分利用节点间的动态关系对复杂的传播过程进行表征,导致性能提升存在瓶颈。针对以上问题,文中提出了一种基于潜在热点话题和图注意力神经网络的谣言检测方法,该方法采用神经主题模型和潜在热点话题发现模型进行话题级别的谣言检测以克服冷启动问题,并设计了一个基于双向图注意力神经网络的检测模型TPC-BiGAT,分析谣言话题传播过程中的动态特征以进行谣言真实性检测。在3个公开数据集上进行了多次实验证明,该方法在准确率上较现有方法取得了3%~5%的显著提升,验证了所提方法的有效性。 展开更多
关键词 谣言检测 社交网络 潜在热点话题 图神经网络 主题聚类
在线阅读 下载PDF
基于文献计量学的蛹虫草研究热点可视化分析 被引量:1
19
作者 油伦贺 刘金坤 +3 位作者 刘冰 谭钤文 刘宇 王建瑞 《微生物学通报》 北大核心 2025年第1期410-425,共16页
【背景】蛹虫草(Cordyceps militaris)作为虫草科虫草属的模式种一直受到全球研究人员的关注。【目的】多维度探讨蛹虫草研究的当前状况与未来趋势。【方法】基于Web of Science核心合集数据库对2005-2024年间有关蛹虫草的SCI核心集论... 【背景】蛹虫草(Cordyceps militaris)作为虫草科虫草属的模式种一直受到全球研究人员的关注。【目的】多维度探讨蛹虫草研究的当前状况与未来趋势。【方法】基于Web of Science核心合集数据库对2005-2024年间有关蛹虫草的SCI核心集论文进行了全面的数据搜集、整理、分析和可视化处理。【结果】过去20年里,蛹虫草研究已从单一的培养特性拓展至跨学科领域,尤其是其活性成分和药理学效应已成为学术界关注的焦点。文献计量分析结果显示,2005-2009年间,主要研究方向为蛹虫草的人工培养。2010-2014年间,研究主题扩展至子实体相关的药理学,研究地位显著提升。2015年后,研究主题进一步多元化,涵盖了优化、表达、氧化应激、真菌、抗氧化剂、化学成分、NF-κB、细胞周期停滞等领域,显示了从培养技术向深入的生物学和医学机制研究的转变。【结论】蛹虫草的研究经历了从传统培养研究向多学科交叉的深刻变革,未来研究将更加侧重于活性成分的功能机制、生物活性物质的药理作用及潜在的医学应用,为蛹虫草的深入研究和开发利用提供科学依据。 展开更多
关键词 文献计量学 知识图谱 关键词共现 主题聚类分析
原文传递
基于文献计量学分析微生物浸出的热点主题和前沿演进
20
作者 席燕鹏 黎梦姣 +3 位作者 刘亚利 蔺妍妍 毛爱红 唐德平 《微生物学通报》 北大核心 2025年第6期2867-2882,共16页
【背景】微生物浸出是处理尾矿、废弃矿石、低品位矿、难处理矿的有效浸出手段;相较于传统的浸出技术,其具有环境友好、收益好、冶金效率高等优点。【目的】深入探讨微生物浸出在全球范围内的发展趋势和学术影响,并协助研究人员确定研... 【背景】微生物浸出是处理尾矿、废弃矿石、低品位矿、难处理矿的有效浸出手段;相较于传统的浸出技术,其具有环境友好、收益好、冶金效率高等优点。【目的】深入探讨微生物浸出在全球范围内的发展趋势和学术影响,并协助研究人员确定研究方向,开展相关研究,了解该领域最相关的课题。【方法】基于Web of Science核心合集数据库对2011-2023年全球微生物浸出的文献进行检索和分析。【结果】年发文趋势揭示微生物浸出领域的研究热度有所下降。高被引文献的研究表明,除了文献本身的质量外,另一个重要因素是国家政策支持和资金的可用性。全球共有80个国家包括1546个机构开展研究,共发表在580种期刊上。中国、伊朗、印度和澳大利亚进行了大量的研究,集成了冶金工程、环境科学生态学、采矿工程和生物技术与应用微生物学等多学科。聚类分析确定了4个经常出现的关键词:黄铜矿、废旧电路板、重金属和浸出,这为研究人员提供了新的检索词。【结论】目前对微生物浸出的研究主要集中在单个菌株,而混合菌株与矿物的吸附和耐受机理是未来发展所向。 展开更多
关键词 文献计量学 微生物浸出 发文趋势 聚类分析 热点主题
原文传递
上一页 1 2 29 下一页 到第
使用帮助 返回顶部