期刊文献+
共找到571篇文章
< 1 2 29 >
每页显示 20 50 100
News Text Topic Clustering Optimized Method Based on TF-IDF Algorithm on Spark 被引量:20
1
作者 Zhuo Zhou Jiaohua Qin +3 位作者 Xuyu Xiang Yun Tan Qiang Liu Neal N.Xiong 《Computers, Materials & Continua》 SCIE EI 2020年第1期217-231,共15页
Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm... Due to the slow processing speed of text topic clustering in stand-alone architecture under the background of big data,this paper takes news text as the research object and proposes LDA text topic clustering algorithm based on Spark big data platform.Since the TF-IDF(term frequency-inverse document frequency)algorithm under Spark is irreversible to word mapping,the mapped words indexes cannot be traced back to the original words.In this paper,an optimized method is proposed that TF-IDF under Spark to ensure the text words can be restored.Firstly,the text feature is extracted by the TF-IDF algorithm combined CountVectorizer proposed in this paper,and then the features are inputted to the LDA(Latent Dirichlet Allocation)topic model for training.Finally,the text topic clustering is obtained.Experimental results show that for large data samples,the processing speed of LDA topic model clustering has been improved based Spark.At the same time,compared with the LDA topic model based on word frequency input,the model proposed in this paper has a reduction of perplexity. 展开更多
关键词 News text topic clustering spark platform countvectorizer algorithm TF-IDF algorithm latent dirichlet allocation model
在线阅读 下载PDF
GenAI教育应用的未来:基于改进后的BERTopic工具的主题建模
2
作者 胡艺龄 陈煜 +1 位作者 何雨桐 顾小清 《现代教育技术》 2025年第7期44-53,共10页
生成式人工智能(Generative Artificial Intelligence,GenAI)技术及其应用的加速渗透,为全球人才竞争格局带来更多不稳定因素,其引发的变革正在重新定义知识、定义学习。囿于视角与方法的局限,目前针对GenAI赋能教育的综述研究尚未充分... 生成式人工智能(Generative Artificial Intelligence,GenAI)技术及其应用的加速渗透,为全球人才竞争格局带来更多不稳定因素,其引发的变革正在重新定义知识、定义学习。囿于视角与方法的局限,目前针对GenAI赋能教育的综述研究尚未充分挖掘文本之间的深层语义,也未建构系统性的应用框架。对此,文章探索性地从结构调整和算法选型两个方面对自动化主题建模工具BERTopic进行改进,设计了改进后的BERTopic主题聚类流程,并通过对比分析验证了改进后的BERTopic的主题聚类效果。应用改进后的BERTopic工具,文章从主题核心特征、演变趋势和层次关系三个方面剖析了GenAI教育应用的主题聚类结果,在此基础上建构了GenAI教育应用的主题模型。文章的研究对主题建模工具进行了探索性应用,拓展了GenAI教育应用的视角,可为推动GenAI赋能教育提供理论参考。 展开更多
关键词 生成式人工智能 BERtopic 人工智能教育应用 主题聚类
在线阅读 下载PDF
Enhancing BERTopic with Pre-Clustered Knowledge: Reducing Feature Sparsity in Short Text Topic Modeling
3
作者 Qian Wang Biao Ma 《Journal of Data Analysis and Information Processing》 2024年第4期597-611,共15页
Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic captur... Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic capture accuracy. We propose a novel approach that incorporates pre-clustered knowledge into the BERTopic model while reducing the l2 norm for low-frequency words. Our method effectively mitigates feature sparsity during cluster mapping. Empirical evaluation on the StackOverflow dataset demonstrates that our approach outperforms baseline models, achieving superior Macro-F1 scores. These results validate the effectiveness of our proposed feature sparsity reduction technique for short-text topic modeling. 展开更多
关键词 topic Model BERtopic Short Text Feature Sparsity cluster
在线阅读 下载PDF
Hierarchical clustering based on single-pass for breaking topic detection and tracking 被引量:3
4
作者 Li Fenghuan Zhao Zongfei Wang Zhenyu 《High Technology Letters》 EI CAS 2018年第4期369-377,共9页
Single-pass is commonly used in topic detection and tracking( TDT) due to its simplicity,high efficiency and low cost. When dealing with large-scale data,time cost will increase sharply and clustering performance will... Single-pass is commonly used in topic detection and tracking( TDT) due to its simplicity,high efficiency and low cost. When dealing with large-scale data,time cost will increase sharply and clustering performance will be affected greatly. Aiming at this problem,hierarchical clustering algorithm based on single-pass is proposed,which is inspired by hierarchical and concurrent ideas to divide clustering process into three stages. News reports are classified into different categories firstly.Then there are twice single-pass clustering processes in the same category,and one agglomerative clustering among different categories. In addition,for semantic similarity in news reports,topic model is improved based on named entities. Experimental results show that the proposed method can effectively accelerate the process as well as improve the performance. 展开更多
关键词 topic detection and tracking(TDT) single-pass HIERARCHICAL clusterING TEXT clusterING topic modeling
在线阅读 下载PDF
ChatGPT大语言模型的评论情感分类预测与主题识别研究 被引量:3
5
作者 朱益平 慕钰 孙逸宁 《情报科学》 北大核心 2025年第5期43-57,共15页
【目的/意义】探究大众对于ChatGPT大语言模型的情感和主要关注点,有助于人工智能企业推进AIGC技术的开发,可为政府制定相应技术监管策略提供建议。【方法/过程】爬取微博数据并进行预处理后,构建Bert模型进行情感分类,并结合LDA主题聚... 【目的/意义】探究大众对于ChatGPT大语言模型的情感和主要关注点,有助于人工智能企业推进AIGC技术的开发,可为政府制定相应技术监管策略提供建议。【方法/过程】爬取微博数据并进行预处理后,构建Bert模型进行情感分类,并结合LDA主题聚类及ARIMA时间序列模型,揭示公众对ChatGPT大语言模型的关注焦点和态度倾向,预测用户评论情感走向。【结果/结论】大众对以ChatGPT为代表的大语言模型的态度因人而异,情感分布较为均衡。用户的主要关注点呈现复杂化的特点,未来以ChatGPT为代表的大语言模型在公众的认可度和情感态度方面有着良好预期。【创新/局限】对情感分类结果进行细粒度情感评论LDA主题聚类的同时,将粗粒度分类结果与ARIMA时间序列模型结合,打破单纯依赖静态情感分析的局限性,多角度、多方面地对大众之于ChatGPT大语言模型的态度、关注点和未来预期进行分析,深入探究ChatGPT大语言模型的发展趋势和潜在风险。 展开更多
关键词 ChatGPT 大语言模型 机器学习 情感分析 主题聚类
原文传递
微信会话文本关键词提取的算法研究
6
作者 王宝会 许卜仁 +1 位作者 李长傲 叶子豪 《计算机科学》 北大核心 2025年第S1期239-246,共8页
微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,... 微信群组中存在大量会话文本数据,对其进行关键词提取有助于理解群组动态和主题演变。由于微信会话文本存在长度短、主题交叉、语言不规范等特点,传统提取方法效果欠佳。为此,提出了一个基于会话主题聚类的多阶段关键词提取算法。首先,提出了一种结合预训练知识的会话主题聚类算法(Single Pass Using Thread Segmentation and Pre-training Knowledge,SP_(TSPK)),综合考虑语义相关性、消息活跃度和用户亲密度,有效解决了会话主题交叉和信息量不足的问题。其次,设计了一种多阶段关键词提取算法(Multi-Stage Keyword Extraction,MSKE),将任务分解为无监督关键词抽取和有监督关键词生成,有效提取原文中存在和缺失的关键词,减少了候选词规模和语义冗余;最终,组合SP_(TSPK)算法与MSKE算法实现微信会话文本关键词提取。在WeChat数据集上相比AutoKeyGen算法,F_(1)@5和F_(1)@O平均提升了12.8%与10.8%,R@10平均达到其2.59倍。实验结果表明,该算法能有效地提取微信会话文本关键词。 展开更多
关键词 文本聚类 文本生成 会话主题聚类 关键词提取
在线阅读 下载PDF
情报学领域典型文本主题聚类算法比较研究
7
作者 崔文波 张涛 许鑫 《情报理论与实践》 北大核心 2025年第7期199-207,共9页
[目的/意义]主题聚类算法是情报学领域研究中重要的方法和工具,对主题聚类算法进行比较研究,有助于研究人员选择合适的算法开展相关研究。[方法/过程]首先,系统梳理情报学领域研究从传统到融合语义信息的典型主题聚类算法;其次,从主题... [目的/意义]主题聚类算法是情报学领域研究中重要的方法和工具,对主题聚类算法进行比较研究,有助于研究人员选择合适的算法开展相关研究。[方法/过程]首先,系统梳理情报学领域研究从传统到融合语义信息的典型主题聚类算法;其次,从主题语义连贯、可解释和主题结构质量层面构建主题聚类算法评估框架;最后,基于评估框架选择经过验证的政策、媒体和学术论文三类数据集进行实证分析。[结果/结论](1)K-means、NMF、BERTopic、BERT-HDBSCAN和LDA是适用于强调语义连贯性、可解释性较高的聚类研究,但LDA在媒体类数据集中表现较差,且融合语义嵌入后表现不佳。(2)LDA2Vec是适用于强调主题结构质量的聚类研究。(3)Sentence-BERT-K-means和BERT-K-means是适用于强调平衡主题可解释性和主题结构质量的聚类研究,特别是Sentence-BERT-K-means能提供较好的主题聚类效果。 展开更多
关键词 情报学 主题聚类 主题聚类算法 LDA模型 BERtopic 比较分析
原文传递
基于特定领域的中文微博热点话题挖掘系统BTopicMiner 被引量:26
8
作者 李劲 张华 +1 位作者 吴浩雄 向军 《计算机应用》 CSCD 北大核心 2012年第8期2346-2349,共4页
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本... 随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。 展开更多
关键词 数据挖掘 信息检索 微博 话题模型 文本聚类 互信息
在线阅读 下载PDF
基于双向图注意力网络的潜在热点话题谣言检测 被引量:1
9
作者 李劭 蒋方婷 +1 位作者 杨鑫岩 梁刚 《计算机科学》 北大核心 2025年第3期277-286,共10页
现有社交网络谣言检测方法大多将社交网络中的单个帖子视为检测目标,存在因数据量不足而导致的检测冷启动问题,影响检测性能。另外,现有方法没有对海量社交网络信息中与检测无关的信息进行过滤,导致检测时延较长,性能较差。在分析谣言... 现有社交网络谣言检测方法大多将社交网络中的单个帖子视为检测目标,存在因数据量不足而导致的检测冷启动问题,影响检测性能。另外,现有方法没有对海量社交网络信息中与检测无关的信息进行过滤,导致检测时延较长,性能较差。在分析谣言的传播特征时,现有方法大多侧重于谣言传播过程中的静态特征,难以充分利用节点间的动态关系对复杂的传播过程进行表征,导致性能提升存在瓶颈。针对以上问题,文中提出了一种基于潜在热点话题和图注意力神经网络的谣言检测方法,该方法采用神经主题模型和潜在热点话题发现模型进行话题级别的谣言检测以克服冷启动问题,并设计了一个基于双向图注意力神经网络的检测模型TPC-BiGAT,分析谣言话题传播过程中的动态特征以进行谣言真实性检测。在3个公开数据集上进行了多次实验证明,该方法在准确率上较现有方法取得了3%~5%的显著提升,验证了所提方法的有效性。 展开更多
关键词 谣言检测 社交网络 潜在热点话题 图神经网络 主题聚类
在线阅读 下载PDF
全球干热岩勘探开发研究态势分析
10
作者 赵婉雨 贾苹 《矿业研究与开发》 北大核心 2025年第9期287-302,共16页
干热岩勘探开发研究对推动全球能源结构转型、实现清洁能源可持续利用以及助力碳中和目标具有重要意义。为全面宏观地了解干热岩勘探开发领域最新研究进展和技术发展态势,对干热岩领域相关论文和专利进行了计量分析和主题挖掘,分析了发... 干热岩勘探开发研究对推动全球能源结构转型、实现清洁能源可持续利用以及助力碳中和目标具有重要意义。为全面宏观地了解干热岩勘探开发领域最新研究进展和技术发展态势,对干热岩领域相关论文和专利进行了计量分析和主题挖掘,分析了发文趋势、专利申请趋势、主要国家与机构分布、研究主题及研究热点等。分析表明,全球范围内干热岩领域研究处于快速发展时期,中国在基础研究和技术研发方面已占据主导地位,但研究质量和国际化进程仍有提升空间;研究热点集中在地热能提取与利用、干热岩成因机制与资源勘探、储层力学特性与热储建造、储层监测与评价、地震预测与控制等5个方面,其中高温环境与应力耦合作用机制、低温压裂技术、核磁共振技术的应用等是近年来的重要研究领域。尽管干热岩的开发利用正逐步进入工程示范阶段,但商业化开发仍面临技术瓶颈、环境风险和经济性不足等挑战,未来应进一步加强地球物理勘探技术的研发和应用,提升热储改造技术,优化水力压裂和钻井工艺,深入探索裂缝网络的动态演化、热储层的长期稳定性,优化热储层的热能提取过程,提高热提取和换热效率;同时持续深化基础研究与应用技术的协同发展,突破技术瓶颈,降低开发成本,推动干热岩资源的可持续开发利用。 展开更多
关键词 干热岩 增强型地热系统 勘探开发 文献计量 主题聚类
原文传递
融合输出关联和聚类图谱的突发舆情衍生主题发现
11
作者 王润周 张新生 《情报理论与实践》 北大核心 2025年第8期135-148,共14页
[目的/意义]通过在海量舆情数据中准确识别衍生话题,可解释性地挖掘衍生主题的演化过程,从而有效发掘危险话题,实现有针对性的舆论管控。[方法/过程]结合深度学习和复杂网络方法构建Graph-BERTopic主题模型。首先,通过加强模型的输出关... [目的/意义]通过在海量舆情数据中准确识别衍生话题,可解释性地挖掘衍生主题的演化过程,从而有效发掘危险话题,实现有针对性的舆论管控。[方法/过程]结合深度学习和复杂网络方法构建Graph-BERTopic主题模型。首先,通过加强模型的输出关联性显著提高主题聚类性能;其次,基于语义相似度将主题嵌入向量构建聚类图谱;最后,采用社区发现检测图谱中的衍生主题,采用最短路径算法捕捉主题间的演化关系。[结果/结论]对收集的“东航MU5735飞机失事”数据集进行实验验证,其聚类性能与多种基准模型相比取得最优性能,NPMI、TD分别达到0.187、0.873。通过聚类图谱划分的衍生主题结构的质量函数达到0.831。所构建的模型能够从大规模文本中精准挖掘衍生主题,可解释性地捕捉舆情主题之间的演变过程。 展开更多
关键词 网络舆情 输出关联 衍生主题发现 聚类图谱
原文传递
基于文献计量学分析微生物浸出的热点主题和前沿演进
12
作者 席燕鹏 黎梦姣 +3 位作者 刘亚利 蔺妍妍 毛爱红 唐德平 《微生物学通报》 北大核心 2025年第6期2867-2882,共16页
【背景】微生物浸出是处理尾矿、废弃矿石、低品位矿、难处理矿的有效浸出手段;相较于传统的浸出技术,其具有环境友好、收益好、冶金效率高等优点。【目的】深入探讨微生物浸出在全球范围内的发展趋势和学术影响,并协助研究人员确定研... 【背景】微生物浸出是处理尾矿、废弃矿石、低品位矿、难处理矿的有效浸出手段;相较于传统的浸出技术,其具有环境友好、收益好、冶金效率高等优点。【目的】深入探讨微生物浸出在全球范围内的发展趋势和学术影响,并协助研究人员确定研究方向,开展相关研究,了解该领域最相关的课题。【方法】基于Web of Science核心合集数据库对2011-2023年全球微生物浸出的文献进行检索和分析。【结果】年发文趋势揭示微生物浸出领域的研究热度有所下降。高被引文献的研究表明,除了文献本身的质量外,另一个重要因素是国家政策支持和资金的可用性。全球共有80个国家包括1546个机构开展研究,共发表在580种期刊上。中国、伊朗、印度和澳大利亚进行了大量的研究,集成了冶金工程、环境科学生态学、采矿工程和生物技术与应用微生物学等多学科。聚类分析确定了4个经常出现的关键词:黄铜矿、废旧电路板、重金属和浸出,这为研究人员提供了新的检索词。【结论】目前对微生物浸出的研究主要集中在单个菌株,而混合菌株与矿物的吸附和耐受机理是未来发展所向。 展开更多
关键词 文献计量学 微生物浸出 发文趋势 聚类分析 热点主题
原文传递
基于Text2Vec_AE_KMeans的微博话题聚类分析方法
13
作者 万文桐 黄润才 《智能计算机与应用》 2025年第5期82-89,共8页
传统的话题聚类分析方法使用静态词向量对微博文本进行建模,对微博文本不规范表达、一词多义等特点应对不佳,从而影响聚类效果与话题表述。针对此,提出了一种基于Text2Vec_AE_KMeans的深度文本特征提取与聚类的微博话题聚类分析方法。首... 传统的话题聚类分析方法使用静态词向量对微博文本进行建模,对微博文本不规范表达、一词多义等特点应对不佳,从而影响聚类效果与话题表述。针对此,提出了一种基于Text2Vec_AE_KMeans的深度文本特征提取与聚类的微博话题聚类分析方法。首先,使用基于MacBert预训练模型与CoSENT文本语句建模方法设计的Text2Vec预训练模型,对微博话题文本进行文本语义表示,从而改进静态词向量在文本特征建模方面的不足;然后,通过带有非线性激活函数的AutoEncoder降维网络对高维非线性文本特征进行降维;最后,在话题聚类分析的过程中采用KMeans_C-TF-IDF算法进行面向微博文本的聚类分析,从聚类簇的角度把握话题分布信息。在真实微博话题数据集上,相较于传统静态词向量建模方法,本文提出的方法在聚类评价指标上表现优异,生成的话题信息可识别性较好。 展开更多
关键词 话题聚类分析 CoSENT Text2Vec 自编码器
在线阅读 下载PDF
融合超图聚类和动态主题建模的图情领域研究主题挖掘与演化分析
14
作者 王有建 程曦 +2 位作者 刘世莹 徐车 朱鹏 《情报理论与实践》 北大核心 2025年第8期21-31,共11页
[目的/意义]挖掘图情领域研究主题,并细粒化剖析演化路径,对于洞悉学科发展态势,揭示知识体系演进脉络和引领学科创新发展具有重要理论价值与现实意义。[方法/过程]以2019—2024年图情领域CSSCI来源期刊文献数据为研究对象,在采用超图... [目的/意义]挖掘图情领域研究主题,并细粒化剖析演化路径,对于洞悉学科发展态势,揭示知识体系演进脉络和引领学科创新发展具有重要理论价值与现实意义。[方法/过程]以2019—2024年图情领域CSSCI来源期刊文献数据为研究对象,在采用超图谱聚类和TF-IDF对文献组别及研究方向进行初步挖掘基础上,利用动态主题模型细粒化剖析不同组别文献研究主题及演化路径,进而揭示各研究主题发展趋势和演进特征。[结果/结论]图情领域文献研究方向呈现广泛性和多元性特征,可聚类划分为在线社交与健康信息行为、国家情报与战略竞争、开放科学与数据政策治理等9个方向。通过动态主题建模,提炼出40个研究主题,其中,舆情传播演化、国家应急情报与战略决策、学术影响力评价、社交媒体与隐私感知、技术识别分析等主题的关注度较高,且不同研究方向的主题间存在内在联系与交叉点。从主题演化角度看,热点主题紧密关联社会发展、技术进步和政策导向,时代性特征突出。融合超图聚类和动态主题建模的研究主题挖掘与演化分析模型,不仅能够有效捕捉知识网络中复杂的高阶语义结构,还能实现对各研究主题的细粒化剖析。[局限]仅采用超图谱聚类对文献组别进行区分,且动态主题建模在捕捉主题长短期演化特征方面存在不足,可在后续研究中进一步探究。 展开更多
关键词 对偶超图 超图聚类 动态主题建模 主题挖掘 演化路径
原文传递
基于文献计量学的蛹虫草研究热点可视化分析
15
作者 油伦贺 刘金坤 +3 位作者 刘冰 谭钤文 刘宇 王建瑞 《微生物学通报》 北大核心 2025年第1期410-425,共16页
【背景】蛹虫草(Cordyceps militaris)作为虫草科虫草属的模式种一直受到全球研究人员的关注。【目的】多维度探讨蛹虫草研究的当前状况与未来趋势。【方法】基于Web of Science核心合集数据库对2005-2024年间有关蛹虫草的SCI核心集论... 【背景】蛹虫草(Cordyceps militaris)作为虫草科虫草属的模式种一直受到全球研究人员的关注。【目的】多维度探讨蛹虫草研究的当前状况与未来趋势。【方法】基于Web of Science核心合集数据库对2005-2024年间有关蛹虫草的SCI核心集论文进行了全面的数据搜集、整理、分析和可视化处理。【结果】过去20年里,蛹虫草研究已从单一的培养特性拓展至跨学科领域,尤其是其活性成分和药理学效应已成为学术界关注的焦点。文献计量分析结果显示,2005-2009年间,主要研究方向为蛹虫草的人工培养。2010-2014年间,研究主题扩展至子实体相关的药理学,研究地位显著提升。2015年后,研究主题进一步多元化,涵盖了优化、表达、氧化应激、真菌、抗氧化剂、化学成分、NF-κB、细胞周期停滞等领域,显示了从培养技术向深入的生物学和医学机制研究的转变。【结论】蛹虫草的研究经历了从传统培养研究向多学科交叉的深刻变革,未来研究将更加侧重于活性成分的功能机制、生物活性物质的药理作用及潜在的医学应用,为蛹虫草的深入研究和开发利用提供科学依据。 展开更多
关键词 文献计量学 知识图谱 关键词共现 主题聚类分析
原文传递
基于k-means与CNN_BiLSTM的电商舆情分析模型
16
作者 刘连玉 刁雅静 《江苏科技大学学报(自然科学版)》 2025年第3期59-65,共7页
为了克服舆情分析模型在电商平台存在的问题,以某舆情事件为研究对象,提出一种融合聚类模型和情感分析的k-means-Attention-CNN_BiLSTM模型框架.运用网络爬虫方法获取事件博文和评论数据,采用k均值聚类(k-means)实现热点话题检测与主题... 为了克服舆情分析模型在电商平台存在的问题,以某舆情事件为研究对象,提出一种融合聚类模型和情感分析的k-means-Attention-CNN_BiLSTM模型框架.运用网络爬虫方法获取事件博文和评论数据,采用k均值聚类(k-means)实现热点话题检测与主题热度计算.基于注意力(attention)机制和融合卷积神经网络(convolutional neural network,CNN)和双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)对文本评论进行情感分析.研究结果表明,融合模型框架预测的准确率相较于传统CNN、BiLSTM方法分别提高了3.76%和1.92%,能够准确反映电商舆情中的热点话题与情感演化趋势. 展开更多
关键词 K-MEANS聚类 主题热度 情感分析 电商舆情 注意力机制
在线阅读 下载PDF
基于知识图谱的绿色金融发展研究:热点、趋势与前沿
17
作者 穆澜 徐志仓 张倩 《未来与发展》 2025年第9期13-20,12,共9页
挖掘绿色金融领域当前的研究状态、研究议题和研究趋势,能够为推进绿色金融更高质效的发展提供统计支撑。选择CNKI和WOS核心合集数据库中以绿色金融为主题的文献,借助CiteSpace文献计量统计软件,依次展开发文数量、发文作者合作网络、... 挖掘绿色金融领域当前的研究状态、研究议题和研究趋势,能够为推进绿色金融更高质效的发展提供统计支撑。选择CNKI和WOS核心合集数据库中以绿色金融为主题的文献,借助CiteSpace文献计量统计软件,依次展开发文数量、发文作者合作网络、发文机构与国家合作网络、关键词聚类、关键词突现等知识图谱分析,发现当前绿色金融研究学者众多、成果优质丰富,但学者间的合作关系有待加强。研究议题侧重绿色金融工具、绿色金融与绿色产业、绿色金融与经济增长等,且近年来围绕绿色金融与环境规制、绿色金融与技术创新的研究趋势更加明显。 展开更多
关键词 绿色金融 CiteSpace可视化分析软件 研究议题 聚类与突现
在线阅读 下载PDF
基于BERTopic模型的用户层次化需求及动机分析--以抖音平台为例 被引量:41
18
作者 刘洋 柳卓心 +1 位作者 金昊 陈飞扬 《情报杂志》 CSSCI 北大核心 2023年第12期159-167,共9页
[研究目的]在分析短视频平台的用户生成内容构成,提炼其在时间演化与社会事件影响下表现出的构造与演化规律,挖掘短视频用户的内在行为需要,探讨其用户参与行为的潜在动机因素。[研究方法]以抖音平台237万条短视频发布数据作为研究样本... [研究目的]在分析短视频平台的用户生成内容构成,提炼其在时间演化与社会事件影响下表现出的构造与演化规律,挖掘短视频用户的内在行为需要,探讨其用户参与行为的潜在动机因素。[研究方法]以抖音平台237万条短视频发布数据作为研究样本,使用BERTopic模型实现主题聚类,总结用户一定时间内的话题的关注情况,并在互联网视角下结合马斯洛需求层次理论,揭示用户参与行为背后需求与动机。[研究结论]首先,用户的需求关注度由高至低的排列顺序为尊重需求、安全需求、社交需求、自我实现需求与生理需求,且该关注顺序能在日常的时间推移中保持稳定;其次,用户对于社会事件有着较高的讨论度,相关事件能够显著影响时段内用户的视频内容构成,但对用户的关注程度分布影响微弱;最后,用户在发布视频过程中和点赞互动的关注热点存在差异。用户在发布视频时更关注尊重层次需求,而在浏览互动时,自我实现层次需求受到的关注程度显著提升。 展开更多
关键词 短视频 用户需求 用户行为 主题聚类 主题演化 BERtopic模型 马斯洛需求理论
在线阅读 下载PDF
基于半监督学习的历史古籍事件主题识别模型研究
19
作者 武兆迪 王昊 裘靖文 《图书馆杂志》 北大核心 2025年第8期67-80,共14页
如何从大规模文本中抽取和泛化事件已成为当前古籍事件研究的一个关键问题。针对古籍文本和古代汉语的特点,本文构建了一种半监督事件聚类模型USKm,该模型利用USIF表征古文历史事件,基于约束距离集成,将邻近区域点纳入数据点类簇的二次... 如何从大规模文本中抽取和泛化事件已成为当前古籍事件研究的一个关键问题。针对古籍文本和古代汉语的特点,本文构建了一种半监督事件聚类模型USKm,该模型利用USIF表征古文历史事件,基于约束距离集成,将邻近区域点纳入数据点类簇的二次决策过程对事件进行聚类从而实现主题识别。以《后汉书》为研究对象,笔者对比了USKm与传统聚类模型的应用效果,发现USKm性能更优。笔者可视化东汉政权存续期间时间分布,绘制历史事件人物关系图谱,并解析背后的历史现象探讨东汉政权的发展规律。USKm模型通过半监督训练,提高了事件特征的识别准确性和聚类效果,同时本文对聚类结果数据加工整理与可视化,从数字人文视阈为人文研究者提供新的研究思路和角度。 展开更多
关键词 事件聚类 数字人文 古代典籍 半监督学习 主题识别
原文传递
基于动态主题情感模型的文本聚类算法
20
作者 胡萍 《吉林大学学报(理学版)》 北大核心 2025年第2期528-536,共9页
针对目前已有的相关主题模型中,对大众情感因素考虑不足,难以精准挖掘,同时对社交文本的实时动态演化考虑弱化了模型聚类能力的问题,通过在模型中增加情感层以提取社交文本情感极性特征,并引入先验分布函数,提出一种基于动态主题情感模... 针对目前已有的相关主题模型中,对大众情感因素考虑不足,难以精准挖掘,同时对社交文本的实时动态演化考虑弱化了模型聚类能力的问题,通过在模型中增加情感层以提取社交文本情感极性特征,并引入先验分布函数,提出一种基于动态主题情感模型的文本聚类算法.利用真实新冠疫情Twitter文本数据集进行实验,实验结果表明,该模型的性能优于基线模型,提高了情感特征区分度,使文本主题与对应的情感极性联合生成时间节点,进而使模型有处理时间演化的能力. 展开更多
关键词 动态主题情感模型 文本挖掘 情感标签 时间戳 文本聚类 困惑度
在线阅读 下载PDF
上一页 1 2 29 下一页 到第
使用帮助 返回顶部