期刊文献+
共找到75篇文章
< 1 2 4 >
每页显示 20 50 100
用于多标签分类的改进Labeled LDA模型 被引量:12
1
作者 江雨燕 李平 王清 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期425-432,共8页
概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言... 概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言处理等领域的重点研究方向.本文通过对隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)及其扩展模型的研究,提出一种适用于文档多标签判定的改进Labeled LDA模型.模型中的标记被映射为多个主题的组合,其中包含若干个独享的主题和共享主题.在文档类别判定过程中通过联合独享主题和共享主题来对类别进行预测.为了验证算法的有效性本文将提出的模型分别与PLDA模型及其他非主题模型进行了对比.实验结果表明,改进LabeledLDA模型能够有效解决PLDA模型无法有效分析类别标记之间共享主题的问题,具有明显优于PLDA和其他非主题模型的多标签判定能力. 展开更多
关键词 主题模型 隐含狄利克雷分配 多标签分类 共享主题
在线阅读 下载PDF
Thread Labeling for News Event
2
作者 闫泽华 李芳 《Journal of Shanghai Jiaotong university(Science)》 EI 2013年第4期418-424,共7页
Automatic thread labeling for news events can help people know different aspects of a news event. In this paper, we present a method to label threads of a news event. We use latent Dirichlet allocation (LDA) topic mod... Automatic thread labeling for news events can help people know different aspects of a news event. In this paper, we present a method to label threads of a news event. We use latent Dirichlet allocation (LDA) topic model to extract news threads from news corpus. Our method first selects the thread words subset then extracts phrases based on co-occurrence calculation. The extracted phrase is then used as a label of a news thread. Experimental results show that about 60% of generated labels visualize the meaningful aspects of a news event. These labels can help people fast to capture many different aspects of a news event. 展开更多
关键词 news event topic labeling latent Dirichlet allocation (LDA)
原文传递
基于Labeled LDA主题模型的医学文献自动分类法 被引量:5
3
作者 宫小翠 安新颖 单连慧 《中华医学图书情报杂志》 CAS 2018年第10期53-58,共6页
提出了一种基于Labeled LDA主题模型的医学文献自动分类法。以10个医学领域的研究文献为案例,通过语料库的设置及参数设置调整模型为最佳,与SVM方法进行对比实验。结果显示,无论是准确率还是召回率,基于Labeled LDA主题模型的自动分类... 提出了一种基于Labeled LDA主题模型的医学文献自动分类法。以10个医学领域的研究文献为案例,通过语料库的设置及参数设置调整模型为最佳,与SVM方法进行对比实验。结果显示,无论是准确率还是召回率,基于Labeled LDA主题模型的自动分类法均比SVM法高出7.00%左右,表明基于Labeled LDA主题模型的医学文献自动分类法具有较好的医学领域文本分类效果。 展开更多
关键词 labeled LDA 主题模型 自动分类 SVM
在线阅读 下载PDF
^(18)F海藻糖-PET-CT技术或将为结核病临床研究带来革命性改变 被引量:1
4
作者 张培泽 高谦 邓国防 《中国防痨杂志》 北大核心 2025年第3期262-265,共4页
目前,结核病临床疗效评价依赖于传统的细菌学及影像学手段,难以满足临床需要。近期,Khan等报告了使用^(18)F海藻糖(2-[^(18)F]Fluoro-2-deoxy-trehalose,[^(18)F]FDT)标记体内活性结核分枝杆菌并通过PET-CT成像的技术。该技术使用[^(18)... 目前,结核病临床疗效评价依赖于传统的细菌学及影像学手段,难以满足临床需要。近期,Khan等报告了使用^(18)F海藻糖(2-[^(18)F]Fluoro-2-deoxy-trehalose,[^(18)F]FDT)标记体内活性结核分枝杆菌并通过PET-CT成像的技术。该技术使用[^(18)F]FDT实现了非人类的灵长类动物体内活性结核分枝杆菌的成像,并通过抗结核治疗前后[^(18)F]FDT摄取率的变化反映结核病的治疗疗效;而且,[^(18)F]FDT是主要经肾脏排泄的一种安全性良好的示踪剂。笔者认为,该技术的开发可能在结核病治疗终点判断、活动性结核病鉴别诊断、药物疗效判断及抗结核新药和疫苗研发等领域具有广阔的应用前景。本文中,笔者将该技术的成像原理、动物模型的研究结果作简要介绍,并探讨其在结核病临床研究中的应用场景,以供同行参考。 展开更多
关键词 结核 海藻糖 同位素标记 正电子发射断层显像术 综述文献(主题)
暂未订购
基于改进标签传播算法的舆情社交网络社区发现 被引量:1
5
作者 钱晓东 王卓 《计算机应用研究》 北大核心 2025年第1期48-55,共8页
通过改进的标签传播算法研究了舆情社交网络中的社交主题发现。针对传统算法容易陷入局部最优的问题,依据节点间相似度选择标签传播时的邻居节点;针对传统算法标签更新时的随机性问题,通过结合舆论动力学模型HK的观点交互过程,依据节点... 通过改进的标签传播算法研究了舆情社交网络中的社交主题发现。针对传统算法容易陷入局部最优的问题,依据节点间相似度选择标签传播时的邻居节点;针对传统算法标签更新时的随机性问题,通过结合舆论动力学模型HK的观点交互过程,依据节点影响力的大小更新标签。实验结果表明,该方法在最好情况下(k=0.9)相较于原算法,在稳定性和模块度指标两方面分别提高了31%和78%,并且优于其他几种改进算法。由此可见,该算法相较于原算法及其他改进算法在舆情社交网络的主题社区发现中表现更好。 展开更多
关键词 标签传播算法 舆情社交网络 HK模型 主题社区发现
在线阅读 下载PDF
基于思维链和语义解耦的层次化主题模型
6
作者 王志华 李旸 +1 位作者 李德玉 王素格 《模式识别与人工智能》 北大核心 2025年第7期613-626,共14页
层次主题模型可以挖掘文档中的隐含主题,建模主题间的层次结构关系,为数据治理、信息检索、内容分类和知识管理等应用提供技术支持.文中提出基于思维链和语义解耦的层次化主题模型.首先,建立基于思维链的层次主题生成模块,设计层次化主... 层次主题模型可以挖掘文档中的隐含主题,建模主题间的层次结构关系,为数据治理、信息检索、内容分类和知识管理等应用提供技术支持.文中提出基于思维链和语义解耦的层次化主题模型.首先,建立基于思维链的层次主题生成模块,设计层次化主题生成思维链,指导大语言模型(Large Language Model,LLM)生成初步的主题层次结构.然后,引入基于LLM的主题相似判别机制,生成精炼的主题,并利用样例指导LLM实现主题合并,提升生成主题的质量.最后,建立基于传输规划和语义解耦的主题层次优化模块,将初始层次主题结构作为下游建模的主题先验,构建主题关键词、文档主题分布和主题距离,并将主题层次关系建模为最优运输问题,结合上下层主题关键词进行父子主题解耦,优化主题层次结构.在NeurIPS、ACL、20 Newsgroups等涵盖新闻与学术论文的多个标准公开数据集上的实验表明,文中模型在主题质量指标和层次化指标上均取得较优值. 展开更多
关键词 层次主题模型 标签自动生成 思维链 大语言模型(LLM) 提示学习 语义解耦
在线阅读 下载PDF
结合标签混淆的中文文本分类数据增强技术 被引量:1
7
作者 孙海涛 林佳瑜 +1 位作者 梁祖红 郭洁 《计算机应用》 北大核心 2025年第4期1113-1119,共7页
传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标... 传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标签混淆的数据增强(LCDA)技术,从文本和标签这2个基本方面入手,为数据提供全面的强化。在文本方面,通过对文本进行标点符号随机插入和替换以及句末标点符号补齐等增强,在保留全部文本信息和顺序的同时增加文本的多样性;在标签方面,采用标签混淆方法生成模拟标签分布替代传统的one-hot标签分布,以更好地反映实例和标签与标签之间的关系。在THUCNews(TsingHua University Chinese News)和Toutiao这2个中文新闻数据集构建的小样本数据集上分别结合TextCNN、TextRNN、BERT(Bidirectional Encoder Representations from Transformers)和RoBERTa-CNN(Robustly optimized BERT approach Convolutional Neural Network)文本分类模型的实验结果表明,与增强前相比,性能均得到显著提升。其中,在由THUCNews数据集构造的50-THU数据集上,4种模型结合LCDA技术后的准确率相较于增强前分别提高了1.19、6.87、3.21和2.89个百分点;相较于softEDA(Easy Data Augmentation with soft labels)方法增强的模型分别提高了0.78、7.62、1.75和1.28个百分点。通过在文本和标签这2个维度的处理结果可知,LCDA技术能显著提升模型的准确率,在数据量较少的应用场景中表现尤为突出。 展开更多
关键词 数据增强 文本分类 标签混淆 中文新闻主题 预训练模型
在线阅读 下载PDF
加标视角下汉语分裂式话题的生成分析
8
作者 祝赫 《现代外语》 北大核心 2025年第4期465-476,共12页
本文探讨汉语分裂式话题的生成方式及其与其他话题类型之间的关系。本文认为,分裂式话题具有移位特性,但却不是由受事论元“分裂”而来,而是由独立名词短语与受事论元合并,再出于加标需要移位至句首而来。此外,“水果,我最喜欢香蕉”这... 本文探讨汉语分裂式话题的生成方式及其与其他话题类型之间的关系。本文认为,分裂式话题具有移位特性,但却不是由受事论元“分裂”而来,而是由独立名词短语与受事论元合并,再出于加标需要移位至句首而来。此外,“水果,我最喜欢香蕉”这类传统上被分析为基础生成于句首的汉语式话题,其句法特点实际上与分裂式话题相同,也是加标驱动移位的结果。 展开更多
关键词 分裂式话题 汉语 移位特征 加标 汉语式话题
原文传递
基于动态主题情感模型的文本聚类算法
9
作者 胡萍 《吉林大学学报(理学版)》 北大核心 2025年第2期528-536,共9页
针对目前已有的相关主题模型中,对大众情感因素考虑不足,难以精准挖掘,同时对社交文本的实时动态演化考虑弱化了模型聚类能力的问题,通过在模型中增加情感层以提取社交文本情感极性特征,并引入先验分布函数,提出一种基于动态主题情感模... 针对目前已有的相关主题模型中,对大众情感因素考虑不足,难以精准挖掘,同时对社交文本的实时动态演化考虑弱化了模型聚类能力的问题,通过在模型中增加情感层以提取社交文本情感极性特征,并引入先验分布函数,提出一种基于动态主题情感模型的文本聚类算法.利用真实新冠疫情Twitter文本数据集进行实验,实验结果表明,该模型的性能优于基线模型,提高了情感特征区分度,使文本主题与对应的情感极性联合生成时间节点,进而使模型有处理时间演化的能力. 展开更多
关键词 动态主题情感模型 文本挖掘 情感标签 时间戳 文本聚类 困惑度
在线阅读 下载PDF
面向多标签隐性知识的文本数据挖掘算法
10
作者 邓乔夫 李骁娅 郭校君 《沈阳工业大学学报》 北大核心 2025年第5期594-601,共8页
【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知... 【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知识的数据挖掘算法,以提升文本分类的准确性和数据挖掘的效率。【方法】针对多标签文本数据中隐性知识的显性化问题,基于SECI理论对文本信息中的隐性知识进行显性化转换,并利用循环神经网络的短时记忆能力提高隐性知识的转换效率。在此基础上,考虑到文本信息的复杂性,分别从局部特征和全局特征两个维度进行分析,并采用特征融合策略提高数据挖掘的准确性。由于文本信息前后文关联性较强,利用基于长短期记忆网络(LSTM)模型的门控机制,提取文本的上下文信息,以捕捉文本中的序列依赖关系;采用潜在狄利克雷分配(LDA)模型,对文本的主题结构进行建模,从而避免因人工标注标准差异导致的模型训练偏差;通过特征拼接的方式,并结合LDA主题模型和LSTM模型提取的局部及全局特征,以降低特征提取过程中信息丢失的风险;引入主题控制器,通过缩小推理范围,提高文本特征提取的有效性;构建基于高斯解码器的上下文主题层,计算词汇在特定主题下的条件概率矩阵,并利用高斯混合解码器优化文本主题建模,提高文本内容的扩充能力;使用Softmax函数计算各标签的概率,实现多标签文本分类。【结果】对比实验中,使用困惑度作为模型训练的评估指标。结果表明,本文模型的困惑度优于对照组(LDA主题模型与LSTM模型),验证了LDA与LSTM结合的特征拼接策略可有效发挥两种模型的优势。此外,与NVDM、LSTM、LDA和VAETM模型进行对比,以准确率和查全率为评估指标,本文模型在准确率和查全率方面分别提升了5.05%和2.75%,表明其在多标签文本分类任务中的有效性与优越性。【结论】对比实验结果表明,本文模型能够显著提升文本分类的性能,相比LDA主题模型和LSTM模型,在处理多标签文本时表现更优;能够高效挖掘多标签文本数据中的隐性知识,为文本分类、语义分析和信息检索等任务提供了一种高效、精准的解决方案。 展开更多
关键词 多标签文本 深度主题特征提取模型 隐性知识 循环神经网络 LSTM神经网络 LDA主题模型 特征拼接 高斯解码器
在线阅读 下载PDF
基于主题的文本句情感分析 被引量:8
11
作者 王磊 苗夺谦 +1 位作者 张志飞 余鹰 《计算机科学》 CSCD 北大核心 2014年第3期32-35,共4页
近年来,针对互联网在线信息的情感分析已经成为自然语言处理领域的一个研究热点。提出一个基于主题的情感向量空间模型,它将文本的潜在主题特征融入情感模型中,结合情感词典,利用多标签分类算法,对文本中句的情感极性进行分析与研究。... 近年来,针对互联网在线信息的情感分析已经成为自然语言处理领域的一个研究热点。提出一个基于主题的情感向量空间模型,它将文本的潜在主题特征融入情感模型中,结合情感词典,利用多标签分类算法,对文本中句的情感极性进行分析与研究。实验结果表明,基于主题的情感向量空间模型在句的情感极性判断上取得了令人满意的效果。 展开更多
关键词 情感词典 概率主题 多标签分类 情感分析
在线阅读 下载PDF
基于主题标签的在线社区话题发现 被引量:2
12
作者 周新民 陈晓红 +1 位作者 钟敏娟 赵文军 《系统工程》 CSSCI 北大核心 2017年第7期40-46,共7页
面对海量的互联网信息,如何快速有效地提取到用户关心的话题成为网络信息处理的一项基本任务。话题发现实质是无指导的聚类研究,本文引入主题标签概念,针对在线社区数据,提出了主题标签的话题发现算法。该算法以词项为粒度,基于词项的... 面对海量的互联网信息,如何快速有效地提取到用户关心的话题成为网络信息处理的一项基本任务。话题发现实质是无指导的聚类研究,本文引入主题标签概念,针对在线社区数据,提出了主题标签的话题发现算法。该算法以词项为粒度,基于词项的权重和上下文信息获取论坛帖子线索文档的核心词汇,作为文档的主题标签,在向量空间模型的基础上结合主题标签间的相似性进行相关话题的聚类。该方法的提出,一方面获得的主题词项不仅准确,而且具有较强的语义关联性,有效的避免了向量空间模型中容易丢失特征词间语义信息的缺陷;另一方面,与潜在语义模型相比,本文在向量空间模型基础上的话题发现具有更高的效率和更好的聚类质量。 展开更多
关键词 话题发现 主题标签 大数据 上下文分析 向量空间模型
原文传递
基于主题与三支决策的文本情感分析 被引量:11
13
作者 王磊 黄河笑 +1 位作者 吴兵 郑任儿 《计算机科学》 CSCD 北大核心 2015年第6期93-96,共4页
近年来,情感计算已经成为自然语言处理与人工智能领域的一个研究热点,而文本情感分析是情感计算的一个重要组成部分。提出了一个基于主题特征与三支决策理论相融合的多标记情感分类方法。首先采用基于主题的情感识别模型判断句子的多标... 近年来,情感计算已经成为自然语言处理与人工智能领域的一个研究热点,而文本情感分析是情感计算的一个重要组成部分。提出了一个基于主题特征与三支决策理论相融合的多标记情感分类方法。首先采用基于主题的情感识别模型判断句子的多标记情感类别,在此基础上结合三支决策理论,最终实现对文本篇章的多标记情感分类。实验结果表明,该方法在文本篇章的多标记情感类别识别上取得了令人满意的结果。 展开更多
关键词 三支决策 主题特征 多标签分类 情感计算
在线阅读 下载PDF
多维度视角下学科主题演化可视化分析方法研究——以我国图书情报领域大数据研究为例 被引量:75
14
作者 刘自强 王效岳 白如江 《中国图书馆学报》 CSSCI 北大核心 2016年第6期67-84,共18页
探测、识别某学科领域研究主题的演化过程并进行可视化分析,对于掌握研究现状和发展趋势具有重要意义。学科主题演化是一个复杂过程,存在多种变量,如主题强度、结构和内容等,目前研究主要以单一维度进行可视化分析,信息负荷过大,存在感... 探测、识别某学科领域研究主题的演化过程并进行可视化分析,对于掌握研究现状和发展趋势具有重要意义。学科主题演化是一个复杂过程,存在多种变量,如主题强度、结构和内容等,目前研究主要以单一维度进行可视化分析,信息负荷过大,存在感知局限性。本文提出多维度视角下学科主题演化可视化分析方法:通过人工标注方法对关键词进行语义角色分类,利用Fast Unfolding算法识别出具有语义特征的学科主题;利用余弦相似度计算公式计算学科主题相似度判定演化关系;构建多维度学科主题演化分析模型,并设计了三种创新性的科学知识图谱,进行学科主题强度、结构和内容三个维度的可视化分析,通过相互作用可以帮助快速消化、理解信息和精炼分析结果,有效地分析学科主题演化的复杂过程。通过对我国图书情报领域近10年大数据研究的实证分析,证明该方法具有可行性和有效性。 展开更多
关键词 学科主题演化 语义角色标注 社区发现算法 可视化
在线阅读 下载PDF
基于DTM-LPA的突发事件话题演化方法研究——以H7N9微博为例 被引量:12
15
作者 吴小兰 章成志 《图书与情报》 CSSCI 北大核心 2015年第3期9-16,共8页
传统的动态话题模型在高维、稀疏的微博数据上进行话题演化分析时,存在话题数无法确定与结果可解释性差的问题,为此文章提出了一种结合动态话题模型与社区发现技术的话题演化方法,即DTM-LPA方法,即首先利用动态话题模型选取不同时间窗... 传统的动态话题模型在高维、稀疏的微博数据上进行话题演化分析时,存在话题数无法确定与结果可解释性差的问题,为此文章提出了一种结合动态话题模型与社区发现技术的话题演化方法,即DTM-LPA方法,即首先利用动态话题模型选取不同时间窗口中具有较高价值的演化词;然后根据各个时间窗口上的微博构造演化词共现网络;再借用标签传播算法找到演化词之间的社区,并根据演化词社区来追踪各个时间窗口上的话题。最后,文章以新浪微博上H7N9禽流感事件为例进行了实证研究,实验结果表明文章所提出的方法能真实地实现微博话题演化分析。 展开更多
关键词 话题演化 动态话题模型 标签传播算法 社区发现 突发事件
在线阅读 下载PDF
主题模型自动标记方法研究综述 被引量:1
16
作者 何东彬 陶莎 +2 位作者 朱艳红 任延昭 褚云霞 《计算机科学与探索》 CSCD 北大核心 2023年第12期2861-2879,共19页
主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题... 主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题提供了方法和思路。首先对当前最为流行的狄利克雷分配主题模型进行阐述与分析,并根据主题标签三种不同表现形式,基于短语、摘要和图片,将主题标记方法分为三种类型;之后围绕提高主题的可解释性,以生成的不同类型主题标签为线索,对近年来的相关研究成果进行梳理、分析和总结,并对不同标签的适用情境和可用性进行探讨;同时根据不同方法的特点进一步分类,重点对基于词法、子模优化和图排序方法生成摘要主题标签进行定量和定性分析,从学习类型、使用技术和数据来源出发,对比不同方法的差异;最后对主题自动标记研究存在的问题和趋势发展进行讨论,基于深度学习、与情感分析结合并不断拓展主题标记应用的场景,将是未来发展的重点和方向。 展开更多
关键词 主题模型 潜在狄利克雷分配(LDA) 主题标记 主题标签
在线阅读 下载PDF
基于话题标签的微博热点话题演化研究 被引量:15
17
作者 李慧 王丽婷 《情报科学》 CSSCI 北大核心 2019年第1期30-36,共7页
【目的/意义】掌握微博热点话题演化规律有利于让公众了解正确的话题演化方向,也便于有关部门对舆情监控和引导,使得舆论朝着正能量的方向发展。【过程/方法】利用OLDA(On-line Latent Dirichlet Allocation)可以实时地追踪热点话题演... 【目的/意义】掌握微博热点话题演化规律有利于让公众了解正确的话题演化方向,也便于有关部门对舆情监控和引导,使得舆论朝着正能量的方向发展。【过程/方法】利用OLDA(On-line Latent Dirichlet Allocation)可以实时地追踪热点话题演化的优势以及微博的"话题标签"的特性提出适合微博的热点话题演化模型LOLDA(Label On-line Latent Dirichlet Allocation),然后通过Python编程爬取了新浪微博的数据,从话题内容和强度两方面分析了话题演化规律,并对话题内容演化规律进行了可视化展示。【结果/结论】改进的LOLDA模型可以准确地发现微博话题演化规律,通过实验验证了本文提出的模型较传统模型具有更好地泛化能力。 展开更多
关键词 话题演化 话题标签 主题模型 微博话题
原文传递
改进在线词对主题模型的微博热点话题演化 被引量:3
18
作者 吴迪 张梦甜 +2 位作者 生龙 黄竹韵 顾明星 《计算机工程与应用》 CSCD 北大核心 2021年第24期179-184,共6页
话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进... 话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进行改进,提出基于话题标签和先验参数的OBTM模型(Topic Labels and Prior Parameters OBTM,LPOBTM)。根据微博热点话题的话题标签,将微博文本集区分为含话题标签和不含话题标签的两类数据集,并设置不同的文档-主题先验参数;在前一时间片文档-主题概率分布的基础上,借鉴Sigmod函数对所有主题进行强度排名,从而优化当前时间片上主题-词分布的先验参数计算方法。实验结果表明,LPOBTM能够更准确地描述话题的内容演化情况,并且有更低的模型困惑度。 展开更多
关键词 话题标签 先验参数 主题强度排名 在线词对主题模型 微博热点话题演化
在线阅读 下载PDF
面向跨语言文本分类与标签推荐的带标签双语主题模型的研究 被引量:4
19
作者 田明杰 崔荣一 《计算机应用研究》 CSCD 北大核心 2019年第10期2911-2915,共5页
针对日渐丰富的跨语言的文字信息资源与新闻报道及科技文献中的多标签数据,为了挖掘跨语言间的相关性及数据属性间的关联性,提出了带标签双语主题模型,应用于跨语言文本分类与标签的推荐。首先,假设科技文献中的关键词与摘要部分有着内... 针对日渐丰富的跨语言的文字信息资源与新闻报道及科技文献中的多标签数据,为了挖掘跨语言间的相关性及数据属性间的关联性,提出了带标签双语主题模型,应用于跨语言文本分类与标签的推荐。首先,假设科技文献中的关键词与摘要部分有着内容上的相关性,对关键词进行提取,并进行标签化,进而把标签对应于主题模型中的主题,实例化“潜在”的主题;其次,利用带标签双语主题模型对摘要部分进行了训练迭代;最后,对新加入的文档进行跨语言文本分类及标签的推荐。实验结果表明,跨语言文本分类任务中micro-F1达到94.81%,推荐的标签也能较好地体现出语义上的相关性。 展开更多
关键词 主题模型 标签 跨语言文本分类 标签推荐 潜在主题
在线阅读 下载PDF
基于主题模型的矩阵分解推荐算法 被引量:3
20
作者 林晓勇 代苓苓 +1 位作者 史晟辉 李芳 《计算机应用》 CSCD 北大核心 2015年第A02期122-124,127,共4页
针对协同过滤算法存在的数据稀疏和忽视用户喜好多主题的问题,提出了基于主题模型的矩阵分解推荐算法,将标签、主题模型融合到了矩阵分解模型当中。该方法首先根据物品的标签提取物品的主题特征,用物品主题特征向量表达该物品,然后通过... 针对协同过滤算法存在的数据稀疏和忽视用户喜好多主题的问题,提出了基于主题模型的矩阵分解推荐算法,将标签、主题模型融合到了矩阵分解模型当中。该方法首先根据物品的标签提取物品的主题特征,用物品主题特征向量表达该物品,然后通过相似度计算方法得到每个物品的最近邻,最后用基于最近邻的正则化项来改进矩阵分解模型。在实验分析中,选择了不同的主题数进行比较,并且在潜在因子数不同的情况下,对比了该算法和潜在因子模型、正则化奇异值分解推荐算法。实验结果表明,改进算法能够降低预测评分的均方根误差,提高评分预测的准确度。 展开更多
关键词 推荐系统 标签 主题模型 矩阵分解 正则化项
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部