期刊文献+
共找到54篇文章
< 1 2 3 >
每页显示 20 50 100
督查表彰新模式:国务院大督查对地方政府创新的影响——基于典型经验做法的BTM分析 被引量:1
1
作者 刘杨 马亮 《东北大学学报(社会科学版)》 北大核心 2025年第4期63-76,共14页
现有的“自主探索”“设计试验”和“请示授权”模式已难以全面阐释地方政府创新。在探索如何促进地方政府创新的过程中,国务院大督查通过制度化和常态化的督查实践,催生了督查表彰这一地方政府创新的新模式。基于针对短文本的BTM模型对... 现有的“自主探索”“设计试验”和“请示授权”模式已难以全面阐释地方政府创新。在探索如何促进地方政府创新的过程中,国务院大督查通过制度化和常态化的督查实践,催生了督查表彰这一地方政府创新的新模式。基于针对短文本的BTM模型对2015—2022年大督查中通报表扬的地方典型案例进行主题分析,研究发现:督查表彰是地方政府创新的重要模式,激励其在经济增长、产业转型、风险防范和简政放权方面积极创新;创新主题在时间、区域和行政层级维度均呈现显著异质性。这一模式不仅拓展了既有理论框架,系统刻画了新时代地方政府创新的主题分布和演化特征,还为推进政府治理体系和治理能力现代化提供了实证支持和理论指引。 展开更多
关键词 督查表彰 政府创新 央地互动 btm
在线阅读 下载PDF
基于BTM的微博舆情热点发现 被引量:30
2
作者 王亚民 胡悦 《情报杂志》 CSSCI 北大核心 2016年第11期119-124,140,共7页
[目的/意义]作为一种新兴的社交新闻媒体,近年来,微博在许多热点事件的发布和传播中发挥了重要作用。但由于其文本的特殊性,传统方法不能有效地对其进行建模发现热点话题。因此,如何高效、准确地从微博数据中发现并提取有意义的热点信... [目的/意义]作为一种新兴的社交新闻媒体,近年来,微博在许多热点事件的发布和传播中发挥了重要作用。但由于其文本的特殊性,传统方法不能有效地对其进行建模发现热点话题。因此,如何高效、准确地从微博数据中发现并提取有意义的热点信息是一个很有价值的研究课题。[方法/过程]提出一种基于BTM模型的微博舆情热点发现方法。首先,对微博文本采用BTM建模,改进TF-IDF权重计算算法,以适应微博短文本的特征。并将BTM建模结果与改进的TF-IDF权重算法结合对微博文本进行特征提取及相似性度量,然后采用K-means聚类方法发现热点话题。[结果/结论]通过对新浪微博数据集的对比实验及结果分析验证了本方法的有效性。本方法能够有效解决传统模型在文本建模中所面临的高维度和稀疏性问题,显著改善热点话题的发现质量。 展开更多
关键词 词对主题模型 短文本 微博舆情 相似性度量
在线阅读 下载PDF
基于Biterm主题模型的无监督微博情感倾向性分析 被引量:13
3
作者 张佳明 王波 +1 位作者 唐浩浩 李天彩 《计算机工程》 CAS CSCD 北大核心 2015年第7期219-223,229,共6页
基于传统主题模型的无监督情感倾向性分析方法不能较好地解决微博语料特征稀疏的问题。为此,提出一种新的无监督微博情感倾向性分析方法。对语料进行预处理并统计语料中的共现词对,利用BTM模型挖掘文档中的隐含主题,通过已有情感词典分... 基于传统主题模型的无监督情感倾向性分析方法不能较好地解决微博语料特征稀疏的问题。为此,提出一种新的无监督微博情感倾向性分析方法。对语料进行预处理并统计语料中的共现词对,利用BTM模型挖掘文档中的隐含主题,通过已有情感词典分析隐含主题的情感分布,并实现整条微博的情感倾向性分析。在NLP&CC2012语料上进行测试,结果表明,该方法能够有效识别微博的情感倾向,平均F1值比传统主题模型方法提高15%。 展开更多
关键词 微博 短文本 情感倾向性分析 无监督 biterm主题模型
在线阅读 下载PDF
基于BTM和加权K-Means的微博话题发现 被引量:2
4
作者 陈凤 蒙祖强 《广西师范大学学报(自然科学版)》 CAS 北大核心 2019年第3期71-78,共8页
为适应微博数据的短文本、低词频、缺乏语义表达等特殊性,提高话题发现的准确性,利于用户从大量微博数据中获取有用信息,本文提出一种基于BTM和加权K-Means方法实现微博话题发现。首先,针对微博数据稀疏性的问题,采用BTM模型对微博中的... 为适应微博数据的短文本、低词频、缺乏语义表达等特殊性,提高话题发现的准确性,利于用户从大量微博数据中获取有用信息,本文提出一种基于BTM和加权K-Means方法实现微博话题发现。首先,针对微博数据稀疏性的问题,采用BTM模型对微博中的短文本进行建模,获得话题词;然后针对传统K-Means算法本身的缺陷,提出加权K-Means算法实现微博话题发现;最后实验验证本文的方法,实验结果表明,BTM和加权K-Means方法解决了微博数据高维度和稀疏性的问题,提高了热点话题发现的准确性和有效性。 展开更多
关键词 btm模型 加权K-Means 微博数据 话题发现
在线阅读 下载PDF
基于PBTM的海量微博主题发现 被引量:2
5
作者 郑涛 王路路 +1 位作者 杨冰 姬东鸿 《计算机应用研究》 CSCD 北大核心 2015年第3期768-770,785,共4页
BTM(biterm topic model)能较好挖掘出微博主题。但面对海量微博,BTM无法胜任,因为BTM挖掘主题速度过慢。基于此,提出一种基于吉布斯采样本主机biterm元组来更新主题单词全局矩阵的分布式的BTM模型PBTM(parallel biterm topic model),... BTM(biterm topic model)能较好挖掘出微博主题。但面对海量微博,BTM无法胜任,因为BTM挖掘主题速度过慢。基于此,提出一种基于吉布斯采样本主机biterm元组来更新主题单词全局矩阵的分布式的BTM模型PBTM(parallel biterm topic model),通过多台主机同时对语料库进行本主机biterm吉布斯采样,然后每次迭代后更新全局主题单词矩阵,直到采样收敛。通过MPI集群实现PBTM模型,实验结果表明,PBTM主题挖掘微博文本速度较BTM大大加快。 展开更多
关键词 主题模型 主题发现 Pbtm 吉布斯采样 分布式计算
暂未订购
基于BTM模型的教育舆情热点主题演化研究——以研究生招生考试为例 被引量:14
6
作者 王曦 陈铎 《情报科学》 CSSCI 北大核心 2022年第7期55-60,77,共7页
【目的/意义】为把握招生考试过程中网络舆论的基本特点和发展规律,及时发现潜在舆情隐患,本研究对考研复试期间国内主流网络社交平台的相关话题讨论文本进行了主题演化研究。【方法/过程】使用Python采集数据,BTM模型对数据中的词对建... 【目的/意义】为把握招生考试过程中网络舆论的基本特点和发展规律,及时发现潜在舆情隐患,本研究对考研复试期间国内主流网络社交平台的相关话题讨论文本进行了主题演化研究。【方法/过程】使用Python采集数据,BTM模型对数据中的词对建模来进行主题挖掘和聚类,对各主题强度和内容随时间的演化进行分析。【结果/结论】主题强度和内容演化结果显示,公众的关注点与招生录取进程密切相关,并呈现一定的周期和规律性,能够做为网络舆情预测的依据。【创新/局限】BTM模型克服了短文本语料中的数据稀疏问题,能够有效进行主题挖掘,但同时也存在语义理解不足,需要人工辅助解读的问题,需要在后续研究中进一步改进。 展开更多
关键词 教育舆情 考研 btm模型 文本挖掘 主题演化
原文传递
BTM-BERT模型在民航机务维修安全隐患自动分类中的应用 被引量:1
7
作者 陈芳 张亚博 《安全与环境学报》 CAS CSCD 北大核心 2024年第11期4366-4373,共8页
为界定民航机务维修安全隐患类别,实现安全隐患数据的自动分类,首先,利用构建的机务维修停用词库对安全隐患记录语料进行预处理。其次,运用词对主题模型(Biterm Topic Model,BTM)提取主题和关键词,确定了“员工未按规定对工作现场进行... 为界定民航机务维修安全隐患类别,实现安全隐患数据的自动分类,首先,利用构建的机务维修停用词库对安全隐患记录语料进行预处理。其次,运用词对主题模型(Biterm Topic Model,BTM)提取主题和关键词,确定了“员工未按规定对工作现场进行监管”等12类安全隐患。最后,根据BTM主题模型标注的数据集对算法进行微调,构建了基于变换器的双向编码(Bidirectional Encoder Representations from Transformers,BERT)算法的机务维修安全隐患记录自动分类模型,并与传统的分类算法进行对比。结果表明:所构建的模型可以实现民航机务维修安全隐患自动分类,其效果远高于传统机器学习支持向量机算法的效果,构建的分类模型的精确率、召回率和F 1较文本卷积神经网络算法分别提升了0.12、0.14和0.14,总体准确率达到了93%。 展开更多
关键词 安全工程 机务维修 词对主题模型(btm) 基于变换器的双向编码(BERT) 安全隐患 文本分类
原文传递
基于改进BTM模型的医疗服务质量因素识别 被引量:8
8
作者 高慧颖 公孟秋 于思佳 《北京理工大学学报》 EI CAS CSCD 北大核心 2022年第11期1167-1174,共8页
针对在线医疗评论文本长度短、语义稀疏的特点,提出一种基于词共现分析的在线医疗评论主题挖掘模型。应用于短文本的BTM主题模型在词对的选择过程中缺少对词语语义相关性的考虑,通过引入词共现分析计算语义相关性,设定阈值筛选参与训练... 针对在线医疗评论文本长度短、语义稀疏的特点,提出一种基于词共现分析的在线医疗评论主题挖掘模型。应用于短文本的BTM主题模型在词对的选择过程中缺少对词语语义相关性的考虑,通过引入词共现分析计算语义相关性,设定阈值筛选参与训练的词对,进行医疗评论主题挖掘,基于主题一致性TC值和JS散度对比改进的COA-BTM主题模型与传统的BTM主题模型和LDA主题模型在医疗评论主题挖掘中的效果。实验结果表明改进的COA-BTM模型在主题一致性和主题质量上均具有更好的效果,证明了其在在线医疗评论挖掘领域的有效性。基于改进算法在医疗评论主题挖掘中的应用和SERVQUAL模型,更全面地识别了医疗服务质量影响因素。 展开更多
关键词 主题模型 在线医疗评论 词共现分析 COA-btm模型
在线阅读 下载PDF
基于BTM图卷积网络的短文本分类方法 被引量:6
9
作者 郑诚 董春阳 黄夏炎 《计算机工程与应用》 CSCD 北大核心 2021年第4期155-160,共6页
由于短文本长度较短,在分类时会面临数据稀疏和语义模糊等问题。提出新型图卷积网络BTM_GCN,该网络利用双项主题模型(Biterm Topic Model,BTM)在短文本数据集上训练出固定数量的文档级潜在主题,并作为一种节点嵌入到文本异构图中,再与... 由于短文本长度较短,在分类时会面临数据稀疏和语义模糊等问题。提出新型图卷积网络BTM_GCN,该网络利用双项主题模型(Biterm Topic Model,BTM)在短文本数据集上训练出固定数量的文档级潜在主题,并作为一种节点嵌入到文本异构图中,再与异构图中的文档节点进行连接,最后利用图卷积网络来捕获文档、词与主题节点之间的高阶邻域信息,从而丰富文档节点的语义信息,缓解短文本语义模糊的问题。在三个英文短文本数据集上的实验结果表明,该方法相比基准模型具有较优的分类效果。 展开更多
关键词 短文本分类 图卷积网络 btm主题模型
在线阅读 下载PDF
遗忘曲线和BTM词频双层加权微博用户画像 被引量:4
10
作者 吴迪 马文莉 杨利君 《计算机工程与设计》 北大核心 2023年第12期3800-3808,共9页
针对微博短文本具有时效性和建模中频词缺失的问题,提出一种遗忘曲线和BTM词频双层加权微博用户画像方法。通过计算词条的时间权重和提高中频词的词频权重,获取双层加权的用户兴趣主题词。利用遗忘曲线拟合时间函数,计算微博词条的时间... 针对微博短文本具有时效性和建模中频词缺失的问题,提出一种遗忘曲线和BTM词频双层加权微博用户画像方法。通过计算词条的时间权重和提高中频词的词频权重,获取双层加权的用户兴趣主题词。利用遗忘曲线拟合时间函数,计算微博词条的时间权重;将重新计算的词频特征作为Gibbs采样的随机值,提出一种改进的词频加权BTM主题模型,提高中频词的词频权重;提出一种微博用户行为影响力计算方法,构建热点话题下的用户画像。实验结果表明,该方法与BTM、SL-LDA、LDA方法相比,在不同时间片PMI-score指标性能均最优,能够准确挖掘不同时间片的各主题词,构建热点话题下用户兴趣主题词词云,准确展示热点话题下的用户兴趣。 展开更多
关键词 微博 用户画像 双层加权 遗忘曲线 时间函数 词对主题模型 行为影响力
在线阅读 下载PDF
情感极性和影响函数的OBTM弹幕主题演化
11
作者 吴迪 黄竹韵 +2 位作者 生龙 张梦甜 贾耀清 《计算机工程与设计》 北大核心 2021年第10期2956-2961,共6页
针对主题模型不能充分考虑情感极性信息和衰减因子设定单一的问题,提出情感极性和影响函数的OBTM弹幕主题演化方法。提出基于改进负采样的word2vec词向量模型,对弹幕词语的情感极性进行标注;设计影响函数,反映离散时间中文本主题的历史... 针对主题模型不能充分考虑情感极性信息和衰减因子设定单一的问题,提出情感极性和影响函数的OBTM弹幕主题演化方法。提出基于改进负采样的word2vec词向量模型,对弹幕词语的情感极性进行标注;设计影响函数,反映离散时间中文本主题的历史影响程度;利用情感极性特征和影响函数改进OBTM模型,用于弹幕主题演化的分析。实验结果表明,改进的OBTM可以有效优化主题演化效果,能够扩展弹幕在主题情感极性演化方面的应用。 展开更多
关键词 弹幕 主题演化 情感极性 在线双词主题模型 word2vec词向量模型
在线阅读 下载PDF
航空器维修安全风险因素关联性分析
12
作者 陈勇刚 刘太伟 +4 位作者 刘东岭 刘康妮 王帅 龙益柯 董勤 《安全与环境学报》 北大核心 2026年第3期834-842,共9页
为充分挖掘机务维修安全信息的风险因素关联关系,提出了一种融合主题建模和改进频繁模式增长(Frequent Pattern Growth,FP-Growth)算法的机务维修风险因素关联分析方法。以机务维修安全信息为研究对象,基于词对主题模型(Biterm Topic Mo... 为充分挖掘机务维修安全信息的风险因素关联关系,提出了一种融合主题建模和改进频繁模式增长(Frequent Pattern Growth,FP-Growth)算法的机务维修风险因素关联分析方法。以机务维修安全信息为研究对象,基于词对主题模型(Biterm Topic Model,BTM)获得核心风险类型,采用改进FP-Growth算法挖掘核心风险因素的关联性,通过语言技术平台抽取强关联风险信息三元组,依托Neo4j平台构建机务维修风险知识图谱。结果表明:利用主题挖掘得到除防冰规范和视频记录管理等14种核心风险;揭示了B_(1)、B_(2)和B_(3)地区工作记录规范和维修工具管理等突出风险,确定了每个风险主题下的关键风险因素;改进算法有效提高了分析效率且计算精度提升至0.92以上。研究为机务维修风险管控工作提供了高效、准确的决策支持。 展开更多
关键词 安全工程 机务维修 词对主题模型 关联规则 知识图谱
原文传递
基于双词语义扩展的Biterm主题模型 被引量:4
13
作者 李思宇 谢珺 +2 位作者 邹雪君 续欣莹 冀小平 《计算机工程》 CAS CSCD 北大核心 2019年第1期210-216,共7页
针对Biterm主题模型短文本文档的双词产生过程中词对之间缺乏语义联系的情况,提出一种融入词对语义扩展的Biterm主题模型。考虑双词的语义关系,引入词向量模型。通过训练词向量模型,判断词与词之间的语义距离,并根据语义距离对Biterm主... 针对Biterm主题模型短文本文档的双词产生过程中词对之间缺乏语义联系的情况,提出一种融入词对语义扩展的Biterm主题模型。考虑双词的语义关系,引入词向量模型。通过训练词向量模型,判断词与词之间的语义距离,并根据语义距离对Biterm主题模型进行双词语义扩展。实验结果表明,与现有Biterm主题模型相比,该模型不仅具有较好的短文本主题分类效果,而且双词间的语义关联性能及主题词义聚类性能也得到明显提升。 展开更多
关键词 biterm主题模型 双词 词向量 双词语义 吉布斯采样
在线阅读 下载PDF
基于BTM主题模型的Web服务聚类方法研究 被引量:10
14
作者 陈婷 刘建勋 +1 位作者 曹步清 李润 《计算机工程与科学》 CSCD 北大核心 2018年第10期1737-1745,共9页
针对网络中海量的Web服务聚类时,因其表征数据稀疏而导致使用传统建模方法所获效果不理想的问题,提出了一种基于BTM主题模型的Web服务聚类方法。该方法首先利用BTM学习整个Web服务描述文档集的隐含主题,通过推理得出每篇文档的主题分布... 针对网络中海量的Web服务聚类时,因其表征数据稀疏而导致使用传统建模方法所获效果不理想的问题,提出了一种基于BTM主题模型的Web服务聚类方法。该方法首先利用BTM学习整个Web服务描述文档集的隐含主题,通过推理得出每篇文档的主题分布,然后应用K-Means算法对Web服务进行聚类。通过与LDA、TF-IDF等方法进行对比发现,该方法在聚类纯度、熵和F-Measure指标上均具有更好的效果。实验表明,该方法能够有效解决因Web服务描述所具有的短文本性质而导致的数据稀疏性问题,可显著提高服务聚类效果。 展开更多
关键词 WEB服务 btm主题模型 短文本 Web服务聚类
在线阅读 下载PDF
面向微博热点话题发现的改进BBTM模型研究 被引量:4
15
作者 黄畅 郭文忠 郭昆 《计算机科学与探索》 CSCD 北大核心 2019年第7期1102-1113,共12页
针对目前基于主题模型的微博短文本热点话题发现存在特征稀疏、高维度以及需要人工指定主题数目等问题,提出一种基于改进突发词对主题模型(bursty biterm topic model,BBTM)的热点话题发现方法(hot topic-hot biterm topic model,H-HBTM... 针对目前基于主题模型的微博短文本热点话题发现存在特征稀疏、高维度以及需要人工指定主题数目等问题,提出一种基于改进突发词对主题模型(bursty biterm topic model,BBTM)的热点话题发现方法(hot topic-hot biterm topic model,H-HBTM)。首先,利用词的突发概率进行特征选择,过滤非突发词。其次,结合微博文本的突发特性和传播特性计算微博词对的热值突发概率,将热值突发概率作为BBTM的先验概率。最后,利用基于密度的方法自适应选择BBTM的最优话题数目,确定最优BBTM,实现热点话题发现。在真实微博数据集上的实验表明,H-HBTM可以在不需要预先设定主题数目的情况下,自动发现最优话题模型,并且H-HBTM发现的热点话题的质量高于基于BBTM、词对主题模型以及潜在狄立克雷分配的方法。 展开更多
关键词 热点话题发现 微博 突发词对主题模型(Bbtm) 主题模型
在线阅读 下载PDF
基于词向量和BTM的短文本话题演化分析 被引量:7
16
作者 张佩瑶 刘东苏 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第3期95-101,共7页
【目的】构建一种微博话题演化方法,正确把握话题发展趋势,提高网络舆情预警能力。【方法】使用Skip-gram模型在文本集上训练得到词向量模型,将每一时间片的微博文本输入BTM得到候选主题,在主题维上构造候选主题词向量;利用K-means算法... 【目的】构建一种微博话题演化方法,正确把握话题发展趋势,提高网络舆情预警能力。【方法】使用Skip-gram模型在文本集上训练得到词向量模型,将每一时间片的微博文本输入BTM得到候选主题,在主题维上构造候选主题词向量;利用K-means算法对主题词向量聚类,得到融合后的主题,进而建立文本集在时间片上的话题演化路径。【结果】实验结果表明,本文方法话题抽取F值为75%,对比主题模型提高约10%,证明本方法的可行性。【局限】话题演化的衡量标准不一致,没有对比多种话题演化方法。【结论】本文方法能有效抽取各阶段话题,为网络舆情分析提供有效途径。 展开更多
关键词 btm模型 词向量 话题相似度 话题演化
原文传递
基于PMI与BTM的船舶事故原因文本挖掘 被引量:8
17
作者 于卫红 付飘云 +1 位作者 任月 王庆武 《交通信息与安全》 CSCD 北大核心 2021年第1期35-44,共10页
为了实现从海量的船舶事故调查报告中自动提取出水上交通安全知识,提出了从词语和主题2个层面对船舶事故调查报告进行语义挖掘的方法,并以100份船舶自沉事故调查报告为语料进行具体挖掘。在词语层面,使用PMI算法从事故原因文本中挖掘频... 为了实现从海量的船舶事故调查报告中自动提取出水上交通安全知识,提出了从词语和主题2个层面对船舶事故调查报告进行语义挖掘的方法,并以100份船舶自沉事故调查报告为语料进行具体挖掘。在词语层面,使用PMI算法从事故原因文本中挖掘频繁共现的词语模式,通过文本特征词的共现揭示事故致因要素间的关联。在主题层面,使用BTM算法对事故原因文本进行主题建模,通过主题对数似然、主题一致性评估建模结果的优劣。通过主题建模,对表征自沉事故原因的特征词进行聚类,并根据主题在文档集合中的分布初步量化出每种原因的发生概率。根据使用500组新数据集对主题模型预测能力的测试,所构建的主题模型能够100%识别出领域无关的词并自动忽略;对于语料库中85.6%的词语,所构建的主题模型能够明确地将其归属于代表某一原因的主题;另14.4%的词主题边界不明显,难以将其单独以较大的可能性明确归属到某一主题下。 展开更多
关键词 交通安全 船舶事故调查报告 文本挖掘 主题模型 词共现 PMI算法 btm算法
在线阅读 下载PDF
基于在线Biterm主题模型的舆情新闻事件跟踪 被引量:1
18
作者 马子娟 岳昆 +1 位作者 段亮 赵天资 《计算机工程与应用》 CSCD 北大核心 2022年第22期132-141,共10页
舆情新闻事件跟踪,是舆情监控、热点分析、政策制定等研究和应用的重要基础。针对舆情新闻的稀疏性、敏感性、易演化性、次生性等特点,基于在线Biterm主题模型(online Biterm topic model,DBTM),通过随机坍缩变分贝叶斯(stochastic coll... 舆情新闻事件跟踪,是舆情监控、热点分析、政策制定等研究和应用的重要基础。针对舆情新闻的稀疏性、敏感性、易演化性、次生性等特点,基于在线Biterm主题模型(online Biterm topic model,DBTM),通过随机坍缩变分贝叶斯(stochastic collapsed variational Bayesian inference,SCVB0)算法更新参数,提出面向舆情新闻事件监控的主题模型MBTM(monitor Biterm topic model),利用该模型检测初期事件主题,跟踪后续新闻所属的主题。为了对存在关联关系的事件进行串联,进一步给出事件线索的概念,分别从主题层面和语义层面度量线索关联度,进而针对新闻事件主题生成事件线索。实验结果表明,MBTM模型在大多数指标上均优于OBTM等模型,验证了该方法的有效性和高效性。 展开更多
关键词 舆情新闻事件 事件跟踪 事件线索 在线biterm主题模型
在线阅读 下载PDF
基于卡方特征和BTM融合的短文本分类方法 被引量:1
19
作者 李振兴 王松 《兰州交通大学学报》 CAS 2016年第1期36-41,共6页
针对短文本特征稀疏、上下文依赖而导致的传统文本分类法应用效果不佳的问题,提出一种基于卡方特征和BTM的短文本分类法.首先提取短文本的卡方特征,再利用BTM对短文本建模,获得对应的文档-话题概率特征,最后融合两种特征并基于SVM分类... 针对短文本特征稀疏、上下文依赖而导致的传统文本分类法应用效果不佳的问题,提出一种基于卡方特征和BTM的短文本分类法.首先提取短文本的卡方特征,再利用BTM对短文本建模,获得对应的文档-话题概率特征,最后融合两种特征并基于SVM分类算法实现短文本分类.实验结果表明,相比于常规分类方法,该方法具有较高的Macro-F1值,对短文本的分类具有良好的效果. 展开更多
关键词 短文本分类 卡方特征 话题模型 btm
在线阅读 下载PDF
融合BTM和图论的微博检索模型 被引量:2
20
作者 蔡晨 罗可 《计算机工程与科学》 CSCD 北大核心 2019年第8期1512-1518,共7页
微博数据量庞大且微博文本的字符数少、特征稀疏,为提高检索精度,提出一种融合BTM和图论的微博检索模型,通过词汇语义相关度计算微博文本中带有标签的特征相关度,构建bi-term主题模型,用JSD距离计算映射到该模型中短文本的词对相关度,抽... 微博数据量庞大且微博文本的字符数少、特征稀疏,为提高检索精度,提出一种融合BTM和图论的微博检索模型,通过词汇语义相关度计算微博文本中带有标签的特征相关度,构建bi-term主题模型,用JSD距离计算映射到该模型中短文本的词对相关度,抽取CN-DBpedia中实体及图结构,再使用SimRank算法计算图结构中实体间的相关度。综上3种相关度为该模型最终相关度。最后使用新浪微博数据集进行检索实验,实验结果表明:对比于融合隐含狄利克雷分布算法与图论的检索模型和基于开放数据关联和图论方法系统模型,新模型在MAP、准确率和召回率上性能有明显提高,说明该模型具有较优的检索性能。 展开更多
关键词 微博 短文本 相似度计算 btm 图论 主题模型
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部