期刊文献+
共找到44篇文章
< 1 2 3 >
每页显示 20 50 100
基于BTM模型的儿童中医药相关政策文本主题热点分析
1
作者 徐海林 刘应科 +4 位作者 黄友良 唐燕 韩爱庆 王铭 王丽 《中国医药导刊》 2025年第4期403-411,共9页
目的:在梳理国家层面2011—2024年发布的儿童中医药政策文件的基础上,通过主题识别,构建研究框架,从政策层面归纳“儿童中医药”的发展重点及趋势,以期为儿童中医药相关主体提供参考。方法:在国务院、国家卫生健康委员会等官方网站检索... 目的:在梳理国家层面2011—2024年发布的儿童中医药政策文件的基础上,通过主题识别,构建研究框架,从政策层面归纳“儿童中医药”的发展重点及趋势,以期为儿童中医药相关主体提供参考。方法:在国务院、国家卫生健康委员会等官方网站检索搜集儿童中医药相关政策,利用BTM模型对所收集到的42份政策文本进行主题提取分析,基于PMI进行频繁共现词提取分析。结果:中医儿科人才队伍建设、中医药行为监管、儿童用药研发、中医儿科建设和中医药儿科联盟、儿童常见病中医药适宜技术推广为儿童中医药相关政策的热点主题。儿童中医药相关政策主题呈现“W”和“M”型两种变化特征。主要的频繁共现词为健康管理(13次)、适宜技术(10次)、重点人群(7次)、妇幼保健机构(7次)和基层医疗卫生(6次)。频繁共现词涵盖中医药特色、技术和医疗机构中医儿科建设3方面内容。结论:目前儿童中医药专项政策数量较少,方案等具有可操作性的具体制度有待完善,儿童中医药相关政策的制定和实施呈现周期性特征,未来需重点关注儿童中医药健康管理。 展开更多
关键词 中医药 儿童 btm模型 政策文本
暂未订购
基于BTM-Kano模型的红色主题文创产品消费者需求研究
2
作者 蒋玉 李玉鹏 《包装工程》 北大核心 2025年第22期140-151,共12页
目的从海量的在线评论中挖掘消费者在网购红色主题文创产品时的需求,探析不同需求要素对消费者满意度的影响差异,以期为企业精准提升产品和服务质量、推动可持续发展提供参考依据。方法以电商平台淘宝(天猫)中的红色主题文创产品在线评... 目的从海量的在线评论中挖掘消费者在网购红色主题文创产品时的需求,探析不同需求要素对消费者满意度的影响差异,以期为企业精准提升产品和服务质量、推动可持续发展提供参考依据。方法以电商平台淘宝(天猫)中的红色主题文创产品在线评论为数据来源,使用词对主题模型BTM对评论进行主题建模,基于主题聚类结果确定消费者对产品和服务的需求要素。结合Kano模型与顾客满意度系数,对各项需求要素进行类型划分与优先级排序。结果研究表明,消费者对红色主题文创产品及相关服务的需求涉及功能、价格、社会以及情感4个维度,涵盖15项需求要素。其中,实用功能、商家服务、文化认同和宣传信度为基本型需求;品质做工、物流速度、外观颜值与产品包装为期望型需求;寓教于乐、活动促销、性价比值、个性彰显和趣味联名是魅力型需求,功能延伸和礼品相赠为无差异型需求。结论企业应在必备型需求完善落实的前提下,进一步提升期望型需求的供给质量,同时积极推进魅力型需求的转化落地,后续还需密切关注无差异型需求的动态演化,并提出了相应的优化策略。 展开更多
关键词 btm KANO模型 红色主题文创产品 消费者需求 在线评论
在线阅读 下载PDF
基于LDA与BTM模型分析中医药治疗小儿厌食症组方规律
3
作者 王永平 梁辉春 +2 位作者 罗佳宁 李玉霞 李四海 《亚太传统医药》 2025年第12期142-147,共6页
目的:运用潜狄利克雷分配模型(LDA)与词对主题模型(BTM)2种文本挖掘技术,挖掘中医药治疗小儿厌食症的组方规律。方法:通过收集并整理大量中医药文献,构建包含治疗小儿厌食症方剂信息的文本数据集。在此基础上分别应用LDA和BTM模型对数... 目的:运用潜狄利克雷分配模型(LDA)与词对主题模型(BTM)2种文本挖掘技术,挖掘中医药治疗小儿厌食症的组方规律。方法:通过收集并整理大量中医药文献,构建包含治疗小儿厌食症方剂信息的文本数据集。在此基础上分别应用LDA和BTM模型对数据集进行主题建模,对小儿厌食症方剂进行挖掘,分析小儿厌食症潜在组方规律。结果:收集小儿厌食症方剂3498首,包含409味中药,临床用药以健脾药、理气药、消食药为主,常用药物为陈皮、茯苓、焦山楂等。结论:中医治疗小儿厌食症以健脾、益气为主,兼顾养胃、疏肝、养阴。运用主题模型分析小儿厌食症方剂组方规律,不仅为中医临床用药提供了参考依据,也为进一步挖掘中医药治疗小儿厌食症的用药规律提供了新的思路和方法。 展开更多
关键词 小儿厌食症 LDA模型 btm模型 中医药 组方规律
原文传递
基于BTM的微博舆情热点发现 被引量:29
4
作者 王亚民 胡悦 《情报杂志》 CSSCI 北大核心 2016年第11期119-124,140,共7页
[目的/意义]作为一种新兴的社交新闻媒体,近年来,微博在许多热点事件的发布和传播中发挥了重要作用。但由于其文本的特殊性,传统方法不能有效地对其进行建模发现热点话题。因此,如何高效、准确地从微博数据中发现并提取有意义的热点信... [目的/意义]作为一种新兴的社交新闻媒体,近年来,微博在许多热点事件的发布和传播中发挥了重要作用。但由于其文本的特殊性,传统方法不能有效地对其进行建模发现热点话题。因此,如何高效、准确地从微博数据中发现并提取有意义的热点信息是一个很有价值的研究课题。[方法/过程]提出一种基于BTM模型的微博舆情热点发现方法。首先,对微博文本采用BTM建模,改进TF-IDF权重计算算法,以适应微博短文本的特征。并将BTM建模结果与改进的TF-IDF权重算法结合对微博文本进行特征提取及相似性度量,然后采用K-means聚类方法发现热点话题。[结果/结论]通过对新浪微博数据集的对比实验及结果分析验证了本方法的有效性。本方法能够有效解决传统模型在文本建模中所面临的高维度和稀疏性问题,显著改善热点话题的发现质量。 展开更多
关键词 词对主题模型 短文本 微博舆情 相似性度量
在线阅读 下载PDF
融合词向量及BTM模型的问题分类方法 被引量:10
5
作者 黄贤英 谢晋 龙姝言 《计算机工程与设计》 北大核心 2019年第2期384-388,共5页
针对传统短文本分类算法对问题分类效果不佳的问题,提出一种融合词向量及BTM模型的问题分类方法。使用Word2vec对问题语料库进行训练得到词向量;对语料进行基于吉布斯采样的BTM主题模型构建,得到文本主题扩展向量;将文本主题扩展向量与... 针对传统短文本分类算法对问题分类效果不佳的问题,提出一种融合词向量及BTM模型的问题分类方法。使用Word2vec对问题语料库进行训练得到词向量;对语料进行基于吉布斯采样的BTM主题模型构建,得到文本主题扩展向量;将文本主题扩展向量与词向量拼接得到新的问句扩展文本,利用SVM进行文本分类。实验结果表明,该方法在准确率、召回率及F值上的表现均有提高。 展开更多
关键词 问答系统 问题分类 词向量 btm主题模型 问句扩展
在线阅读 下载PDF
基于BTM模型的教育舆情热点主题演化研究——以研究生招生考试为例 被引量:13
6
作者 王曦 陈铎 《情报科学》 CSSCI 北大核心 2022年第7期55-60,77,共7页
【目的/意义】为把握招生考试过程中网络舆论的基本特点和发展规律,及时发现潜在舆情隐患,本研究对考研复试期间国内主流网络社交平台的相关话题讨论文本进行了主题演化研究。【方法/过程】使用Python采集数据,BTM模型对数据中的词对建... 【目的/意义】为把握招生考试过程中网络舆论的基本特点和发展规律,及时发现潜在舆情隐患,本研究对考研复试期间国内主流网络社交平台的相关话题讨论文本进行了主题演化研究。【方法/过程】使用Python采集数据,BTM模型对数据中的词对建模来进行主题挖掘和聚类,对各主题强度和内容随时间的演化进行分析。【结果/结论】主题强度和内容演化结果显示,公众的关注点与招生录取进程密切相关,并呈现一定的周期和规律性,能够做为网络舆情预测的依据。【创新/局限】BTM模型克服了短文本语料中的数据稀疏问题,能够有效进行主题挖掘,但同时也存在语义理解不足,需要人工辅助解读的问题,需要在后续研究中进一步改进。 展开更多
关键词 教育舆情 考研 btm模型 文本挖掘 主题演化
原文传递
面向微博子话题检测的BTM模型研究 被引量:6
7
作者 曹春萍 李瑜 《小型微型计算机系统》 CSCD 北大核心 2022年第10期2090-2095,共6页
现今网络舆情传播速度快、影响力大,研究微博网络中舆情信息的话题检测对有关部门舆情治理以及应急处置具有重要意义.针对传统话题检测方法忽略了微博中更细粒度的子话题研究,并且检测的话题缺乏深层次的语义信息问题,本文将attention... 现今网络舆情传播速度快、影响力大,研究微博网络中舆情信息的话题检测对有关部门舆情治理以及应急处置具有重要意义.针对传统话题检测方法忽略了微博中更细粒度的子话题研究,并且检测的话题缺乏深层次的语义信息问题,本文将attention机制与BLSTM融入到BTM模型中,构建词对主题模型ATT-BLSTM-BTM.该模型通过BLSTM训练词与词之间的相互关系,同时,利用attention机制计算特征词注意力概率分布,以降低语料库中无关词汇对建模的影响,从而提高BTM模型检测子话题的精准性.实验结果显示,本文模型与传统的LDA、BTM和NTM模型相比,生成的子话题在KL值与PMI值上都有明显的提升,证明本文所提模型能够生成质量更高的子话题. 展开更多
关键词 子话题检测 btm模型 attention机制 BLSTM模型
在线阅读 下载PDF
基于改进BTM模型的医疗服务质量因素识别 被引量:7
8
作者 高慧颖 公孟秋 于思佳 《北京理工大学学报》 EI CAS CSCD 北大核心 2022年第11期1167-1174,共8页
针对在线医疗评论文本长度短、语义稀疏的特点,提出一种基于词共现分析的在线医疗评论主题挖掘模型。应用于短文本的BTM主题模型在词对的选择过程中缺少对词语语义相关性的考虑,通过引入词共现分析计算语义相关性,设定阈值筛选参与训练... 针对在线医疗评论文本长度短、语义稀疏的特点,提出一种基于词共现分析的在线医疗评论主题挖掘模型。应用于短文本的BTM主题模型在词对的选择过程中缺少对词语语义相关性的考虑,通过引入词共现分析计算语义相关性,设定阈值筛选参与训练的词对,进行医疗评论主题挖掘,基于主题一致性TC值和JS散度对比改进的COA-BTM主题模型与传统的BTM主题模型和LDA主题模型在医疗评论主题挖掘中的效果。实验结果表明改进的COA-BTM模型在主题一致性和主题质量上均具有更好的效果,证明了其在在线医疗评论挖掘领域的有效性。基于改进算法在医疗评论主题挖掘中的应用和SERVQUAL模型,更全面地识别了医疗服务质量影响因素。 展开更多
关键词 主题模型 在线医疗评论 词共现分析 COA-btm模型
在线阅读 下载PDF
基于BTM图卷积网络的短文本分类方法 被引量:6
9
作者 郑诚 董春阳 黄夏炎 《计算机工程与应用》 CSCD 北大核心 2021年第4期155-160,共6页
由于短文本长度较短,在分类时会面临数据稀疏和语义模糊等问题。提出新型图卷积网络BTM_GCN,该网络利用双项主题模型(Biterm Topic Model,BTM)在短文本数据集上训练出固定数量的文档级潜在主题,并作为一种节点嵌入到文本异构图中,再与... 由于短文本长度较短,在分类时会面临数据稀疏和语义模糊等问题。提出新型图卷积网络BTM_GCN,该网络利用双项主题模型(Biterm Topic Model,BTM)在短文本数据集上训练出固定数量的文档级潜在主题,并作为一种节点嵌入到文本异构图中,再与异构图中的文档节点进行连接,最后利用图卷积网络来捕获文档、词与主题节点之间的高阶邻域信息,从而丰富文档节点的语义信息,缓解短文本语义模糊的问题。在三个英文短文本数据集上的实验结果表明,该方法相比基准模型具有较优的分类效果。 展开更多
关键词 短文本分类 图卷积网络 btm主题模型
在线阅读 下载PDF
基于BTM和加权K-Means的微博话题发现 被引量:2
10
作者 陈凤 蒙祖强 《广西师范大学学报(自然科学版)》 CAS 北大核心 2019年第3期71-78,共8页
为适应微博数据的短文本、低词频、缺乏语义表达等特殊性,提高话题发现的准确性,利于用户从大量微博数据中获取有用信息,本文提出一种基于BTM和加权K-Means方法实现微博话题发现。首先,针对微博数据稀疏性的问题,采用BTM模型对微博中的... 为适应微博数据的短文本、低词频、缺乏语义表达等特殊性,提高话题发现的准确性,利于用户从大量微博数据中获取有用信息,本文提出一种基于BTM和加权K-Means方法实现微博话题发现。首先,针对微博数据稀疏性的问题,采用BTM模型对微博中的短文本进行建模,获得话题词;然后针对传统K-Means算法本身的缺陷,提出加权K-Means算法实现微博话题发现;最后实验验证本文的方法,实验结果表明,BTM和加权K-Means方法解决了微博数据高维度和稀疏性的问题,提高了热点话题发现的准确性和有效性。 展开更多
关键词 btm模型 加权K-Means 微博数据 话题发现
在线阅读 下载PDF
BTM-BERT模型在民航机务维修安全隐患自动分类中的应用 被引量:1
11
作者 陈芳 张亚博 《安全与环境学报》 CAS CSCD 北大核心 2024年第11期4366-4373,共8页
为界定民航机务维修安全隐患类别,实现安全隐患数据的自动分类,首先,利用构建的机务维修停用词库对安全隐患记录语料进行预处理。其次,运用词对主题模型(Biterm Topic Model,BTM)提取主题和关键词,确定了“员工未按规定对工作现场进行... 为界定民航机务维修安全隐患类别,实现安全隐患数据的自动分类,首先,利用构建的机务维修停用词库对安全隐患记录语料进行预处理。其次,运用词对主题模型(Biterm Topic Model,BTM)提取主题和关键词,确定了“员工未按规定对工作现场进行监管”等12类安全隐患。最后,根据BTM主题模型标注的数据集对算法进行微调,构建了基于变换器的双向编码(Bidirectional Encoder Representations from Transformers,BERT)算法的机务维修安全隐患记录自动分类模型,并与传统的分类算法进行对比。结果表明:所构建的模型可以实现民航机务维修安全隐患自动分类,其效果远高于传统机器学习支持向量机算法的效果,构建的分类模型的精确率、召回率和F 1较文本卷积神经网络算法分别提升了0.12、0.14和0.14,总体准确率达到了93%。 展开更多
关键词 安全工程 机务维修 词对主题模型(btm) 基于变换器的双向编码(BERT) 安全隐患 文本分类
原文传递
基于卡方特征和BTM融合的短文本分类方法 被引量:1
12
作者 李振兴 王松 《兰州交通大学学报》 CAS 2016年第1期36-41,共6页
针对短文本特征稀疏、上下文依赖而导致的传统文本分类法应用效果不佳的问题,提出一种基于卡方特征和BTM的短文本分类法.首先提取短文本的卡方特征,再利用BTM对短文本建模,获得对应的文档-话题概率特征,最后融合两种特征并基于SVM分类... 针对短文本特征稀疏、上下文依赖而导致的传统文本分类法应用效果不佳的问题,提出一种基于卡方特征和BTM的短文本分类法.首先提取短文本的卡方特征,再利用BTM对短文本建模,获得对应的文档-话题概率特征,最后融合两种特征并基于SVM分类算法实现短文本分类.实验结果表明,相比于常规分类方法,该方法具有较高的Macro-F1值,对短文本的分类具有良好的效果. 展开更多
关键词 短文本分类 卡方特征 话题模型 btm
在线阅读 下载PDF
融合BTM和图论的微博检索模型 被引量:2
13
作者 蔡晨 罗可 《计算机工程与科学》 CSCD 北大核心 2019年第8期1512-1518,共7页
微博数据量庞大且微博文本的字符数少、特征稀疏,为提高检索精度,提出一种融合BTM和图论的微博检索模型,通过词汇语义相关度计算微博文本中带有标签的特征相关度,构建bi-term主题模型,用JSD距离计算映射到该模型中短文本的词对相关度,抽... 微博数据量庞大且微博文本的字符数少、特征稀疏,为提高检索精度,提出一种融合BTM和图论的微博检索模型,通过词汇语义相关度计算微博文本中带有标签的特征相关度,构建bi-term主题模型,用JSD距离计算映射到该模型中短文本的词对相关度,抽取CN-DBpedia中实体及图结构,再使用SimRank算法计算图结构中实体间的相关度。综上3种相关度为该模型最终相关度。最后使用新浪微博数据集进行检索实验,实验结果表明:对比于融合隐含狄利克雷分布算法与图论的检索模型和基于开放数据关联和图论方法系统模型,新模型在MAP、准确率和召回率上性能有明显提高,说明该模型具有较优的检索性能。 展开更多
关键词 微博 短文本 相似度计算 btm 图论 主题模型
在线阅读 下载PDF
基于BTM主题挖掘和Kano模型的运动文胸用户需求研究 被引量:9
14
作者 方蕾蕾 吴巧英 +1 位作者 项钰慧 章杨欣 《丝绸》 CAS CSCD 北大核心 2024年第3期106-114,共9页
为了深入挖掘运动文胸的用户需求,文章采用BTM模型对10个运动文胸品牌的16 248条在线评论进行主题挖掘,构成运动文胸用户需求要素,并通过Kano模型分析用户满意度和需求度,确定各项要素的属性归类和优先级排序。研究结果得到,运动文胸用... 为了深入挖掘运动文胸的用户需求,文章采用BTM模型对10个运动文胸品牌的16 248条在线评论进行主题挖掘,构成运动文胸用户需求要素,并通过Kano模型分析用户满意度和需求度,确定各项要素的属性归类和优先级排序。研究结果得到,运动文胸用户需求维度包括功能质量、款式设计、面料材质、颜色外观、服务品质、品牌营销6个方面;在23项需求要素中,舒适度和防震功能是用户满意度建立的首要因素,下围、罩杯、面料手感、胸垫材质是产品优化中的关键因素,客服态度、退换货服务、声誉口碑、商品信息是服务和营销中的重要因素;进而提出优化建议供相关企业参考。 展开更多
关键词 运动文胸 用户需求 btm模型 主题挖掘 KANO模型 在线评论 用户满意度
在线阅读 下载PDF
基于BTM模型和改进聚类算法的热点话题检测 被引量:4
15
作者 徐菲菲 陈赛红 田宇 《计算机应用与软件》 北大核心 2022年第5期283-290,共8页
随着网络中出现大量的新闻内容,如何在短期内为用户及时发现新闻热点话题越来越受到学者们的关注。提出一种基于BTM模型和改进K-Means聚类算法的中文新闻话题检测模型。对网易新闻语料库引入BTM模型,发现与主题相关的话题词,从而推断热... 随着网络中出现大量的新闻内容,如何在短期内为用户及时发现新闻热点话题越来越受到学者们的关注。提出一种基于BTM模型和改进K-Means聚类算法的中文新闻话题检测模型。对网易新闻语料库引入BTM模型,发现与主题相关的话题词,从而推断热点话题;针对K-Means算法初始值敏感等问题,将基于共轭梯度的人工鱼群算法引入传统的K-Means算法;利用改进K-Means聚类算法对得到的话题词进行聚类。实验结果表明,所提方法与传统方法相比可有效、准确提高话题的准确性。 展开更多
关键词 btm模型 话题检测 K-MEANS聚类 共轭梯度 人工鱼群
在线阅读 下载PDF
基于BTM的物联网服务发现方法 被引量:2
16
作者 王舒漫 李爱萍 +2 位作者 段利国 付佳 陈永乐 《计算机应用》 CSCD 北大核心 2020年第2期459-464,共6页
针对物联网(IoT)服务描述文本篇幅较短、特征稀疏,直接采用传统的主题模型对IoT服务建模得到的聚类效果不佳,从而导致无法发现最佳服务的问题,提出了一种基于BTM的IoT服务发现方法。该方法首先利用BTM挖掘现有IoT服务的隐含主题,并通过... 针对物联网(IoT)服务描述文本篇幅较短、特征稀疏,直接采用传统的主题模型对IoT服务建模得到的聚类效果不佳,从而导致无法发现最佳服务的问题,提出了一种基于BTM的IoT服务发现方法。该方法首先利用BTM挖掘现有IoT服务的隐含主题,并通过全局主题分布和主题-词分布计算推理得到服务文档-主题概率分布;其次利用K-means算法对服务进行聚类,并返回服务请求的最佳匹配结果。实验结果分析表明,该方法能够有效提高IoT服务的聚类效果,从而得到匹配的最佳服务。与现有的HDP(Hierarchical Dirichlet Process)、基于K-means的隐狄利克雷分配(LDA-K)等方法相比,该方法进行最佳服务发现的准确度(Precision)和归一化折损累积增益(NDCG)均有一定幅度的提高。 展开更多
关键词 物联网服务 btm 短文本 主题建模 服务发现
在线阅读 下载PDF
加装金属屏蔽板抑制车载BTM天线受扰研究 被引量:1
17
作者 袁忠康 张健穹 +1 位作者 曹巍楠 周天一 《电工材料》 CAS 2023年第2期1-3,共3页
针对目前车载BTM天线受到电磁干扰的问题,从电磁屏蔽的方法入手,在车载BTM天线处加装金属屏蔽板,降低对车载BTM设备产生的干扰。研究表明,在车载BTM天线位置处加装金属屏蔽板后,可达到10 dB左右的干扰抑制效果,与此同时,对BTM天线正常... 针对目前车载BTM天线受到电磁干扰的问题,从电磁屏蔽的方法入手,在车载BTM天线处加装金属屏蔽板,降低对车载BTM设备产生的干扰。研究表明,在车载BTM天线位置处加装金属屏蔽板后,可达到10 dB左右的干扰抑制效果,与此同时,对BTM天线正常通信功能基本不产生影响。 展开更多
关键词 车载btm天线 干扰抑制 磁场屏蔽 仿真建模
在线阅读 下载PDF
牵引系统引发BTM天线受扰的预测模型研究 被引量:2
18
作者 袁忠康 张健穹 +1 位作者 曹巍楠 周天一 《铁道标准设计》 北大核心 2023年第5期138-144,共7页
车载BTM(Balise Transmission Module)天线是列车应答器系统的核心部件,处于车底复杂电磁环境中,易受到电磁干扰影响列车正常运行。近期出现的车载应答器受扰问题多是由于牵引系统引发的干扰信号耦合到BTM天线中导致的,针对牵引系统引发... 车载BTM(Balise Transmission Module)天线是列车应答器系统的核心部件,处于车底复杂电磁环境中,易受到电磁干扰影响列车正常运行。近期出现的车载应答器受扰问题多是由于牵引系统引发的干扰信号耦合到BTM天线中导致的,针对牵引系统引发BTM天线受扰问题,开展列车车载BTM天线受扰的干扰预测模型研究。首先,通过分析城轨列车牵引系统干扰源产生机理及完整的干扰传递路径,搭建车载BTM天线受扰的全链路电磁干扰预测仿真模型;其次,将仿真获取的干扰电压传递函数与现场测得的变流器整流侧共模电流在频域进行叠加,得到车载BTM天线干扰预测电压;最后,将仿真结果与测试结果进行对比,验证干扰预测模型的准确性。研究表明,通过仿真获取的干扰预测电压与现车实测结果在2~6 MHz内具有一致性,覆盖车载BTM天线工作频段,可对车载BTM天线的受扰情况进行有效预测。研究成果为进一步探究干扰控制方法,提高列车运行的安全性奠定了基础。 展开更多
关键词 车载btm天线 电磁干扰 牵引系统 城轨列车 预测模型
在线阅读 下载PDF
基于PMI与BTM的船舶事故原因文本挖掘 被引量:8
19
作者 于卫红 付飘云 +1 位作者 任月 王庆武 《交通信息与安全》 CSCD 北大核心 2021年第1期35-44,共10页
为了实现从海量的船舶事故调查报告中自动提取出水上交通安全知识,提出了从词语和主题2个层面对船舶事故调查报告进行语义挖掘的方法,并以100份船舶自沉事故调查报告为语料进行具体挖掘。在词语层面,使用PMI算法从事故原因文本中挖掘频... 为了实现从海量的船舶事故调查报告中自动提取出水上交通安全知识,提出了从词语和主题2个层面对船舶事故调查报告进行语义挖掘的方法,并以100份船舶自沉事故调查报告为语料进行具体挖掘。在词语层面,使用PMI算法从事故原因文本中挖掘频繁共现的词语模式,通过文本特征词的共现揭示事故致因要素间的关联。在主题层面,使用BTM算法对事故原因文本进行主题建模,通过主题对数似然、主题一致性评估建模结果的优劣。通过主题建模,对表征自沉事故原因的特征词进行聚类,并根据主题在文档集合中的分布初步量化出每种原因的发生概率。根据使用500组新数据集对主题模型预测能力的测试,所构建的主题模型能够100%识别出领域无关的词并自动忽略;对于语料库中85.6%的词语,所构建的主题模型能够明确地将其归属于代表某一原因的主题;另14.4%的词主题边界不明显,难以将其单独以较大的可能性明确归属到某一主题下。 展开更多
关键词 交通安全 船舶事故调查报告 文本挖掘 主题模型 词共现 PMI算法 btm算法
在线阅读 下载PDF
基于双词语义增强的BTM主题模型研究
20
作者 王云云 张云华 《软件工程》 2020年第4期1-6,共6页
针对目前短文本在BTM主题模型建模过程中存在的共现双词之间语义联系较弱的问题,提出一种结合cw2vec词向量模型的改进BTM主题模型(cw2vec-BTM)。使用cw2vec模型来训练短文本语料得到词向量,并计算词向量相似度。然后通过设置采样阈值来... 针对目前短文本在BTM主题模型建模过程中存在的共现双词之间语义联系较弱的问题,提出一种结合cw2vec词向量模型的改进BTM主题模型(cw2vec-BTM)。使用cw2vec模型来训练短文本语料得到词向量,并计算词向量相似度。然后通过设置采样阈值来改进BTM主题模型共现双词的采样方式,增加语义相关词语的被采样概率。实验结果证明,本文提出的改进模型能有效地提高主题模型的主题凝聚度和KL散度。 展开更多
关键词 短文本 btm主题模型 词向量 吉布斯采样
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部