期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于CoSENT和改进K-means的冒犯性评论文本主题识别 被引量:1
1
作者 陈健飞 卜凡亮 王一帆 《科学技术与工程》 北大核心 2024年第31期13442-13449,共8页
为快速识别冒犯性评论文本中的用户热点主题,解决传统主题模型在处理评论文本时语义描述不充分、上下文信息丢失和主题连贯性不强,以及K-means聚类算法对K值和初始中心点敏感的问题。使用CoSENT(cosine sentence)模型获取包含冒犯性语... 为快速识别冒犯性评论文本中的用户热点主题,解决传统主题模型在处理评论文本时语义描述不充分、上下文信息丢失和主题连贯性不强,以及K-means聚类算法对K值和初始中心点敏感的问题。使用CoSENT(cosine sentence)模型获取包含冒犯性语言的评论文本的句子级向量特征,对通过统一流形逼近与投影算法即UMAP(uniform manifold approximation and projection)模型降维后的向量矩阵使用基于Canopy+的改进K-means算法进行类簇划分,用(class term frequency-inverse document frequency,c-TF-IDF)识别各主题簇的主题特征,进行主题建模。通过对比冒犯性评论文本数据集以及普通评论数据集的实验验证了方法有效性。结果表明本文方法能够得到更好的主题一致性。 展开更多
关键词 自然语言处理 主题模型 cosent K-MEANS
在线阅读 下载PDF
基于CoSENT的航空装备领域问句相似度匹配算法
2
作者 翟一琛 顾佼佼 +1 位作者 刘涛 姜文志 《舰船电子工程》 2023年第9期145-150,共6页
针对航空装备使用和保障人员获取信息效率低的问题,将文本相似度匹配技术引入航空装备维修保障问答领域,结合规则模板、生成模型等方法生成相似问句,提出一个航空装备维修保障领域问句相似度数据集;融入外部信息知识,通过领域词典识别... 针对航空装备使用和保障人员获取信息效率低的问题,将文本相似度匹配技术引入航空装备维修保障问答领域,结合规则模板、生成模型等方法生成相似问句,提出一个航空装备维修保障领域问句相似度数据集;融入外部信息知识,通过领域词典识别问句对中的关键词,对CoSENT(Cosine Sentence)模型引入关键词注意力机制和特征交互机制提升模型性能。在自建数据集和讯飞文本相似度数据集上进行验证,与基准模型CoSENT相比,论文方法的Spearman相关系数分别提升了2.3%和1.7%。 展开更多
关键词 航空装备维修文本 深度学习 文本相似度 cosent 注意力机制
在线阅读 下载PDF
基于Text2Vec_AE_KMeans的微博话题聚类分析方法
3
作者 万文桐 黄润才 《智能计算机与应用》 2025年第5期82-89,共8页
传统的话题聚类分析方法使用静态词向量对微博文本进行建模,对微博文本不规范表达、一词多义等特点应对不佳,从而影响聚类效果与话题表述。针对此,提出了一种基于Text2Vec_AE_KMeans的深度文本特征提取与聚类的微博话题聚类分析方法。首... 传统的话题聚类分析方法使用静态词向量对微博文本进行建模,对微博文本不规范表达、一词多义等特点应对不佳,从而影响聚类效果与话题表述。针对此,提出了一种基于Text2Vec_AE_KMeans的深度文本特征提取与聚类的微博话题聚类分析方法。首先,使用基于MacBert预训练模型与CoSENT文本语句建模方法设计的Text2Vec预训练模型,对微博话题文本进行文本语义表示,从而改进静态词向量在文本特征建模方面的不足;然后,通过带有非线性激活函数的AutoEncoder降维网络对高维非线性文本特征进行降维;最后,在话题聚类分析的过程中采用KMeans_C-TF-IDF算法进行面向微博文本的聚类分析,从聚类簇的角度把握话题分布信息。在真实微博话题数据集上,相较于传统静态词向量建模方法,本文提出的方法在聚类评价指标上表现优异,生成的话题信息可识别性较好。 展开更多
关键词 话题聚类分析 cosent Text2Vec 自编码器
在线阅读 下载PDF
增量式火电厂故障知识图谱持续构建的方法
4
作者 刘芸伽 刘晨 《计算机与数字工程》 2025年第8期2063-2069,2094,共8页
面对火电厂设备种类繁多,故障文档数据量庞大且更新迅速的现状,如何在保障知识图谱质量的前提下,高效地从文档中提取知识并整合到现有的知识图谱中,显得尤为重要。为此,提出了一个端到端的知识图谱持续构建框架,该框架涵盖了文本预处理... 面对火电厂设备种类繁多,故障文档数据量庞大且更新迅速的现状,如何在保障知识图谱质量的前提下,高效地从文档中提取知识并整合到现有的知识图谱中,显得尤为重要。为此,提出了一个端到端的知识图谱持续构建框架,该框架涵盖了文本预处理、实体-关系抽取、知识融合以及图谱构建等关键步骤。实体-关系抽取环节提出了预训练模型与深度学习模型BERT-BiLSTM-GP(Global Pointer)相结合,以实现实体和关系的联合抽取。知识融合环节,为了解决故障文本描述不规范和故障特征稀疏的问题,通过火电厂领域词典识别句子的关键词,进而提出KeyCoSENT(KeywordsAttention-BiLSTM-CoSENT)引入关键词注意力机制和多特征联合的知识融合模型。在自建的火电厂故障数据集上进行验证,改进模型的F1得分相比原模型提高了1.1%,相比SBERT模型(Sentence-Bert),提高了4.7%。这种构建高质量知识图谱的方式,对于更好地管理和维护火电厂设备具有重要意义,同时为持续化知识图谱构建提供了高效可行的方法。 展开更多
关键词 知识图谱 实体-关系联合抽取 注意力机制 cosent
在线阅读 下载PDF
基于产业链图谱的服装企业产业链挂链关系挖掘
5
作者 方志坚 程玉 +2 位作者 金耀 汤哲冲 徐锦英 《现代纺织技术》 北大核心 2024年第6期108-115,共8页
服装产业是全球最重要的制造行业之一,而服装产业链图谱则是服装产业生态中的重要工具。为了服装相关企业能快速、准确挂链,文章研究并构建服装产业链图谱,将产业链中的链点、关系和属性进行建模和表示,再通过企业信息收集和企业关键词... 服装产业是全球最重要的制造行业之一,而服装产业链图谱则是服装产业生态中的重要工具。为了服装相关企业能快速、准确挂链,文章研究并构建服装产业链图谱,将产业链中的链点、关系和属性进行建模和表示,再通过企业信息收集和企业关键词提取构建企业信息数据库,从而提出了一种产业链企业自动挂链算法。该算法基于CoSENT模型计算企业关键词和产业链链点之间的相似性,并通过自定义规则对匹配结果进行过滤,进而评估关键词和链点之间的相关性,自动匹配和选择最优的产业链图谱链点,实现企业的产业链自动挂链。通过与其他匹配算法的对比实验表明,该算法在F1-Measure指标上明显优于其他算法(比基于Jaccard方法高14%,比Word2Vec方法高10.5%,比SBERT方法高2.5%),显著提升了企业挂链效率和准确性,为优化服装产业链图谱提供了有力的支撑和参考。 展开更多
关键词 服装产业链 产业链图谱 自动挂链算法 cosent模型
在线阅读 下载PDF
面向儿科医学试题的答案解析自动推荐方法研究
6
作者 王娟 侯丽 +4 位作者 孙月萍 李佳明 杨丽 董良广 李云汉 《医学信息学杂志》 CAS 2024年第10期11-17,共7页
目的/意义探索并实现儿科医学试题答案的自动化解析,提高试题答案解析编撰效率与质量。方法/过程提出一种隐性语义索引、MC-BERT和CoSENT模型相结合的方法。首先使用基于隐性语义索引的方法和MC-BERT模型从参考文档中抽取多个候选答案解... 目的/意义探索并实现儿科医学试题答案的自动化解析,提高试题答案解析编撰效率与质量。方法/过程提出一种隐性语义索引、MC-BERT和CoSENT模型相结合的方法。首先使用基于隐性语义索引的方法和MC-BERT模型从参考文档中抽取多个候选答案解析,然后利用CoSENT模型计算候选解析、试题题干和答案选项之间的相似度,选取相似度最高的候选解析作为最终答案解析。结果/结论该方法答案解析精确率达到72.6%,相较单一方法或模型明显提高查全率和精确率,有效提高了编撰试题答案解析的效率,减轻教育工作者负担,并可为教育研究提供重要的数据支持。 展开更多
关键词 医学试题 答案解析 隐性语义索引 MC-BERT cosent 自然语言处理
暂未订购
上一页 1 下一页 到第
使用帮助 返回顶部