期刊文献+
共找到2,726篇文章
< 1 2 137 >
每页显示 20 50 100
BURST-LDA: A NEW TOPIC MODEL FOR DETECTING BURSTY TOPICS FROM STREAM TEXT 被引量:3
1
作者 Qi Xiang Huang Yu +4 位作者 Chen Ziyan Liu Xiaoyan Tian Jing Huang Tinglei Wang Hongqi 《Journal of Electronics(China)》 2014年第6期565-575,共11页
Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty... Topic models such as Latent Dirichlet Allocation(LDA) have been successfully applied to many text mining tasks for extracting topics embedded in corpora. However, existing topic models generally cannot discover bursty topics that experience a sudden increase during a period of time. In this paper, we propose a new topic model named Burst-LDA, which simultaneously discovers topics and reveals their burstiness through explicitly modeling each topic's burst states with a first order Markov chain and using the chain to generate the topic proportion of documents in a Logistic Normal fashion. A Gibbs sampling algorithm is developed for the posterior inference of the proposed model. Experimental results on a news data set show our model can efficiently discover bursty topics, outperforming the state-of-the-art method. 展开更多
关键词 text mining Burst detection Topic model Graphical model Bayesian inference
在线阅读 下载PDF
面向研究生招生咨询的中文Text-to-SQL模型 被引量:1
2
作者 王庆丰 李旭 +1 位作者 姚春龙 程腾腾 《计算机工程》 北大核心 2025年第3期362-368,共7页
研究生招生咨询是一种具有代表性的短时间高频次问答应用场景。针对现有基于词向量等方法的招生问答系统返回答案不够精确,以及每年需要更新问题库的问题,引入了基于文本转结构化查询语言(Text-to-SQL)技术的RESDSQL模型,可将自然语言... 研究生招生咨询是一种具有代表性的短时间高频次问答应用场景。针对现有基于词向量等方法的招生问答系统返回答案不够精确,以及每年需要更新问题库的问题,引入了基于文本转结构化查询语言(Text-to-SQL)技术的RESDSQL模型,可将自然语言问题转化为SQL语句后到结构化数据库中查询答案并返回。搜集了研究生招生场景中的高频咨询问题,根据3所高校真实招生数据,构建问题与SQL语句模板,通过填充模板的方式构建数据集,共有训练集1501条、测试集386条。将RESDSQL的RoBERTa模型替换为具有更强多语言生成能力的XLM-RoBERTa模型、T5模型替换为mT5模型,并在目标领域数据集上进行微调,在招生领域问题上取得了较高的准确率,在mT5-large模型上执行正确率为0.95,精确匹配率为1。与基于ChatGPT3.5模型、使用零样本提示的C3SQL方法对比,该模型性能与成本均更优。 展开更多
关键词 中文文本转结构化查询语言 自然语言查询 中文SQL语句生成 预训练模型 text-to-SQL数据集
在线阅读 下载PDF
基于24Model的动火作业事故致因文本挖掘 被引量:1
3
作者 牛茂辉 李威君 +1 位作者 刘音 王璐 《中国安全科学学报》 北大核心 2025年第3期151-158,共8页
为探究工业动火作业事故的根源,提出一种基于“2-4”模型(24Model)的文本挖掘方法。首先,收集整理220篇动火作业事故报告,并作为数据集,构建基于来自变换器的双向编码器表征量(BERT)的24Model分类器,使用预训练模型训练和评估事故报告... 为探究工业动火作业事故的根源,提出一种基于“2-4”模型(24Model)的文本挖掘方法。首先,收集整理220篇动火作业事故报告,并作为数据集,构建基于来自变换器的双向编码器表征量(BERT)的24Model分类器,使用预训练模型训练和评估事故报告数据集,构建分类模型;然后,通过基于BERT的关键字提取算法(KeyBERT)和词频-逆文档频率(TF-IDF)算法的组合权重,结合24Model框架,建立动火作业事故文本关键词指标体系;最后,通过文本挖掘关键词之间的网络共现关系,分析得到事故致因之间的相互关联。结果显示,基于BERT的24Model分类器模型能够系统准确地判定动火作业事故致因类别,通过组合权重筛选得到4个层级关键词指标体系,其中安全管理体系的权重最大,结合共现网络分析得到动火作业事故的7项关键致因。 展开更多
关键词 “2-4”模型(24model) 动火作业 事故致因 文本挖掘 指标体系
原文传递
Statistical Language Model for Chinese Text Proofreading
4
作者 张仰森 曹元大 《Journal of Beijing Institute of Technology》 EI CAS 2003年第4期441-445,共5页
Statistical language modeling techniques are investigated so as to construct a language model for Chinese text proofreading. After the defects of n-gram model are analyzed, a novel statistical language model for Chine... Statistical language modeling techniques are investigated so as to construct a language model for Chinese text proofreading. After the defects of n-gram model are analyzed, a novel statistical language model for Chinese text proofreading is proposed. This model takes full account of the information located before and after the target word wi, and the relationship between un-neighboring words w_i and w_j in linguistic environment(LE). First, the word association degree between w_i and w_j is defined by using the distance-weighted factor, w_j is l words apart from w_i in the LE, then Bayes formula is used to calculate the LE related degree of word w_i, and lastly, the LE related degree is taken as criterion to predict the reasonability of word w_i that appears in context. Comparing the proposed model with the traditional n-gram in a Chinese text automatic error detection system, the experiments results show that the error detection recall rate and precision rate of the system have been improved. 展开更多
关键词 statistical language model N-GRAM linguistic environment text proofreading
在线阅读 下载PDF
Enhancing BERTopic with Pre-Clustered Knowledge: Reducing Feature Sparsity in Short Text Topic Modeling
5
作者 Qian Wang Biao Ma 《Journal of Data Analysis and Information Processing》 2024年第4期597-611,共15页
Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic captur... Modeling topics in short texts presents significant challenges due to feature sparsity, particularly when analyzing content generated by large-scale online users. This sparsity can substantially impair semantic capture accuracy. We propose a novel approach that incorporates pre-clustered knowledge into the BERTopic model while reducing the l2 norm for low-frequency words. Our method effectively mitigates feature sparsity during cluster mapping. Empirical evaluation on the StackOverflow dataset demonstrates that our approach outperforms baseline models, achieving superior Macro-F1 scores. These results validate the effectiveness of our proposed feature sparsity reduction technique for short-text topic modeling. 展开更多
关键词 Topic model BERTopic Short text Feature Sparsity CLUSTER
在线阅读 下载PDF
Creating Knowledge-Based Diagnostic Models by Mining Textual Diagnostic Reports of SPECT Scans
6
作者 Chuangui Cao Chengcheng Han Qiang Lin 《Journal of Computer and Communications》 2021年第5期10-19,共10页
Mining rich semantic information hidden in heterogeneous information network is one of the important tasks of data mining. Generally, a nuclear medicine text consists of the description of disease (<i>i.e.</i... Mining rich semantic information hidden in heterogeneous information network is one of the important tasks of data mining. Generally, a nuclear medicine text consists of the description of disease (<i>i.e.</i>, lesions) and diagnostic results. However, how to construct a computer-aided diagnostic model with a large number of medical texts is a challenging task. To automatically diagnose diseases with SPECT imaging, in this work, we create a knowledge-based diagnostic model by exploring the association between a disease and its properties. Firstly, an overview of nuclear medicine and data mining is presented. Second, the method of preprocessing textual nuclear medicine diagnostic reports is proposed. Last, the created diagnostic modes based on random forest and SVM are proposed. Experimental evaluation conducted real-world data of diagnostic reports of SPECT imaging demonstrates that our diagnostic models are workable and effective to automatically identify diseases with textual diagnostic reports. 展开更多
关键词 text Classification Nuclear Medicine SPECT Imaging Diagnostic model Random Forest SVM
在线阅读 下载PDF
Geo-Text-700测试集的GIS领域国产大语言模型的性能评测
7
作者 侯家熙 袁莹 +1 位作者 黄宗财 李晖 《厦门理工学院学报》 2025年第5期40-47,共8页
针对国产大语言模型(large language models,LLMs)在地理信息科学(geographic information science,GIS)领域缺乏系统性评估基准问题,构建Geo-Text-700测试集的GIS领域定制化测评体系,基于优劣解距离层次分析法(technique for order pre... 针对国产大语言模型(large language models,LLMs)在地理信息科学(geographic information science,GIS)领域缺乏系统性评估基准问题,构建Geo-Text-700测试集的GIS领域定制化测评体系,基于优劣解距离层次分析法(technique for order preference by similarity to ideal solution,TOPSIS)对10个主流国产模型进行多维度评估。测评结果显示:模型表现呈现显著题型分化,客观题平均得分为68.4(标准差±5.2),较主观题低21.7%(P<0.05);Doubao-pro-32k综合得分最优(87.3),客观题优势显著(单选86,填空77);hunyuan-turbo在主观题(简答88.1,编程90.83)方面展现高阶任务潜力;领域知识盲区突出,如GIS拓扑规则题错误率为43.6%。 展开更多
关键词 地理信息科学(GIS) 大语言模型 评测体系 Geo-text-700测试集 TOPSIS-AHP法
在线阅读 下载PDF
基于主题的SE-TextRank情感摘要方法 被引量:8
8
作者 刘志明 于波 +3 位作者 欧阳纯萍 余颖 阳小华 翟云 《情报工程》 2017年第3期97-104,共8页
技术的目的是以简洁的形式准确表达文章的核心情感内容。为解决不同的文档结构及内容特征等问题对摘要结果的影响,提出了一种基于主题的SE-TextRank情感摘要方法。通过LDA模型自动获取收敛后的文本主题,利用余弦距离算法进行主题句子分... 技术的目的是以简洁的形式准确表达文章的核心情感内容。为解决不同的文档结构及内容特征等问题对摘要结果的影响,提出了一种基于主题的SE-TextRank情感摘要方法。通过LDA模型自动获取收敛后的文本主题,利用余弦距离算法进行主题句子分组,使用传统多特征融合以及SE-TextRank情感摘要算法对组内中心句抽取,最终获取目的摘要。实验表明,采用此方法能够更为高效的获取新闻文本摘要结果。 展开更多
关键词 文本摘要 LDA模型 余弦距离 SE-textRank 特征融合
在线阅读 下载PDF
融合FastText模型和注意力机制的网络新闻文本分类模型 被引量:10
9
作者 王婉 张向先 +1 位作者 卢恒 张莉曼 《现代情报》 CSSCI 2022年第3期40-47,共8页
[目的/意义]构建融合Fast Text模型和注意力机制的网络新闻文本分类模型,为网络新闻平台运营提供了智能化的知识组织思路。[方法/过程]基于Word2vec模型与Fast Text模型相结合的词向量模型Ngram2vec进行网络新闻文本的语义表达,并运用... [目的/意义]构建融合Fast Text模型和注意力机制的网络新闻文本分类模型,为网络新闻平台运营提供了智能化的知识组织思路。[方法/过程]基于Word2vec模型与Fast Text模型相结合的词向量模型Ngram2vec进行网络新闻文本的语义表达,并运用融合注意力机制的Bi LSTM;tte模型实现新闻文本分类。[结果/结论]实验结果显示,融合了Fast Text模型与注意力机制的网络新闻文本分类模型使F1值从90.62%提升到92.03%,说明本文提出的文本分类模型能够提升网络新闻文本分类的精确率,对网络新闻平台提升知识组织效率、优化服务水平具有重要参考价值。 展开更多
关键词 网络新闻 文本分类 注意力机制 双向长短期记忆神经网络模型
在线阅读 下载PDF
科技文献文本知识抽取的提示框架研究
10
作者 陈昱成 韩涛 胡正银 《现代情报》 北大核心 2026年第2期91-101,共11页
[目的/意义]在小样本的情况下,基于大语言模型的科技文献知识抽取方法被广泛应用,模型的效果依赖于提示词的框架质量,因此需设计高质量的科技文献知识抽取提示词框架。[方法/过程]本研究以有机太阳能电池领域为例,设计有机太阳能电池领... [目的/意义]在小样本的情况下,基于大语言模型的科技文献知识抽取方法被广泛应用,模型的效果依赖于提示词的框架质量,因此需设计高质量的科技文献知识抽取提示词框架。[方法/过程]本研究以有机太阳能电池领域为例,设计有机太阳能电池领域的知识抽取知识体系,设计科技文献自动知识抽取提示词框架,利用不同的大模型进行对比实验。[结果/结论]实验结果表明,在有机太阳能电池领域的期刊文献知识抽取任务中,相比于普通的提示词知识抽取的方法,利用本文提出的提示词框架方法效果更优。 展开更多
关键词 提示词框架 大模型 文本挖掘 有机太阳能电池 高质量数据基座建设
在线阅读 下载PDF
大语言模型幻觉检测方法综述
11
作者 李自拓 孙建彬 +5 位作者 陈广州 方馨悦 崔瑞靖 田植良 黄震 杨克巍 《计算机研究与发展》 北大核心 2026年第1期123-146,共24页
近年来,大语言模型(large language models,LLMs)在自然语言处理(natural language processing,NLP)等领域取得了显著进展,展现出强大的语言理解与生成能力。然而,在实际应用过程中,大语言模型仍然面临诸多挑战。其中,幻觉(hallucinati... 近年来,大语言模型(large language models,LLMs)在自然语言处理(natural language processing,NLP)等领域取得了显著进展,展现出强大的语言理解与生成能力。然而,在实际应用过程中,大语言模型仍然面临诸多挑战。其中,幻觉(hallucination)问题引起了学术界和工业界的广泛关注。如何有效检测大语言模型幻觉,成为确保其在文本生成等下游任务可靠、安全、可信应用的关键挑战。该研究着重对大语言模型幻觉检测方法进行综述:首先,介绍了大语言模型概念,进一步明确了幻觉的定义与分类,系统梳理了大语言模型从构建到部署应用全生命周期各环节的特点,并深入分析了幻觉的产生机制与诱因;其次,立足于实际应用需求,考虑到在不同任务场景下模型透明度的差异等因素,将幻觉检测方法划分为针对白盒模型和黑盒模型2类,并进行了重点梳理和深入对比;而后,分析总结了现阶段主流的幻觉检测基准,为后续开展幻觉检测奠定基础;最后,指出了大语言模型幻觉检测的各种潜在研究方法和新的挑战。 展开更多
关键词 幻觉检测 大语言模型 事实一致性 文本生成 自然语言处理
在线阅读 下载PDF
针对文本情感分类任务的textSE-ResNeXt集成模型 被引量:9
12
作者 康雁 李浩 +2 位作者 梁文韬 宁浩宇 霍雯 《计算机工程与应用》 CSCD 北大核心 2020年第7期205-209,共5页
针对深度学习方法中文本表示形式单一,难以有效地利用语料之间细化的特征的缺陷,利用中英文语料的不同特性,有区别地对照抽取中英文语料的特征提出了一种新型的textSE-ResNeXt集成模型。通过PDTB语料库对语料的显式关系进行分析,从而截... 针对深度学习方法中文本表示形式单一,难以有效地利用语料之间细化的特征的缺陷,利用中英文语料的不同特性,有区别地对照抽取中英文语料的特征提出了一种新型的textSE-ResNeXt集成模型。通过PDTB语料库对语料的显式关系进行分析,从而截取语料主要情感部分,针对不同中、英文情感词典进行情感程度关系划分以此获得不同情感程度的子数据集。在textSE-ResNeXt神经网络模型中采用了动态卷积核策略,以此对文本数据特征进行更为有效的提取,模型中融合了SEnet和ResNeXt,有效地进行了深层次文本特征的抽取和分类。将不同情感程度的子集上对textSE-ResNeXt模型采用投票集成的方法进一步提高分类效率。分别在中文酒店评论语料和六类常见英文分类数据集上进行实验。实验结果表明了本模型的有效性。 展开更多
关键词 文本情感分类 textSE-ResNeXt 特征划分 集成模型
在线阅读 下载PDF
TextRail:复杂自然场景下的不规则文本检测算法 被引量:1
13
作者 马静 薛浩 郭小宇 《计算机工程与应用》 CSCD 北大核心 2023年第21期112-122,共11页
文本检测是文本识别的前提和基础。复杂自然场景下,受透视、遮挡、变形等因素影响,图像质量难以保证,同时图像中的文字形式丰富多样,多呈不规则形状,加上复杂背景的干扰,致使文本检测难度大、精确度低。针对文本形状不规则的场景,提出... 文本检测是文本识别的前提和基础。复杂自然场景下,受透视、遮挡、变形等因素影响,图像质量难以保证,同时图像中的文字形式丰富多样,多呈不规则形状,加上复杂背景的干扰,致使文本检测难度大、精确度低。针对文本形状不规则的场景,提出了一种文本边轨模型(TextRail),该模型基于文本上、下边界基准点表示文本区域的思想,实现对任意形状文本的高效检测。TextRail使用全卷积网络(full convolutional network,FCN)及特征金字塔网络(feature pyramid network,FPN)提取文本图像特征;将特征送入检测头网络,实现文本区域上下边界基准点的预测,将预测结果通过位置感知非极大抑制(locality-aware non-maximum suppression,LNMS)合并,得到最终的上下边界基准点;采用薄板样条插值(thin plate spline,TPS)的方法实现对不规则文本的自动矫正。通过大量的实验验证,TextRail在F1分值上优于其他文本检测模型。同时TextRail模型可以准确表示出文字的朝向、弯曲和变形情况,有效提升了不规则文本检测的准确率和鲁棒性。 展开更多
关键词 复杂自然场景 不规则文本检测 文本矫正 基准点 textRail模型
在线阅读 下载PDF
基于知识和语义的地理信息深度文本匹配模型——知地
14
作者 毛陈圣雪 梁霄 +2 位作者 宁紫檀 陈雨荷 肖仲涛 《计算机应用文摘》 2026年第1期155-157,共3页
随着互联网的快速发展,网络文本中蕴含的地理信息日益丰富,且其具有庞大的数量和较强的专业性。传统的信息搜索引擎技术主要致力于从海量数据中筛选出对用户有用的信息,但无法有效获取和解析这些结果之间的内在关联。基于知识检索、知... 随着互联网的快速发展,网络文本中蕴含的地理信息日益丰富,且其具有庞大的数量和较强的专业性。传统的信息搜索引擎技术主要致力于从海量数据中筛选出对用户有用的信息,但无法有效获取和解析这些结果之间的内在关联。基于知识检索、知识过滤和深度文本匹配的思路,结合Attention机制、CNN、GRU等方法,提出了一种基于知识和语义的地理信息深度文本匹配模型——知地。实验结果表明,知地模型在离线测试集上展现了良好的性能和鲁棒性。 展开更多
关键词 地理信息 知地模型 文本匹配 知识过滤
在线阅读 下载PDF
基于fastText的中文文本分类 被引量:20
15
作者 代令令 蒋侃 《计算机与现代化》 2018年第5期35-40,85,共7页
在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的... 在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的效果。相对于目前主流的文本分类方法,基于fastText模型的分类方法在保证分类效果的同时,大大缩短了分类时间。此外,在分类准确率和参数设置方面进行分析并得出相应的优化规则。 展开更多
关键词 文本分类 fasttext 线性分类器 快速文本分类模型
在线阅读 下载PDF
基于麻雀搜索算法优化Transformer的短文本情感分析方法
16
作者 胡翔 《微处理机》 2026年第1期53-58,共6页
短文本情感分析面临诸多挑战,如语义稀疏、表达简洁、缺乏上下文信息等,导致情感特征提取不完整,进而影响分类精度。为解决这些问题,提出基于麻雀搜索算法(SSA)优化Transformer的短文本情感分析方法。该方法通过构建词向量矩阵,转变短... 短文本情感分析面临诸多挑战,如语义稀疏、表达简洁、缺乏上下文信息等,导致情感特征提取不完整,进而影响分类精度。为解决这些问题,提出基于麻雀搜索算法(SSA)优化Transformer的短文本情感分析方法。该方法通过构建词向量矩阵,转变短文本的表现形式;利用Transformer模型提取情感特征,并引入SSA优化模型超参数;将所提取情感特征输入全连接层+Softmax分类器中,采用交叉熵损失的梯度下降算法衡量文本预测情感与真实情感之间的差异,完成短文本情感分析。SSA具有全局搜索能力强、收敛速度快等优点,能有效优化Transformer模型的超参数,提升模型性能。试验结果表明,所提出方法的迭代损失值较低,分类精度较高,能够较好地捕捉情感特征且对各类情感区分能力强。 展开更多
关键词 麻雀搜索算法 Transformer模型 短文本情感分析 情感特征
在线阅读 下载PDF
基于BERT和TextCNN的智能制造成熟度评估方法 被引量:5
17
作者 张淦 袁堂晓 +1 位作者 汪惠芬 柳林燕 《计算机集成制造系统》 EI CSCD 北大核心 2024年第3期852-863,共12页
随着智能制造2025目标的临近,企业为了解自身能力水平纷纷加入到智能制造成熟度评估的行列中。然而,由于智能制造成熟度评估标准的复杂性,企业缺乏其对行业水平的了解,导致企业贸然申请,浪费自身时间的同时又占用大量评估资源。鉴于此,... 随着智能制造2025目标的临近,企业为了解自身能力水平纷纷加入到智能制造成熟度评估的行列中。然而,由于智能制造成熟度评估标准的复杂性,企业缺乏其对行业水平的了解,导致企业贸然申请,浪费自身时间的同时又占用大量评估资源。鉴于此,设计了一种新的评估流程,采用文本处理算法对整个评估过程进行了重构,通过利用国标文件中智能制造成熟度评估标准,将其作为训练集,采用基于预训练语言模型与文本神经网络(BERT+TextCNN)相结合的智能评估算法代替人工评估。在真实的企业智能制造数据集上的验证表明,当BERT+TextCNN评估模型在卷积核为[2,3,4]、迭代次数为6次、学习率为3e-5时,对智能制造成熟度进行评估,准确率达到85.32%。这表明所设计的评估方法能够较准确地帮助企业完成智能制造成熟度自评估,有助于企业了解自身智能制造能力水平,制定正确的发展方向。 展开更多
关键词 智能制造成熟度模型 BERT预训练语言模型 文本卷积神经网络 评估过程重构
在线阅读 下载PDF
基于Transformer的AMR-to-Text生成 被引量:3
18
作者 朱杰 李军辉 《中文信息学报》 CSCD 北大核心 2020年第10期10-18,共9页
抽象语义表示到文本(AMR-to-Text)的生成任务是给定AMR图,生成相同意义表示的文本。可以把此任务当成一个从源端AMR图到目标端句子的翻译任务。然而,传统的序列到序列(seq2seq,S2S)方法使用循环递归网络进行编码,并不能很好地解决长距... 抽象语义表示到文本(AMR-to-Text)的生成任务是给定AMR图,生成相同意义表示的文本。可以把此任务当成一个从源端AMR图到目标端句子的翻译任务。然而,传统的序列到序列(seq2seq,S2S)方法使用循环递归网络进行编码,并不能很好地解决长距离依赖的问题。当前最好的性能是图到序列(graph2seq,G2S)的模型,使用了图模型直接对AMR图结构进行编码,但是,该方法对于非直接相连的节点依然会损失大量的结构信息。针对上述问题,基于seq2seq框架,该文提出了一种直接而有效的AMR-to-Text生成方法。在这项工作中,引入了当前最优的seq2seq模型Transformer作为基准模型,并且使用字节对编码(BPE)和共享词表的方法来联合处理未登录词(OOV)的问题。在现有的两份英文标准数据集上,实验结果都得到了显著的提升,达到了新的最高性能。 展开更多
关键词 AMR-to-text生成 序列到序列模型 字节对编码 共享词表 未登录词
在线阅读 下载PDF
融合TextCNN与TextRNN模型的谣言识别方法 被引量:4
19
作者 耿唯佳 宋玉蓉 周伟伟 《微电子学与计算机》 2022年第1期31-38,共8页
传统的谣言识别方法耗费人力物力并且准确率较低。为了有效识别社交网络中的谣言,提出一种基于融合模型的谣言识别方法.该方法首先通过BERT预训练模型构建文本句向量;其次构建TextCNN模型挖掘文本的语义特征,构建TextRNN模型用于挖掘文... 传统的谣言识别方法耗费人力物力并且准确率较低。为了有效识别社交网络中的谣言,提出一种基于融合模型的谣言识别方法.该方法首先通过BERT预训练模型构建文本句向量;其次构建TextCNN模型挖掘文本的语义特征,构建TextRNN模型用于挖掘文本的时序特征;最后,对两种模型进行加权融合,实现对谣言的识别.此外,还对原始主流模型进行了改进,一是借鉴Inception模型的思想来增加TextCNN模型的深度,二是将注意力机制注入TextRNN模型中,增加其可解释性和泛化能力.实验结果表明,相较于当前主流的谣言识别方法,该方法准确率可达到97.12%并且F1值可达到97.14%. 展开更多
关键词 社交网络 谣言识别 BERT模型 文本卷积神经网络 文本循环神经网络
在线阅读 下载PDF
基于语义增强模式链接的Text-to-SQL模型 被引量:1
20
作者 吴相岚 肖洋 +1 位作者 刘梦莹 刘明铭 《计算机应用》 CSCD 北大核心 2024年第9期2689-2695,共7页
为优化基于异构图编码器的Text-to-SQL生成效果,提出SELSQL模型。首先,模型采用端到端的学习框架,使用双曲空间下的庞加莱距离度量替代欧氏距离度量,以此优化使用探针技术从预训练语言模型中构建的语义增强的模式链接图;其次,利用K头加... 为优化基于异构图编码器的Text-to-SQL生成效果,提出SELSQL模型。首先,模型采用端到端的学习框架,使用双曲空间下的庞加莱距离度量替代欧氏距离度量,以此优化使用探针技术从预训练语言模型中构建的语义增强的模式链接图;其次,利用K头加权的余弦相似度以及图正则化方法学习相似度度量图使得初始模式链接图在训练中迭代优化;最后,使用改良的关系图注意力网络(RGAT)图编码器以及多头注意力机制对两个模块的联合语义模式链接图进行编码,并且使用基于语法的神经语义解码器和预定义的结构化语言进行结构化查询语言(SQL)语句解码。在Spider数据集上的实验结果表明,使用ELECTRA-large预训练模型时,SELSQL模型比最佳基线模型的准确率提升了2.5个百分点,对于复杂SQL语句生成的提升效果很大。 展开更多
关键词 模式链接 图结构学习 预训练语言模型 text-to-SQL 异构图
在线阅读 下载PDF
上一页 1 2 137 下一页 到第
使用帮助 返回顶部