期刊文献+
共找到217篇文章
< 1 2 11 >
每页显示 20 50 100
Traditional Chinese Medicine Synonymous Term Conversion:A Bidirectional Encoder Representations from Transformers-Based Model for Converting Synonymous Terms in Traditional Chinese Medicine
1
作者 Lu Zhou Chao-Yong Wu +10 位作者 Xi-Ting Wang Shuang-Qiao Liu Yi-Zhuo Zhang Yue-Meng Sun Jian Cui Cai-Yan Li Hui-Min Yuan Yan Sun Feng-Jie Zheng Feng-Qin Xu Yu-Hang Li 《World Journal of Traditional Chinese Medicine》 CAS CSCD 2023年第2期224-233,共10页
Background:The medical records of traditional Chinese medicine(TCM)contain numerous synonymous terms with different descriptions,which is not conducive to computer-aided data mining of TCM.However,there is a lack of m... Background:The medical records of traditional Chinese medicine(TCM)contain numerous synonymous terms with different descriptions,which is not conducive to computer-aided data mining of TCM.However,there is a lack of models available to normalize synonymous TCM terms.Therefore,construction of a synonymous term conversion(STC)model for normalizing synonymous TCM terms is necessary.Methods:Based on the neural networks of bidirectional encoder representations from transformers(BERT),four types of TCM STC models were designed:Models based on BERT and text classification,text sequence generation,named entity recognition,and text matching.The superior STC model was selected on the basis of its performance in converting synonymous terms.Moreover,three misjudgment inspection methods for the conversion results of the STC model based on inconsistency were proposed to find incorrect term conversion:Neuron random deactivation,output comparison of multiple isomorphic models,and output comparison of multiple heterogeneous models(OCMH).Results:The classification-based STC model outperformed the other STC task models.It achieved F1 scores of 0.91,0.91,and 0.83 for performing symptoms,patterns,and treatments STC tasks,respectively.The OCMH method showed the best performance in misjudgment inspection,with wrong detection rates of 0.80,0.84,and 0.90 in the term conversion results for symptoms,patterns,and treatments,respectively.Conclusion:The TCM STC model based on classification achieved superior performance in converting synonymous terms for symptoms,patterns,and treatments.The misjudgment inspection method based on OCMH showed superior performance in identifying incorrect outputs. 展开更多
关键词 bidirectional encoder representations from transformers misjudgment inspection synonymous term conversion traditional Chinesem edicine
原文传递
Text Augmentation-Based Model for Emotion Recognition Using Transformers
2
作者 Fida Mohammad Mukhtaj Khan +4 位作者 Safdar Nawaz Khan Marwat Naveed Jan Neelam Gohar Muhammad Bilal Amal Al-Rasheed 《Computers, Materials & Continua》 SCIE EI 2023年第9期3523-3547,共25页
Emotion Recognition in Conversations(ERC)is fundamental in creating emotionally intelligentmachines.Graph-BasedNetwork(GBN)models have gained popularity in detecting conversational contexts for ERC tasks.However,their... Emotion Recognition in Conversations(ERC)is fundamental in creating emotionally intelligentmachines.Graph-BasedNetwork(GBN)models have gained popularity in detecting conversational contexts for ERC tasks.However,their limited ability to collect and acquire contextual information hinders their effectiveness.We propose a Text Augmentation-based computational model for recognizing emotions using transformers(TA-MERT)to address this.The proposed model uses the Multimodal Emotion Lines Dataset(MELD),which ensures a balanced representation for recognizing human emotions.Themodel used text augmentation techniques to producemore training data,improving the proposed model’s accuracy.Transformer encoders train the deep neural network(DNN)model,especially Bidirectional Encoder(BE)representations that capture both forward and backward contextual information.This integration improves the accuracy and robustness of the proposed model.Furthermore,we present a method for balancing the training dataset by creating enhanced samples from the original dataset.By balancing the dataset across all emotion categories,we can lessen the adverse effects of data imbalance on the accuracy of the proposed model.Experimental results on the MELD dataset show that TA-MERT outperforms earlier methods,achieving a weighted F1 score of 62.60%and an accuracy of 64.36%.Overall,the proposed TA-MERT model solves the GBN models’weaknesses in obtaining contextual data for ERC.TA-MERT model recognizes human emotions more accurately by employing text augmentation and transformer-based encoding.The balanced dataset and the additional training samples also enhance its resilience.These findings highlight the significance of transformer-based approaches for special emotion recognition in conversations. 展开更多
关键词 Emotion recognition in conversation graph-based network text augmentation-basedmodel multimodal emotion lines dataset bidirectional encoder representation for transformer
在线阅读 下载PDF
Classification of Conversational Sentences Using an Ensemble Pre-Trained Language Model with the Fine-Tuned Parameter
3
作者 R.Sujatha K.Nimala 《Computers, Materials & Continua》 SCIE EI 2024年第2期1669-1686,共18页
Sentence classification is the process of categorizing a sentence based on the context of the sentence.Sentence categorization requires more semantic highlights than other tasks,such as dependence parsing,which requir... Sentence classification is the process of categorizing a sentence based on the context of the sentence.Sentence categorization requires more semantic highlights than other tasks,such as dependence parsing,which requires more syntactic elements.Most existing strategies focus on the general semantics of a conversation without involving the context of the sentence,recognizing the progress and comparing impacts.An ensemble pre-trained language model was taken up here to classify the conversation sentences from the conversation corpus.The conversational sentences are classified into four categories:information,question,directive,and commission.These classification label sequences are for analyzing the conversation progress and predicting the pecking order of the conversation.Ensemble of Bidirectional Encoder for Representation of Transformer(BERT),Robustly Optimized BERT pretraining Approach(RoBERTa),Generative Pre-Trained Transformer(GPT),DistilBERT and Generalized Autoregressive Pretraining for Language Understanding(XLNet)models are trained on conversation corpus with hyperparameters.Hyperparameter tuning approach is carried out for better performance on sentence classification.This Ensemble of Pre-trained Language Models with a Hyperparameter Tuning(EPLM-HT)system is trained on an annotated conversation dataset.The proposed approach outperformed compared to the base BERT,GPT,DistilBERT and XLNet transformer models.The proposed ensemble model with the fine-tuned parameters achieved an F1_score of 0.88. 展开更多
关键词 bidirectional encoder for representation of transformer conversation ensemble model fine-tuning generalized autoregressive pretraining for language understanding generative pre-trained transformer hyperparameter tuning natural language processing robustly optimized BERT pretraining approach sentence classification transformer models
在线阅读 下载PDF
Enhancing Arabic Cyberbullying Detection with End-to-End Transformer Model
4
作者 Mohamed A.Mahdi Suliman Mohamed Fati +2 位作者 Mohamed A.G.Hazber Shahanawaj Ahamad Sawsan A.Saad 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第11期1651-1671,共21页
Cyberbullying,a critical concern for digital safety,necessitates effective linguistic analysis tools that can navigate the complexities of language use in online spaces.To tackle this challenge,our study introduces a ... Cyberbullying,a critical concern for digital safety,necessitates effective linguistic analysis tools that can navigate the complexities of language use in online spaces.To tackle this challenge,our study introduces a new approach employing Bidirectional Encoder Representations from the Transformers(BERT)base model(cased),originally pretrained in English.This model is uniquely adapted to recognize the intricate nuances of Arabic online communication,a key aspect often overlooked in conventional cyberbullying detection methods.Our model is an end-to-end solution that has been fine-tuned on a diverse dataset of Arabic social media(SM)tweets showing a notable increase in detection accuracy and sensitivity compared to existing methods.Experimental results on a diverse Arabic dataset collected from the‘X platform’demonstrate a notable increase in detection accuracy and sensitivity compared to existing methods.E-BERT shows a substantial improvement in performance,evidenced by an accuracy of 98.45%,precision of 99.17%,recall of 99.10%,and an F1 score of 99.14%.The proposed E-BERT not only addresses a critical gap in cyberbullying detection in Arabic online forums but also sets a precedent for applying cross-lingual pretrained models in regional language applications,offering a scalable and effective framework for enhancing online safety across Arabic-speaking communities. 展开更多
关键词 CYBERBULLYING offensive detection bidirectional encoder representations from the transformers(BERT) continuous bag of words Social Media natural language processing
在线阅读 下载PDF
空管不正常事件风险信息抽取与识别方法研究 被引量:1
5
作者 王洁宁 王帅翔 孙禾 《安全与环境学报》 北大核心 2025年第4期1444-1454,共11页
目前,空管各类安全管理信息化平台积累了大量非结构化文本数据,但未得到充分利用,为了挖掘空管不正常事件中潜藏的风险,研究利用收集的四千余条空管站不正常事件数据和自构建的4836个空管领域专业术语词,提出了一个基于空管专业信息词... 目前,空管各类安全管理信息化平台积累了大量非结构化文本数据,但未得到充分利用,为了挖掘空管不正常事件中潜藏的风险,研究利用收集的四千余条空管站不正常事件数据和自构建的4836个空管领域专业术语词,提出了一个基于空管专业信息词抽取的双向编码器表征法和双向长短时记忆网络的深度学习模型(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short-Term Memory,BERT-BiLSTM)。该模型通过对不正常事件文本进行信息抽取,过滤其中无用信息,并将双向编码器表征法(Bidirectional Encoder Representations from Transformers,BERT)模型输出的特征向量序列作为双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)的输入序列,以对空管不正常事件文本风险识别任务进行对比试验。试验结果显示,在风险识别试验中,基于空管专业信息词抽取的BERT-BiLSTM模型相比于通用领域的BERT模型,风险识别准确率提升了3百分点。可以看出该模型有效提升了空管安全信息处理能力,能够有效识别空管部门日常运行中出现的不正常事件所带来的风险,同时可以为空管安全领域信息挖掘相关任务提供基础参考。 展开更多
关键词 安全工程 双向编码器表征法 双向长短时记忆网络 空管不正常事件 风险识别
原文传递
南美白对虾养殖领域中文命名实体识别数据集构建
6
作者 彭小红 邓峰 余应淮 《计算机工程与应用》 北大核心 2025年第9期353-362,共10页
该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家... 该研究致力于构建一个高质量的数据集,用于南美白对虾养殖领域的命名实体识别(named entity recognition,NER)任务,命名为VamNER。为确保数据集的多样性,从CNKI数据库中收集了近10年的高质量论文,并结合权威书籍进行语料构建。邀请专家讨论实体类型,并经过专业培训的标注人员使用IOB2标注格式进行标注,标注过程分为预标注和正式标注两个阶段以提高效率。在预标注阶段,标注者间一致性(inter-annotation agreement,IAA)达到0.87,表明标注人员的一致性较高。最终,VamNER包含6115个句子,总字符数达384602,涵盖10个实体类型,共有12814个实体。研究通过与多个通用领域数据集和一个特定领域数据集进行比较,揭示了VamNER的独特特性。在实验中使用了预训练的基于变换器的双向编码器表示(bidirectional encoder representations from Transformers,BERT)模型、双向长短期记忆神经网络(bidirectional long short-term memory network,BiLSTM)和条件随机场模型(conditional random fields,CRF),最优模型在测试集上的F1值达到82.8%。VamNER成为首个专注于南美白对虾养殖领域的NER数据集,为中文特定领域NER研究提供了丰富资源,有望推动水产养殖领域NER研究的发展。 展开更多
关键词 命名实体识别 VamNER数据集 标注者间一致性(IAA) 基于变换器的双向编码器表示(BERT) 双向长短期记忆神经网络(BiLSTM) 条件随机场(CRF)
在线阅读 下载PDF
基于融合评价指标BERT-RGCN的油田评价区块调整措施推荐方法
7
作者 王梅 朱晓丽 +2 位作者 孙洪国 王海艳 濮御 《东北石油大学学报》 北大核心 2025年第5期110-120,I0008,共12页
为解决油田领域区块调整措施推荐过程中存在的样本数据稀疏和语义特征复杂等问题,提出基于融合评价指标(EI)的变换器双向编码(BERT)与关系图卷积神经网络(RGCN)的油田评价区块调整措施推荐方法(EI-BERT-RGCN方法)。根据评价指标、评价... 为解决油田领域区块调整措施推荐过程中存在的样本数据稀疏和语义特征复杂等问题,提出基于融合评价指标(EI)的变换器双向编码(BERT)与关系图卷积神经网络(RGCN)的油田评价区块调整措施推荐方法(EI-BERT-RGCN方法)。根据评价指标、评价区块及措施之间的交互信息构建异构图,利用BERT模型生成评价指标、评价区块及措施术语词向量,共同作为输入词向量,将融合评价指标信息的异构图和输入词向量放入RGCN模型训练,学习评价区块的有效表征;在某油田评价区块提供的数据集上进行实验对比。结果表明:EI-BERT-RGCN方法能够捕捉文本中隐含的复杂语义并缓解数据稀疏问题,能更好理解未观察到的评价指标与调整措施之间的潜在关系,提升节点的表示质量。EI-BERT-RGCN模型在精确率、召回率、F_(1)分数及ROC曲线下面积等评价指标上优于其他基准模型,在保持较高精确率的同时,展现更好的泛化能力和鲁棒性。该结果为油田评价区块调整措施推荐提供参考。 展开更多
关键词 异构图 变换器双向编码(BERT) 预训练模型 关系图卷积神经网络(RGCN) 推荐算法 措施推荐 油田评价区块
在线阅读 下载PDF
基于BERT融合算法的病例文本结构化模型研究
8
作者 张雪 王琛琛 职宁 《中国医疗设备》 2025年第9期12-19,共8页
目的为提升临床病例文本中非结构化信息的提取效率与准确性,推动医学智能化发展,本研究提出一种基于双向编码器表示融合算法的病例文本结构化模型。方法该模型采用双向编码器进行语义表示,利用图卷积神经网络提取词语间局部依赖,融合长... 目的为提升临床病例文本中非结构化信息的提取效率与准确性,推动医学智能化发展,本研究提出一种基于双向编码器表示融合算法的病例文本结构化模型。方法该模型采用双向编码器进行语义表示,利用图卷积神经网络提取词语间局部依赖,融合长短时记忆网络建立时序关系,并引入条件随机场优化标签序列的一致性。实验选用MIMIC-Ⅲ和ClinicalSTS这2个权威临床数据集进行分析,构建五类医学文本分类任务,对比所有模型在不同结构组合下的性能表现。结果本研究所提出的病例文本结构化模型的精准度、召回率和F1得分分别为0.92、0.90和0.91,均较传统双向编码器模型提升约10%;在处理超过1000字的长文本场景时,模型效率提升达12%,表现出良好的时效性与可扩展性。结论本研究通过验证深度融合多种结构对提高病例文本结构化处理能力的有效性,为智能医学文本分析提供了理论依据。 展开更多
关键词 病例文本 长短时记忆网络 BERT 图卷积神经网络 结构化模型 医学智能化
在线阅读 下载PDF
基于预训练模型与双向注意力流的抽取式阅读理解模型
9
作者 文勇军 吴金铭 梅硕 《首都师范大学学报(自然科学版)》 2025年第2期1-11,共11页
针对服务机器人的抽取式阅读理解任务中出现答案抽取准确度不高的问题,构建了基于预训练模型与双向注意力流的抽取式阅读理解模型。该模型首先采用预训练模型来提取问题与文档上下文的浅层联合语义表征;其次利用双向注意力网络来加强特... 针对服务机器人的抽取式阅读理解任务中出现答案抽取准确度不高的问题,构建了基于预训练模型与双向注意力流的抽取式阅读理解模型。该模型首先采用预训练模型来提取问题与文档上下文的浅层联合语义表征;其次利用双向注意力网络来加强特征交互和信息融合,得到问题与文档上下文的深层联合语义表征;最后结合浅层和深层的联合语义表征,通过排序、滤错和定位操作完成对答案的抽取。在抽取式问答任务的斯坦福英文机器阅读理解数据集SQuAD 1.1和“讯飞杯”中文机器阅读理解数据集CMRC 2018上进行了实验。结果表明:与英文预训练语言模型BERT相比,该模型的性能指标EM和F1值分别提高了1.172%和1.194%;与中文预训练语言模型RoBERTa-wwm-ext相比,该模型的EM和F1值分别提高了1.336%和0.921%。 展开更多
关键词 自然语言处理 机器阅读理解 预训练模型 双向注意力流(BERT) RoBERTa-wwm-ext 答案抽取
在线阅读 下载PDF
融合BERT BiLSTM CRF的城市内涝灾害风险要素识别方法研究 被引量:1
10
作者 张乐 张海龙 +1 位作者 李锋 吴敏 《安全与环境学报》 北大核心 2025年第8期3176-3188,共13页
为了实现在城市内涝舆情信息中快速、精准地识别相关风险要素,首先基于新浪微博平台,对用户评论信息及媒体发布信息进行采集、整理及标注,构建了城市内涝灾害事件语料数据集。进而针对城市内涝舆情信息格式不统一、语义复杂且风险要素... 为了实现在城市内涝舆情信息中快速、精准地识别相关风险要素,首先基于新浪微博平台,对用户评论信息及媒体发布信息进行采集、整理及标注,构建了城市内涝灾害事件语料数据集。进而针对城市内涝舆情信息格式不统一、语义复杂且风险要素识别的专业性、精准度要求较高等问题,结合自然灾害系统理论的风险要素框架,提出了一种基于双向编码器表征法-双向长短期记忆-条件随机场(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short-Term Memory-Conditional Random Field,BERT-BiLSTM-CRF)的识别方法,并开展了一系列模型验证试验。对比试验结果表明,该模型在准确率、召回率、F_(1)三项指标上均有较好表现,其中准确率为84.62%,召回率为86.19%,F_(1)为85.35%,优于其他对比模型。消融试验结果表明,BERT预训练模型对于该模型性能有着更为显著的影响。综合上述试验结果,可以验证该模型能够有效识别城市内涝舆情信息中的各类风险要素,进而为城市内涝灾害风险管控的数智化转型提供研究依据。 展开更多
关键词 公共安全 城市内涝 双向编码器表征法 双向长短期记忆网络 条件随机场 舆情信息 风险要素识别
原文传递
基于Bert-BiLSTM-CRF模型的中文命名实体识别 被引量:1
11
作者 龙星全 李佳 《吉林大学学报(信息科学版)》 2025年第2期384-393,共10页
针对现有的中文命名实体识别算法没有充分考虑实体识别任务的数据特征,存在中文样本数据的类别不平衡、训练数据中的噪声太大和每次模型生成数据的分布差异较大的问题,提出了一种以BERT-BiLSTM-CRF(Bidirectional Encoder Representatio... 针对现有的中文命名实体识别算法没有充分考虑实体识别任务的数据特征,存在中文样本数据的类别不平衡、训练数据中的噪声太大和每次模型生成数据的分布差异较大的问题,提出了一种以BERT-BiLSTM-CRF(Bidirectional Encoder Representations from Transformers-Bidirectional Long Short-Term Memory-Conditional Random Field)为基线改进的中文命名实体识别模型。首先在BERT-BiLSTM-CRF模型上结合P-Tuning v2技术,精确提取数据特征,然后使用3个损失函数包括聚焦损失(Focal Loss)、标签平滑(Label Smoothing)和KL Loss(Kullback-Leibler divergence loss)作为正则项参与损失计算。实验结果表明,改进的模型在Weibo、Resume和MSRA(Microsoft Research Asia)数据集上的F 1得分分别为71.13%、96.31%、95.90%,验证了所提算法具有更好的性能,并且在不同的下游任务中,所提算法易于与其他的神经网络结合与扩展。 展开更多
关键词 中文命名实体识别 BERT-BiLSTM-CRF模型 P-Tuning v2技术 损失函数
在线阅读 下载PDF
基于知识注入的燃气知识双向变换器模型
12
作者 柳晓昱 庄育锋 +2 位作者 赵兴昊 王珂璠 张国开 《中国安全科学学报》 北大核心 2025年第3期204-211,共8页
为提高燃气管网领域的应急管理水平,提出燃气知识双向变换器(Gas-kBERT)模型。该模型结合聊天生成预训练转换器(ChatGPT)扩充的燃气管网领域数据,以及构建的中文燃气语言理解-三元组(CGLU-Spo)和相关语料库,通过改变模型的掩码(MASK)机... 为提高燃气管网领域的应急管理水平,提出燃气知识双向变换器(Gas-kBERT)模型。该模型结合聊天生成预训练转换器(ChatGPT)扩充的燃气管网领域数据,以及构建的中文燃气语言理解-三元组(CGLU-Spo)和相关语料库,通过改变模型的掩码(MASK)机制,成功将领域知识注入模型中。考虑到燃气管网领域的专业性和特殊性,Gas-kBERT在不同规模和内容的语料库上进行预训练,并在燃气管网领域的命名实体识别和分类任务上进行微调。结果表明:与通用的双向变换器(BERT)模型相比,Gas-kBERT在燃气管网领域的文本挖掘任务中F 1值表现出显著的提升。在命名实体识别任务中,F 1值提高29.55%;在文本分类任务中,F 1值提升高达83.33%。由此证明Gas-kBERT模型在燃气管网领域的文本挖掘任务中具有出色的表现。 展开更多
关键词 燃气管网 燃气知识双向变换器(Gas-kBERT)模型 自然语言处理(NLP) 知识注入 双向变换器(BERT)模型
原文传递
加氢反应数智化实验教学平台建设与实践
13
作者 杜静 万林 +3 位作者 李正阳 张志坤 任相伟 闫传滨 《实验室研究与探索》 北大核心 2025年第10期124-131,185,共9页
催化加氢技术广泛应用于化工生产与研究,但由于其本身具有高压、易燃、易爆等高危险性,限制了其在教学实践中的应用。本文以加氢反应为模板反应,通过构建催化加氢反应数据库,并采用基于BERT模型的双向编码器结构训练加氢反应产率预测模... 催化加氢技术广泛应用于化工生产与研究,但由于其本身具有高压、易燃、易爆等高危险性,限制了其在教学实践中的应用。本文以加氢反应为模板反应,通过构建催化加氢反应数据库,并采用基于BERT模型的双向编码器结构训练加氢反应产率预测模型,结合自动化装置,将AI、数字孪生与自动化控制技术融入实验教学,并进行配套课程设计,实现了实验的在线仿真与自动化操作,从而构建起新型数智化实验平台。该平台通过理论、数据与操作的协同融合,为化学实验教学探索出新的范式,开辟出一条安全、绿色、智能高效的新路径,实现了产、学、研并轨发展,助力培养人工智能与数据驱动时代的“未来化学家”。 展开更多
关键词 人工智能 基于变换器的双向编码器表征 加氢反应 反应预测
在线阅读 下载PDF
基于双向交叉注意力的多尺度特征融合情感分类
14
作者 梁一鸣 范菁 柴汶泽 《计算机应用》 北大核心 2025年第9期2773-2782,共10页
针对现有情感分类模型在深层情感理解上的局限性、传统注意力机制的单向性束缚以及自然语言处理(NLP)中的类别不平衡等问题,提出一种融合多尺度BERT(Bidirectional Encoder Representations from Transformers)特征和双向交叉注意力机... 针对现有情感分类模型在深层情感理解上的局限性、传统注意力机制的单向性束缚以及自然语言处理(NLP)中的类别不平衡等问题,提出一种融合多尺度BERT(Bidirectional Encoder Representations from Transformers)特征和双向交叉注意力机制的情感分类模型M-BCA(Multi-scale BERT features with Bidirectional Cross Attention)。首先,从BERT的低层、中层和高层分别提取多尺度特征,以捕捉句子文本的表面信息、语法信息和深层语义信息;其次,利用三通道门控循环单元(GRU)进一步提取深层语义特征,从而增强模型对文本的理解能力;最后,为促进不同尺度特征之间的交互与学习,引入双向交叉注意力机制,从而增强多尺度特征之间的相互作用。此外,针对不平衡数据问题,设计数据增强策略,并采用混合损失函数优化模型对少数类别样本的学习。实验结果表明,在细粒度情感分类任务中,M-BCA表现优异。M-BCA在处理分布不平衡的多分类情感数据集时,它的性能显著优于大多数基线模型。此外,M-BCA在少数类别样本的分类任务中表现突出,尤其是在NLPCC 2014与Online_Shopping_10_Cats数据集上,MBCA的少数类别的Macro-Recall领先其他所有对比模型。可见,该模型在细粒度情感分类任务中取得了显著的性能提升,并适用于处理不平衡数据集。 展开更多
关键词 BERT 细粒度情感分类 多尺度特征融合 数据增强 混合损失函数 双向交叉注意力
在线阅读 下载PDF
基于语义相似度的协议转换方法
15
作者 杨定木 倪龙强 +3 位作者 梁晶 邱照原 张永真 齐志强 《计算机应用》 北大核心 2025年第4期1263-1270,共8页
协议转换通常用于解决不同协议之间的数据交互问题,它的本质是寻找不同协议字段之间的映射关系。传统的协议转换方法存在以下缺点:转换大多是在特定协议的基础上设计的,因而这些转换是静态的,灵活性较差,不适用于多协议转换的场景;一旦... 协议转换通常用于解决不同协议之间的数据交互问题,它的本质是寻找不同协议字段之间的映射关系。传统的协议转换方法存在以下缺点:转换大多是在特定协议的基础上设计的,因而这些转换是静态的,灵活性较差,不适用于多协议转换的场景;一旦协议发生改变,就需要再次分析协议的结构和字段语义以重新构建字段之间的映射关系,从而产生指数级的工作量,降低了协议转换的效率。因此,提出基于语义相似度的通用协议转换方法,旨在通过智能的方法发掘字段间的映射关系,进而提高协议转换的效率。首先,通过BERT(Bidirectional Encoder Representations from Transformers)模型分类协议字段,并排除“不应该”存在映射关系的字段;其次,通过计算字段之间的语义相似度,推理字段之间的映射关系,进而构建字段映射表;最后,提出基于语义相似度的通用协议转换框架,并定义相关协议以进行验证。仿真实验结果表明:所提方法的字段分类精准率达到了94.44%;映射关系识别精准率达到了90.70%,相较于基于知识抽取的方法提高了13.93%。以上结果验证了所提方法的有可行性,该方法可以快速识别不同协议字段之间的映射关系,适用于无人协同中多协议转换的场景。 展开更多
关键词 语义相似度 字段映射 协议转换 BERT模型 Sentence-BERT模型
在线阅读 下载PDF
融合三元组和文本属性的多视图实体对齐
16
作者 翟社平 黄妍 +1 位作者 杨晴 杨锐 《计算机应用》 北大核心 2025年第6期1793-1800,共8页
实体对齐(EA)旨在识别不同来源的知识图谱(KG)中指代相同的实体。现有的EA模型大多关注实体自身的特征,部分模型引入了实体的关系和属性信息辅助实现对齐,然而这些模型忽视了实体中潜在的邻域信息和语义信息。为了解决上述问题,提出一... 实体对齐(EA)旨在识别不同来源的知识图谱(KG)中指代相同的实体。现有的EA模型大多关注实体自身的特征,部分模型引入了实体的关系和属性信息辅助实现对齐,然而这些模型忽视了实体中潜在的邻域信息和语义信息。为了解决上述问题,提出一种融合三元组和文本属性的多视图EA模型(MultiEA)。所提模型将实体信息分为多个视图以实现对齐。针对缺少邻域信息的问题,采用图卷积网络(GCN)与翻译模型来并行学习嵌入实体的关系信息;针对缺少语义信息的问题,采用词嵌入与预训练语言模型学习属性文本的语义信息。实验结果表明,在DBP15K的3个子数据集上,相较于得到最优结果的基线模型EPEA(Entity-PairEmbeddingApproachforKG alignment),所提模型的Hits@1值分别提升了2.18、1.36和0.96个百分点,平均倒数排名(MRR)分别提升了2.4、0.9和0.5个百分点,验证了所提模型的有效性。 展开更多
关键词 实体对齐 知识嵌入 注意力机制 依存句法分析 BERT
在线阅读 下载PDF
基于BERT和Bi-LSTM的题目难度预测:知识点标签增强模型
17
作者 叶航 柴春来 +2 位作者 张思赟 陈东烁 吴霁航 《计算机应用》 北大核心 2025年第S1期37-42,共6页
目前在高校C语言编程课程中,使用客观评价的题目难度考验学生的学习情况是非常重要的手段。目前大部分难度评估方法都针对特有科目和特有题型,而对中文编程题目的难度评估存在不足。因此,提出一种融合题目文本和知识点标签的基于BERT(Bi... 目前在高校C语言编程课程中,使用客观评价的题目难度考验学生的学习情况是非常重要的手段。目前大部分难度评估方法都针对特有科目和特有题型,而对中文编程题目的难度评估存在不足。因此,提出一种融合题目文本和知识点标签的基于BERT(Bidirectional Encoder Representations from Transformers)和双向长短时记忆(Bi-LSTM)模型的C语言题目难度预测模型FTKB-BiLSTM(Fusion of Title and Knowledge based on BERT and Bi-LSTM)。首先,利用BERT的中文预训练模型获得题目文本和知识点的词向量;其次,融合模块将融合后的信息通过BERT处理得到文本的信息表示,并输入Bi-LSTM模型中学习其中的序列信息,提取更丰富的特征;最后,把经Bi-LSTM模型得到的特征表示通过全连接层并经过Softmax函数处理得到题目难度分类结果。在Leetcode中文数据集和ZjgsuOJ平台数据集上的实验结果表明,相较于XLNet等主流的深度学习模型,所提模型的准确率更优,具有较强的分类能力。 展开更多
关键词 自然语言处理 深度学习 题目难度预测 BERT 预训练模型
在线阅读 下载PDF
基于多模态信息融合的中文拼写纠错算法
18
作者 张庆 杨凡 方宇涵 《计算机应用》 北大核心 2025年第5期1528-1534,共7页
中文拼写纠错(CSC)的目标是检测和修正用户输入中文文本中的字或词级别的错误,这些错误通常是由于汉字之间的语义、字音或字形相似而导致的误用。然而,现有模型通常忽略了局部信息,无法充分捕捉不同汉字之间的字音和字形相似性,也无法... 中文拼写纠错(CSC)的目标是检测和修正用户输入中文文本中的字或词级别的错误,这些错误通常是由于汉字之间的语义、字音或字形相似而导致的误用。然而,现有模型通常忽略了局部信息,无法充分捕捉不同汉字之间的字音和字形相似性,也无法有效地将这些信息与语义信息结合起来。为了解决这些问题,提出一种基于多模态信息融合的CSC算法PWSpell。该算法利用卷积注意力机制关注局部语义信息,利用拼音编码捕捉汉字之间的字音相似关系,并首次将五笔编码引入CSC领域,用于捕捉汉字之间的字形相似关系。此外,将这2种相似关系与经过BERT(Bidirectional Encoder Representation from Transformers)处理的语义信息进行选择性融合。实验结果表明,PWSpell在SIGHAN 2015测试集的检测级指标上准确率、精确率、F1值以及校正级指标精确率、F1值上均有提升,其中校正级的精确率至少提升了1个百分点;消融实验结果也验证了算法中各个模块的设计都能有效提升模型的性能。 展开更多
关键词 中文自然语言处理 中文拼写纠错 BERT 多模态信息融合 局部信息
在线阅读 下载PDF
面向医学科技文献分类的语义特征增强研究
19
作者 宫小翠 安新颖 《医学信息学杂志》 2025年第3期36-41,67,共7页
目的/意义构建大批量医学科技文献自动分类方法,以应对医学科技文献快速增长给文献分类和利用带来的新挑战。方法/过程以医学论文为研究对象,利用《医学主题词表》同义词和语义层级结构,增强概念信息的语义特征,采用双向编码器表征模型... 目的/意义构建大批量医学科技文献自动分类方法,以应对医学科技文献快速增长给文献分类和利用带来的新挑战。方法/过程以医学论文为研究对象,利用《医学主题词表》同义词和语义层级结构,增强概念信息的语义特征,采用双向编码器表征模型进行微调训练和测试评估,并与随机森林算法的分类结果进行对比。结果/结论十折交叉验证结果显示,该分类方法精确率、召回率、F1值分别达到95.42%、93.61%、94.47%,优于随机森林算法及其他未进行特征增强的方法,其准确、有效,具有可应用性。 展开更多
关键词 医学科技文献 《医学主题词表》 双向编码器表征 自动分类
暂未订购
基于数据增强和残差网络的敏感信息命名实体识别
20
作者 李莉 宋涵 +1 位作者 刘培鹤 陈汉林 《计算机应用》 北大核心 2025年第9期2790-2797,共8页
敏感信息命名实体识别(NER)是隐私保护的关键技术之一。然而,现有的NER方法在敏感信息领域的相关数据集稀缺,且传统技术存在准确率低、可移植性差等问题。为解决这些问题,首先,从互联网中爬取并人工标注含有敏感信息的文本语料,以构建... 敏感信息命名实体识别(NER)是隐私保护的关键技术之一。然而,现有的NER方法在敏感信息领域的相关数据集稀缺,且传统技术存在准确率低、可移植性差等问题。为解决这些问题,首先,从互联网中爬取并人工标注含有敏感信息的文本语料,以构建敏感信息NER数据集SenResume;其次,提出一种基于实体掩码的数据增强模型E-MLM(Entity-based Masked Language Modeling),通过整词掩码技术生成新的数据样本,并扩充数据集以提升数据多样性;再次,提出RoBERTa-ResBiLSTM-CRF模型,该模型结合RoBERTa-WWM(Robustly optimized Bidirectional Encoder Representations from Transformers approach with Whole Word Masking)提取上下文特征以生成高质量的词向量编码,并利用残差双向长短期记忆(ResBiLSTM)增强文本特征;最后,通过多层残差网络提高训练效率和模型稳定性,并通过条件随机场(CRF)进行全局解码以提升序列标注的准确性。实验结果表明,E-MLM对数据集质量有显著的提升,并且提出的NER模型在原始和1倍扩充后的数据集上表现均为最优,F1分数分别为96.16%和97.84%。可见,E-MLM与残差网络的引入有利于提升敏感信息NER的准确度。 展开更多
关键词 敏感信息 数据集构建 数据增强 BERT 命名实体识别
在线阅读 下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部