期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于ALBERT-UniLM模型的文本自动摘要技术研究 被引量:6
1
作者 孙宝山 谭浩 《计算机工程与应用》 CSCD 北大核心 2022年第15期184-190,共7页
任务中的生成式摘要模型对原文理解不充分且容易生成重复文本等问题,提出将词向量模型ALBERT与统一预训练模型UniLM相结合的算法,构造出一种ALBERT-UniLM摘要生成模型。该模型采用预训练动态词向量ALBERT替代传统的BERT基准模型进行特... 任务中的生成式摘要模型对原文理解不充分且容易生成重复文本等问题,提出将词向量模型ALBERT与统一预训练模型UniLM相结合的算法,构造出一种ALBERT-UniLM摘要生成模型。该模型采用预训练动态词向量ALBERT替代传统的BERT基准模型进行特征提取获得词向量。利用融合指针网络的UniLM语言模型对下游生成任务微调,结合覆盖机制来降低重复词的生成并获取摘要文本。实验以ROUGE评测值作为评价指标,在2018年CCF国际自然语言处理与中文计算会议(NLPC-C2018)单文档中文新闻摘要评价数据集上进行验证。与BERT基准模型相比,ALBERT-UniLM模型的Rouge-1、Rouge-2和Rouge-L指标分别提升了1.57%、1.37%和1.60%。实验结果表明,提出的ALBERT-UniLM模型在文本摘要任务上效果明显优于其他基准模型,能够有效提高文本摘要的生成质量。 展开更多
关键词 自然语言处理 预训练语言模型 ALBERT模型 unilm模型 生成式摘要
在线阅读 下载PDF
基于NEZHA-UniLM模型的农业领域问题生成技术研究 被引量:2
2
作者 黎芬 费凡 彭琳 《湖北农业科学》 2022年第16期186-192,共7页
为解决农业领域问答数据集缺乏以及目前大多采用端到端模型用于问题生成任务等不足,通过系列数据爬取、清洗、过滤和标注等工作,构建农业领域问题生成数据集,同时研究了基于NEZHA-UniLM预训练模型的农业领域问题生成。与其他基准模型相... 为解决农业领域问答数据集缺乏以及目前大多采用端到端模型用于问题生成任务等不足,通过系列数据爬取、清洗、过滤和标注等工作,构建农业领域问题生成数据集,同时研究了基于NEZHA-UniLM预训练模型的农业领域问题生成。与其他基准模型相比,NEZHA-UniLM模型的BLEU-4和Rouge-L达到0.3830和0.5839。相较于未加对抗训练的预训练模型,其BLEU-4和Rouge-L分别提升了0.0689和0.1138。与基准模型NQG进行对比,BLEU-4和Rouge-L分别提升了0.1953和0.1517。结果表明,该模型不仅有效缓解生成问题与答案匹配度低、生成问题漏词或者多词和曝光误差等问题,还能有效提高生成问题的质量。 展开更多
关键词 自然语言处理 NEZHA-unilm预训练模型 对抗训练 问题生成
在线阅读 下载PDF
结合数据增强方法的藏文预训练语言模型 被引量:1
3
作者 色差甲 班马宝 +1 位作者 才让加 柔特 《中文信息学报》 CSCD 北大核心 2024年第9期66-72,共7页
最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式。在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题。首先,该文收集整理含有46.55亿字符... 最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式。在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题。首先,该文收集整理含有46.55亿字符的藏文文本语料;然后在UniLM模型的基础上,利用藏文文本特征的数据增强方法和预训练技术相结合的方法预训练藏文语言模型。实验表明,该文方法在藏文La格例句分类和藏文文本分类等四个下游任务中获得显著效果。 展开更多
关键词 藏文预训练语言模型 文本数据增强方法 unilm模型
在线阅读 下载PDF
基于UniLM模型的古文到现代文机器翻译词汇共享研究 被引量:3
4
作者 许乾坤 王东波 +2 位作者 刘禹彤 吴梦成 黄水清 《情报资料工作》 CSSCI 北大核心 2024年第1期89-100,共12页
[目的/意义]从古文到现代文的机器翻译过程中,由于古文与现代文之间在词汇构成、句法以及词类活用等方面的显著差异,并且缺少公开的古文分词数据,使得机器翻译系统对古文的理解和处理能力存在偏差,一定程度上影响了翻译的质量。[方法/过... [目的/意义]从古文到现代文的机器翻译过程中,由于古文与现代文之间在词汇构成、句法以及词类活用等方面的显著差异,并且缺少公开的古文分词数据,使得机器翻译系统对古文的理解和处理能力存在偏差,一定程度上影响了翻译的质量。[方法/过程]文章提出无监督词库构建的方法,在UniLM模型的基础上,分别与BERT、RoBERTa、RoFormer和RoFormerV2预训练模型相结合并对模型进行微调,借助UniLM模型融合古文领域知识特征将源语言和目标语言之间的语言关系生成中间的语言表示,利用预训练模型学习上下文相关的语言表示,增加语义之间的关联性,从而提升古现机器翻译的性能。[结果/结论]实验结果表明,融合古文领域知识特征的古文机器翻译在BERT、RoBERTa、RoFormer和RoFormerV2预训练模型上的BLEU值分别提高了0.27到1.12,证明了提出方法的有效性。 展开更多
关键词 unilm模型 古文分词 词汇共享 古文翻译 机器翻译
原文传递
基于UniLM模型的学术文摘观点自动生成研究 被引量:5
5
作者 曾江峰 刘园园 +1 位作者 程征 段尧清 《图书情报工作》 CSSCI 北大核心 2023年第2期131-139,共9页
[目的/意义]将海量学术文本观点提取工作由人工转向机器,提高效率的同时又能够保证观点提取的准确性、客观性。[方法/过程]使用UniLM统一语言预训练模型,训练过程中对模型进行精调,以人工标注数据集进行机器学习。将学术文摘作为长度为... [目的/意义]将海量学术文本观点提取工作由人工转向机器,提高效率的同时又能够保证观点提取的准确性、客观性。[方法/过程]使用UniLM统一语言预训练模型,训练过程中对模型进行精调,以人工标注数据集进行机器学习。将学术文摘作为长度为a的文本序列,经过机器学习,生成长度为b的句子序列(a≥b),并且作为学术论文观点句输出。[结果/结论]研究结果表明:UniLM模型对于规范型文摘、半规范型文摘、非规范型文摘观点生成精准度分别为94.36%、77.27%、57.43%,规范型文摘生成效果最好。将机器学习模型应用于长文本观点生成,为学术论文观点生成提供一种新方法。不足之处在于本文模型依赖文摘的结构性,对非规范型文摘观点生成效果有所欠缺。 展开更多
关键词 学术文摘 观点自动生成 unilm模型 机器学习
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部