期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
基于注意力优化对抗训练的中-缅神经机器翻译模型
1
作者 赖华 李衍铎 +4 位作者 张思琦 李英 余正涛 毛存礼 黄于欣 《模式识别与人工智能》 北大核心 2025年第10期949-959,共11页
在对抗训练中过度引入噪声会导致神经机器翻译模型鲁棒性降低.为此,文中提出基于注意力优化对抗训练的中-缅神经机器翻译模型.在训练阶段,利用白盒对抗攻击,生成基于梯度方向的扰动样本,并引入混合注意力权重筛选策略,优先对翻译质量影... 在对抗训练中过度引入噪声会导致神经机器翻译模型鲁棒性降低.为此,文中提出基于注意力优化对抗训练的中-缅神经机器翻译模型.在训练阶段,利用白盒对抗攻击,生成基于梯度方向的扰动样本,并引入混合注意力权重筛选策略,优先对翻译质量影响较大的词汇施加扰动,从而在不增加噪声比例的情况下提升扰动的针对性.在预测阶段,结合相对熵损失函数,有效缩小噪声分布与干净分布的差距,兼顾模型对噪声的鲁棒性与对干净数据的拟合能力.以缅→中翻译为主要实验对象,并在越→中和英→法任务上进行延伸验证实验,结果表明文中模型的BLEU指标有一定提升. 展开更多
关键词 对抗训练 神经机器翻译 注意力筛选 扰动样本
在线阅读 下载PDF
融合双重注意力机制的缅甸语图像文本识别方法
2
作者 王奉孝 毛存礼 +3 位作者 余正涛 高盛祥 黄于欣 刘福浩 《中文信息学报》 北大核心 2025年第1期47-55,共9页
由于缅甸语字符具有独特的语言编码结构以及字符组合规则,现有图像文本识别方法在缅甸语图像识别任务中无法充分关注文字边缘的特征,会导致缅甸语字符上下标丢失的问题。因此,该文基于Transformer框架的图像文本识别方法做出改进,提出... 由于缅甸语字符具有独特的语言编码结构以及字符组合规则,现有图像文本识别方法在缅甸语图像识别任务中无法充分关注文字边缘的特征,会导致缅甸语字符上下标丢失的问题。因此,该文基于Transformer框架的图像文本识别方法做出改进,提出一种融合通道和空间注意力机制的视觉关注模块,旨在捕获像素级成对关系和通道依赖关系,降低缅甸语图像中噪声干扰,从而获得语义更完整的特征图。此外,在解码过程中,将基于多头注意力的解码单元组合为解码器,用于将特征序列转化为缅甸语文字。实验结果表明,该方法在自构的缅甸语图像文本识别数据集上相比Transformer识别准确率提高0.5%,达到95.3%。 展开更多
关键词 缅甸语 文本识别 通道和空间注意力 特征增强 文字边缘特征
在线阅读 下载PDF
融合图像骨架特征的端到端老挝车牌照识别方法
3
作者 张凌霄 毛存礼 +2 位作者 陈蕊 高盛祥 王振晗 《昆明理工大学学报(自然科学版)》 北大核心 2025年第4期84-94,共11页
在中老道路互通和跨境交通日益发展的背景下,老挝车牌照自动识别技术在提升跨境交通运营效率和管理可靠性方面发挥着关键作用.尽管中英文车牌照识别技术已趋于成熟,但针对老挝车牌照的识别仍面临挑战.老挝车牌照具有独特的双行结构特征... 在中老道路互通和跨境交通日益发展的背景下,老挝车牌照自动识别技术在提升跨境交通运营效率和管理可靠性方面发挥着关键作用.尽管中英文车牌照识别技术已趋于成熟,但针对老挝车牌照的识别仍面临挑战.老挝车牌照具有独特的双行结构特征,且其下行老挝辅音字符存在多个形态相似字符组,导致传统车牌识别方法在应用中普遍存在相似字符识别易混淆等问题.鉴于上述挑战,本文提出了一种融合图像骨架特征的端到端老挝车牌照识别方法.该模型通过改进的深度残差网络提取车牌图像的骨架特征,并引入交叉注意力机制,实现骨架特征与原始图像特征的多层次融合,从而有效地提升了相似字符的辨识能力.实验结果表明,提出的方法与最优基线模型相比,在识别准确率上提升了2.0个百分点,达到94.7%,显著改善了老挝车牌相似字符的区分能力. 展开更多
关键词 老挝车牌照识别 图像骨架特征 相似字符识别 图像特征融合 端到端
原文传递
相似音节增强的越汉跨语言实体消歧
4
作者 李裕娟 宋燃 +3 位作者 毛存礼 黄于欣 高盛祥 陆杉 《中文信息学报》 北大核心 2025年第9期71-80,共10页
跨语言实体消歧旨在源语言句子中找到与目标语言相对应的实体,对跨语言自然语言处理任务有重要支撑。现有跨语言实体消歧方法在资源丰富的语言上能得到较好的效果,但在资源稀缺的语言上效果不佳,其中越南语-汉语就是一对典型的低资源语... 跨语言实体消歧旨在源语言句子中找到与目标语言相对应的实体,对跨语言自然语言处理任务有重要支撑。现有跨语言实体消歧方法在资源丰富的语言上能得到较好的效果,但在资源稀缺的语言上效果不佳,其中越南语-汉语就是一对典型的低资源语言;另一方面,汉语和越南语是非同源语言,存在较大差异,导致跨语言表征困难;因此现有的方法很难适用于越南语-汉语的实体消歧。事实上,汉语和越南语具有相似的音节特点,能够增强越-汉跨语言的实体表示。为更好地融合音节特征,该文提出相似音节增强的越汉跨语言实体消歧方法,缓解了越南语-汉语数据稀缺和语言差异导致的性能不佳的问题。实验表明,该文所提出方法优于现有的实体消歧方法,R@1指标性能提升了5.63%。 展开更多
关键词 实体消歧 音节相似性 越汉跨语言
在线阅读 下载PDF
越南语短语树到依存树的转换研究 被引量:5
5
作者 李英 郭剑毅 +2 位作者 余正涛 毛存礼 线岩团 《计算机科学与探索》 CSCD 北大核心 2017年第4期599-607,共9页
依存句法分析是自然语言处理的一个关键环节,目前对于越南语短语结构树的研究比较多,而依存结构树的研究就显得十分薄弱。提出了一种新的方法,尝试结合越南语的语言特点和语法特征,利用中心子节点过滤表的思想与统计的方法将越南语的短... 依存句法分析是自然语言处理的一个关键环节,目前对于越南语短语结构树的研究比较多,而依存结构树的研究就显得十分薄弱。提出了一种新的方法,尝试结合越南语的语言特点和语法特征,利用中心子节点过滤表的思想与统计的方法将越南语的短语结构树转换成依存结构树。首先依据中文依存关系标注体系与越南语的语法规则,制定出依存关系列表;然后结合越南语的语言特点,制定出中心子节点过滤表,利用中心子节点过滤表的思想进行初步转化;最后使用依存关系标注器来进行依存关系标注。基于转换后得到的依存结构树,利用MSTParser工具进一步训练得到更多的越南语依存结构树。对实验结果进行了抽样评估,树库转换的准确率达到了89.4%,较好地解决了越南语由短语树到依存树的转换问题。 展开更多
关键词 句法分析 中心子节点过滤表 短语结构 依存结构 树库
在线阅读 下载PDF
融合语言特性的越南语兼类词消歧 被引量:3
6
作者 郭剑毅 赵晨 +2 位作者 刘艳超 毛存礼 余正涛 《数据采集与处理》 CSCD 北大核心 2019年第4期577-584,共8页
兼类词歧义直接影响词性标注的准确率。本文针对越南语兼类词歧义问题提出一种融合语言特性的越南语兼类词消歧方法。通过构建越南语兼类词词典和兼类词语料库,分析越南语的语言特征和兼类词特点,选取有效的特征集;然后利用条件随机场... 兼类词歧义直接影响词性标注的准确率。本文针对越南语兼类词歧义问题提出一种融合语言特性的越南语兼类词消歧方法。通过构建越南语兼类词词典和兼类词语料库,分析越南语的语言特征和兼类词特点,选取有效的特征集;然后利用条件随机场能添加任意特征等优点,在使用词和词性上下文信息的同时,引入句法成分和指示词特征,得到消歧模型。最后在兼类词语料上实验,准确率达到了87.23%。实验表明本文所提出的越南语兼类词消歧方法有效可行,可以提高词性标注正确率。 展开更多
关键词 兼类词消歧 兼类词词典 兼类词语料库 语言特征 条件随机场模型 越南语
在线阅读 下载PDF
基于神经自回归分布估计的涉案新闻主题模型构建方法 被引量:5
7
作者 毛存礼 梁昊远 +3 位作者 余正涛 郭军军 黄于欣 高盛祥 《中文信息学报》 CSCD 北大核心 2021年第2期89-98,共10页
神经主题模型能有效获取文本的深层语义特征,但现有的神经主题模型忽略了外部知识对获取主题分布的帮助。因此,针对涉案主题分析任务,该文提出了一种基于神经自回归分布估计的涉案新闻主题模型构建方法。以案件要素作为外部知识对iDocNA... 神经主题模型能有效获取文本的深层语义特征,但现有的神经主题模型忽略了外部知识对获取主题分布的帮助。因此,针对涉案主题分析任务,该文提出了一种基于神经自回归分布估计的涉案新闻主题模型构建方法。以案件要素作为外部知识对iDocNADEe模型进行了扩展,通过计算案件要素与主题词的相关度来构建注意力机制对iDocNADEe模型双向编码的隐状态进行加权,利用神经自回归算法计算加权后的主题词双向隐状态的自回归条件概率实现涉案新闻文本主题模型构建。实验结果表明,该文提出方法较基线模型困惑度降低了0.66%、主题连贯性提高了6.26%,并且在文档检索精确率方面也明显高于基线模型。 展开更多
关键词 案件要素 iDocNADEe 注意力机制 神经自回归分布估计 涉案新闻 主题模型
在线阅读 下载PDF
结构特征一致性约束的双语平行句对抽取 被引量:2
8
作者 毛存礼 高旭 +3 位作者 余正涛 王振晗 高盛祥 满志博 《重庆大学学报》 EI CAS CSCD 北大核心 2021年第1期46-56,共11页
平行句对抽取是解决低资源神经机器翻译平行语料不足的有效途径。基于孪生神经网络的平行句对抽取方法的核心是通过跨语言语义相似度判断2个句子是否平行,在相似的语言对上取得了非常显著的效果。然而针对英语东南亚语言双语句对抽取任... 平行句对抽取是解决低资源神经机器翻译平行语料不足的有效途径。基于孪生神经网络的平行句对抽取方法的核心是通过跨语言语义相似度判断2个句子是否平行,在相似的语言对上取得了非常显著的效果。然而针对英语东南亚语言双语句对抽取任务,面临语言空间和句子长度存在较大差异,仅考虑跨语言语义相似度而忽略句子长度特征会导致模型对仅有语义包含关系但不平行句对的误判。笔者提出一种结构特征一致性约束的双语平行句对抽取方法,该方法是对基于孪生神经网络的双语平行句对抽取模型的扩展,首先通过多语言BERT预训练语言模型在嵌入层将两种语言编码到同一语义空间,以此缩小语义空间中语言的差异。其次分别对两种语言句子的长度特征进行编码,与孪生网络编码后的句子语义向量进行融合,增强平行句对在语义及结构特征上的表示,降低模型对语义相似但不平行句对的误判。在英缅双语数据集上进行实验,结果表明提出的方法相比基线模型准确率提高了4.64%,召回率提高了2.52%,F 1值提高了3.51%。 展开更多
关键词 双语平行句对 低资源语言 BERT预训练 孪生网络 结构
在线阅读 下载PDF
基于知识蒸馏的缅甸语光学字符识别方法 被引量:2
9
作者 毛存礼 谢旭阳 +3 位作者 余正涛 高盛祥 王振晗 刘福浩 《数据采集与处理》 CSCD 北大核心 2022年第1期173-182,共10页
与传统的图像文本识别任务不同,缅甸语光学字符识别(Optical character recognition,OCR)需要计算机在一个感受野内识别由多个字符嵌套组合的复杂字符,这给缅甸语OCR任务带来了巨大的挑战。为了解决该问题,提出了一种基于知识蒸馏的缅甸... 与传统的图像文本识别任务不同,缅甸语光学字符识别(Optical character recognition,OCR)需要计算机在一个感受野内识别由多个字符嵌套组合的复杂字符,这给缅甸语OCR任务带来了巨大的挑战。为了解决该问题,提出了一种基于知识蒸馏的缅甸语OCR方法,构建了使用卷积神经网络(Convolutional neural networks,CNN)+循环神经网络(Recurrent neural network,RNN)框架的教师网络和学生网络,以集成学习的方式进行训练的模型架构,在训练过程中通过教师集成的子网络与学生网络进行耦合,实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐,以此增强对长序列字符图像中局部特征的获取。实验结果表明,在没有背景噪声图像和有背景噪声图像作为训练数据集的情况下,本文模型的性能分别优于基线2.9%和2.7%。 展开更多
关键词 缅甸语 光学字符识别 卷积神经网络+循环神经网络 知识蒸馏 图像特征对齐
在线阅读 下载PDF
基于领域知识图谱和对比学习的汉越跨境民族文本检索方法 被引量:3
10
作者 刘思源 毛存礼 张勇丙 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期610-619,共10页
汉越跨境民族文本检索是一类面向领域的跨语言检索任务,旨在以一种语言作为问题查询,检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档.但在汉越跨境民族文本检索任务中存在大量不常见的领域实体,实体表达形式多样,且中文和... 汉越跨境民族文本检索是一类面向领域的跨语言检索任务,旨在以一种语言作为问题查询,检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档.但在汉越跨境民族文本检索任务中存在大量不常见的领域实体,实体表达形式多样,且中文和越南语两种语言领域实体没有直接对应关系,导致跨语言领域词对齐和语义对齐困难,进而影响汉越跨境民族文本检索模型性能.基于此,提出一种基于领域知识图谱和对比学习的汉越跨境民族文本检索方法.首先,利用多头注意力机制将汉越跨境民族领域知识图谱融入查询和文档,丰富查询和文档中不常见的跨境民族领域实体信息;然后,引入对比学习来解决跨语言查询和文档的语义表征对齐困难问题;最后,将融入知识图谱的查询和文档表征之间的相似度计算作为相关性分数.实验表明,提出的方法和基线模型相比,性能提高了4.1%. 展开更多
关键词 跨境民族文化 跨境民族知识图谱 跨语言检索 对比学习 信息检索
在线阅读 下载PDF
基于CNN-CorrNet网络的汉缅平行句对抽取方法 被引量:1
11
作者 毛存礼 吴霞 +3 位作者 朱俊国 余正涛 李云龙 王振晗 《中文信息学报》 CSCD 北大核心 2020年第11期60-66,共7页
构建双语平行语料库是提升低资源语言机器翻译质量的一种有效方法。该文提出了基于CNN-CorrNet网络的汉缅平行句对抽取方法。具体而言,该文首先利用BERT得到汉语、缅语词向量表征,并将汉语、缅语两种语言句子用卷积神经网络进行句子表征... 构建双语平行语料库是提升低资源语言机器翻译质量的一种有效方法。该文提出了基于CNN-CorrNet网络的汉缅平行句对抽取方法。具体而言,该文首先利用BERT得到汉语、缅语词向量表征,并将汉语、缅语两种语言句子用卷积神经网络进行句子表征,以捕捉句子重要特征信息;然后为了保证两种语言跨语言表征的最大相关性,利用已有的汉缅平行句对作为约束条件,使用CorrNet(相关神经网络)将汉缅的句子表征投影到公共语义空间;最后计算公共语义空间中汉语、缅语句子距离,并根据距离判断汉—缅双语句子是否为平行句子。实验结果表明,相比最大熵模型、孪生网络模型,该文提出的方法F1值分别提升了13.3%、5.1%。 展开更多
关键词 汉缅双语 平行句对 卷积神经网络 相关神经网络 公共语义空间
在线阅读 下载PDF
基于实体语义扩展的跨境民族文化文本检索 被引量:1
12
作者 毛存礼 郝鹏鹏 +3 位作者 雷雄丽 王斌 王红斌 张亚飞 《中文信息学报》 CSCD 北大核心 2022年第11期101-109,共9页
由于跨境民族相关的文化实体常出现相同实体具有不同名称表达的情况,使用当前主流的文本检索方法在跨境民族文化数据集上将面临语义稀疏的问题。该文提出一种基于实体语义扩展的跨境民族文化检索方法,利用跨境民族文化知识图谱,以知识... 由于跨境民族相关的文化实体常出现相同实体具有不同名称表达的情况,使用当前主流的文本检索方法在跨境民族文化数据集上将面临语义稀疏的问题。该文提出一种基于实体语义扩展的跨境民族文化检索方法,利用跨境民族文化知识图谱,以知识三元组的形式将跨境民族文化之间的实体关联起来,并添加实体类别标签,以此缓解跨境民族文化实体中语义信息不充分的问题。通过TransH模型对实体及扩展语义信息进行向量化表示,融合到查询文本中进行语义增强,以此提升跨境民族文化文本检索的准确性。实验结果表明,该方法比基线模型提高了5.4%。 展开更多
关键词 文本检索 跨境民族文化 知识图谱 实体语义扩展
在线阅读 下载PDF
基于半监督的汉缅双语词典构建方法
13
作者 毛存礼 陆杉 +3 位作者 王红斌 余正涛 吴霞 王振晗 《中文信息学报》 CSCD 北大核心 2021年第7期47-53,共7页
汉缅双语词典是开展机器翻译、跨语言检索等研究的重要数据资源。当前在种子词典的基础上使用迭代自学习的方法在平行语料中抽取双语词典取得了较好的效果,然而针对低资源语言汉语-缅语的双语词典抽取任务,由于双语平行资源匮乏,基于迭... 汉缅双语词典是开展机器翻译、跨语言检索等研究的重要数据资源。当前在种子词典的基础上使用迭代自学习的方法在平行语料中抽取双语词典取得了较好的效果,然而针对低资源语言汉语-缅语的双语词典抽取任务,由于双语平行资源匮乏,基于迭代自学习的方法不能得到有效的双语词向量表示,致使双语词典抽取模型准确度较低。研究表明,可比语料中相似词语往往具有相似的上下文,为此,该文提出了一种基于半监督的汉缅双语词典构建方法,通过利用预训练语言模型来构建双语词汇的上下文特征向量,对基于可比语料和小规模种子词典的迭代自学习方法得到的汉缅双语词汇进行语义增强。实验结果表明,该文提出的方法相较于基线方法有明显的性能提升。 展开更多
关键词 汉缅双语 种子词典 迭代自学习 预训练语言模型 上下文特征 半监督
在线阅读 下载PDF
基于卷积神经网络的缅甸语分词方法 被引量:4
14
作者 林颂凯 毛存礼 +3 位作者 余正涛 郭剑毅 王红斌 张家富 《中文信息学报》 CSCD 北大核心 2018年第6期62-70,79,共10页
音节是缅甸语的最小构词单位。当前主流的基于统计的分词方法效果严重依赖于预先标注的训练样本集规模及人工方式选取特征的质量,然而,缅甸语属于稀缺资源语言,分词语料标注及特征选取面临较大困难。该文提出一种基于卷积神经网络的缅... 音节是缅甸语的最小构词单位。当前主流的基于统计的分词方法效果严重依赖于预先标注的训练样本集规模及人工方式选取特征的质量,然而,缅甸语属于稀缺资源语言,分词语料标注及特征选取面临较大困难。该文提出一种基于卷积神经网络的缅甸语分词方法,首先将缅甸语音节结构特征应用于缅甸语音节词向量特征分布式表示,然后基于卷积神经网络将音节及其上下文的特征进行融合,得到有效的特征表示,并通过深层网络的逐层特征优化自动学习到缅甸语分词的有效特征向量,最后利用softmax分类器来对构成缅甸语词汇的音节序列标记进行预测。实验结果表明,该方法取得了较好的效果。 展开更多
关键词 分词 缅甸语 卷积神经网络 巴克斯范式 词向量
在线阅读 下载PDF
融入领域术语词典的司法舆情敏感信息识别 被引量:14
15
作者 张泽锋 毛存礼 +2 位作者 余正涛 黄于欣 刘奕洋 《中文信息学报》 CSCD 北大核心 2022年第9期76-83,92,共9页
司法舆情敏感信息识别主要是从海量网络文本中识别出与司法领域相关的敏感舆情。当前,面向司法舆情敏感信息识别的研究较少,相比通用领域的敏感信息识别任务,司法舆情敏感信息具有描述不规范、冗余信息多以及领域词汇过多等特点,这使得... 司法舆情敏感信息识别主要是从海量网络文本中识别出与司法领域相关的敏感舆情。当前,面向司法舆情敏感信息识别的研究较少,相比通用领域的敏感信息识别任务,司法舆情敏感信息具有描述不规范、冗余信息多以及领域词汇过多等特点,这使得通用模型并不适用该任务。为此,该文提出融入领域术语词典的司法舆情敏感信息识别模型。首先使用双向循环神经网络和多头注意力机制对舆情文本进行编码,得到具有权重信息的文本表示;其次将领域术语词典作为分类的指导知识,与舆情文本表征构建相似矩阵,得到融入领域术语词典的司法敏感文本表征;然后利用卷积神经网络对其进行局部信息编码,再利用多头注意力机制获取具有敏感权重的局部特征;最后实现司法领域敏感信息识别。实验结果表明,相比Bi-LSTM Attention基线模型,F_(1)值提升了8%。 展开更多
关键词 司法舆情 敏感信息 领域术语词典 多头注意力机制
在线阅读 下载PDF
融合多粒度特征的低资源语言词性标注和依存分析联合模型 被引量:3
16
作者 陆杉 毛存礼 +3 位作者 余正涛 高盛祥 黄于欣 王振晗 《中文信息学报》 CSCD 北大核心 2023年第7期13-22,共10页
研究低资源语言的词性标注和依存分析对推动低资源自然语言处理任务有着重要的作用。针对低资源语言词嵌入表示,已有工作并没有充分利用字符、子词层面信息编码,导致模型无法利用不同粒度的特征。对此,该文提出融合多粒度特征的词嵌入表... 研究低资源语言的词性标注和依存分析对推动低资源自然语言处理任务有着重要的作用。针对低资源语言词嵌入表示,已有工作并没有充分利用字符、子词层面信息编码,导致模型无法利用不同粒度的特征。对此,该文提出融合多粒度特征的词嵌入表示,利用不同的语言模型分别获得字符、子词以及词语层面的语义信息,将三种粒度的词嵌入进行拼接,达到丰富语义信息的目的,缓解由于标注数据稀缺导致的依存分析模型性能不佳的问题。进一步将词性标注和依存分析模型进行联合训练,使模型之间能相互共享知识,降低词性标注错误在依存分析任务上的线性传递。以泰语、越南语为研究对象,在宾州树库数据集上的试验表明,该文方法相比于基线模型的UAS、LAS、POS均有明显提升。 展开更多
关键词 低资源语言 词性标注 依存分析 多粒度特征 联合模型
在线阅读 下载PDF
基于时空注意力机制的视频引导机器翻译方法 被引量:2
17
作者 姜舟 余正涛 +2 位作者 高盛祥 毛存礼 郭军军 《中文信息学报》 CSCD 北大核心 2024年第4期50-58,共9页
视频引导机器翻译是一种多模态机器翻译任务,其目标是通过视频和文本的结合产生高质量的文本翻译。但是之前的工作只基于视频中的时间结构选择相关片段引导机器翻译,所选片段中存在大量与目标语言无关的信息。因此,在翻译过程中,视频中... 视频引导机器翻译是一种多模态机器翻译任务,其目标是通过视频和文本的结合产生高质量的文本翻译。但是之前的工作只基于视频中的时间结构选择相关片段引导机器翻译,所选片段中存在大量与目标语言无关的信息。因此,在翻译过程中,视频中的时空结构没有得到充分利用,从而无法有效缓解机器翻译中细节缺失或翻译错误的问题。为了解决这一问题,该文提出了一种基于时空注意力(Spatial-Temporal Attention,STA)的模型来充分利用视频中的时空信息引导机器翻译。该文提出的注意力模型不但能够选择与目标语言最相关的时空片段,而且能进一步聚焦片段中最相关的实体信息。所关注的实体信息能有效增强源语言和目标语言的语义对齐,从而使得源语言中的细节信息得到准确翻译。该文的方法基于Vatex公共数据集和构建的汉-越低资源数据集进行实验,在Vatex与汉-越低资源数据集上BLEU4分别达到32.66和18.46,相比于时间注意力基线方法提高了3.54与0.89个BLEU值。 展开更多
关键词 时空注意力 视频引导机器翻译 细节缺失 时间注意力 空间注意力
在线阅读 下载PDF
融合主题模型及双语词向量的汉缅双语可比文档获取方法 被引量:2
18
作者 李训宇 毛存礼 +3 位作者 余正涛 高盛祥 王振晗 张亚飞 《中文信息学报》 CSCD 北大核心 2021年第1期88-95,共8页
缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分... 缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。 展开更多
关键词 主题模型 双语词向量 文档相似度 汉语—缅甸语 双语可比文档
在线阅读 下载PDF
融入领域知识的跨境民族文化生成式摘要方法 被引量:3
19
作者 赵冠博 张勇丙 +2 位作者 毛存礼 高盛祥 王奉孝 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期620-628,共9页
从跨境民族文化文本中生成具有领域知识的摘要对进一步开展跨境民族文化文本检索、问答等任务具有重要的支撑作用,当前基于深度学习的生成式文本摘要取得了较好的效果,但直接用于跨境民族文化文本摘要任务会导致生成的摘要出现领域词汇... 从跨境民族文化文本中生成具有领域知识的摘要对进一步开展跨境民族文化文本检索、问答等任务具有重要的支撑作用,当前基于深度学习的生成式文本摘要取得了较好的效果,但直接用于跨境民族文化文本摘要任务会导致生成的摘要出现领域词汇丢失的问题.为此,提出一种融入领域知识的跨境民族文化生成式摘要方法(Domain Knowledge-Culture-Generative Summary,DKCGS),在编码端将跨境民族文化领域词典编码与原文本编码融合,以此增强模型对领域词汇的表征能力;在解码端,基于指针生成网络将具有同义或跨境关系的领域词汇分布与原文本分布结合,提高模型生成文化领域词汇的准确率.同时,在通用领域文本上进行预训练并进一步初始化参数,以缓解数据稀缺导致模型训练效果不佳的问题.实验结果表明,提出的方法在跨境民族文本摘要数据集上比基线模型的Rouge-1提升了0.95,有效提升了跨境民族文化文本摘要生成的质量. 展开更多
关键词 跨境民族文化 领域知识 指针生成网络 预训练 文本摘要
在线阅读 下载PDF
基于编码转写增强词嵌入迁移的老-中神经机器翻译 被引量:2
20
作者 唐聪 毛存礼 +2 位作者 高盛祥 张思琦 王振晗 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第6期1016-1023,共8页
[目的]迁移学习是提升低资源神经机器翻译性能的有效方法,然而现有迁移学习方法在泰语到老挝语迁移学习上表现不佳,主要问题在于泰语和老挝语的书写体系不同,难以建立准确的迁移词表映射.[方法]因此,本文提出基于编码转写增强词嵌入迁... [目的]迁移学习是提升低资源神经机器翻译性能的有效方法,然而现有迁移学习方法在泰语到老挝语迁移学习上表现不佳,主要问题在于泰语和老挝语的书写体系不同,难以建立准确的迁移词表映射.[方法]因此,本文提出基于编码转写增强词嵌入迁移的老-中神经机器翻译方法,利用泰老发音相似性构建统一罗马化转写规则,对泰语和老挝语进行编码转写,建立准确词表映射关系,进而实现泰语到老挝语的增强词嵌入迁移.[结果]实验结果表明,本文所提方法在老-中和老-英两个翻译方向上相比基线模型提升2.45和2.74个BLEU值.[结论]本文方法在低资源语言间迁移学习中表现良好. 展开更多
关键词 迁移学习 泰语 老挝语 罗马化 机器翻译
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部