AGED,全称为ArGument Extractor with Definitions in FrameNet,是最近提出的一种框架语义角色标注(FSRL)模型。该模型以框架和框架元素的定义为模板,在整个训练语料上使用预训练语言模型进行编码,是一种基于论元查询的FSRL模型。然而,...AGED,全称为ArGument Extractor with Definitions in FrameNet,是最近提出的一种框架语义角色标注(FSRL)模型。该模型以框架和框架元素的定义为模板,在整个训练语料上使用预训练语言模型进行编码,是一种基于论元查询的FSRL模型。然而,随着语料规模和模型参数的日益增加,AGED模型的训练和超参数调优变得相当耗时,进而影响了AGED模型的训练和调优效率。为此,该文在训练阶段引入集成学习方法,在调优阶段引入正交设计方法,提出了基于正则化m×2交叉验证(m×2 BCV)的AGED集成模型。具体地,在训练阶段,该文引入m×2 BCV和众数投票结合的集成学习方法,在整个训练语料上使用m×2 BCV构造多组训练子集和验证子集;然后利用并行训练技术和AGED模型生成多个AGED子模型;最后利用众数投票方法集成这些子模型,构造性能更优的AGED集成模型。在调优阶段,使用正交设计方法,以最大化验证集上F_(1)值为优化目标,从AGED集成模型的大量超参数组合中选出一部分具有代表性的超参数组合进行调优。实验结果表明,与AGED模型相比,提出的AGED集成模型在测试集上的F_(1)值可以提高1.34百分点,且训练时间仅占AGED模型的0.79倍,这充分验证了AGED集成模型的有效性。此外,该文也开展了消融实验,验证了AGED集成模型中引入的集成学习方法和正交设计方法的有效性。展开更多
文摘AGED,全称为ArGument Extractor with Definitions in FrameNet,是最近提出的一种框架语义角色标注(FSRL)模型。该模型以框架和框架元素的定义为模板,在整个训练语料上使用预训练语言模型进行编码,是一种基于论元查询的FSRL模型。然而,随着语料规模和模型参数的日益增加,AGED模型的训练和超参数调优变得相当耗时,进而影响了AGED模型的训练和调优效率。为此,该文在训练阶段引入集成学习方法,在调优阶段引入正交设计方法,提出了基于正则化m×2交叉验证(m×2 BCV)的AGED集成模型。具体地,在训练阶段,该文引入m×2 BCV和众数投票结合的集成学习方法,在整个训练语料上使用m×2 BCV构造多组训练子集和验证子集;然后利用并行训练技术和AGED模型生成多个AGED子模型;最后利用众数投票方法集成这些子模型,构造性能更优的AGED集成模型。在调优阶段,使用正交设计方法,以最大化验证集上F_(1)值为优化目标,从AGED集成模型的大量超参数组合中选出一部分具有代表性的超参数组合进行调优。实验结果表明,与AGED模型相比,提出的AGED集成模型在测试集上的F_(1)值可以提高1.34百分点,且训练时间仅占AGED模型的0.79倍,这充分验证了AGED集成模型的有效性。此外,该文也开展了消融实验,验证了AGED集成模型中引入的集成学习方法和正交设计方法的有效性。