基于自注意力机制的Transformer在大多数自然语言处理(NLP)任务中表现出色,但以往的工作表明,将Transformer应用于说话人确认时竞争力不强,特别是在局部建模能力、轻量级的结构以及实时推理能力上。针对这些问题,从3个方面提出一种改进T...基于自注意力机制的Transformer在大多数自然语言处理(NLP)任务中表现出色,但以往的工作表明,将Transformer应用于说话人确认时竞争力不强,特别是在局部建模能力、轻量级的结构以及实时推理能力上。针对这些问题,从3个方面提出一种改进Transformer的端到端说话人确认模型DTF-Transformer(Deep Treatment Fusion-Transformer)。首先,使用一种简化的多尺度注意力代替多头注意力,以提升模型的局部建模能力并降低参数量;其次,设计轻量级的前馈网络(FFN),进一步在降低模型参数量的同时加快推理;最后,对于不同深度下的特征应用融合机制提高模型对深层特征的表达与泛化能力。在公共基准数据集VoxCeleb和CN-Celeb上的实验结果表明,相较于流行的ResNet34和ECAPA-TDNN(Emphasized Channel Attention, Propagation and Aggregation in Time Delay Neural Network based speaker verification)结构,DTFTransformer在VoxCeleb1-O和CN-Celeb(E)测试集上的等错误率(EER)分别下降了14%、24%和43%、15%,并且,DTFTransformer在不损失精度的情况更轻量,推理速度较优。展开更多
知识蒸馏的核心思想是利用1个作为教师网络的大型模型来指导1个作为学生网络的小型模型,提升学生网络在图像分类任务上的性能.现有知识蒸馏方法通常从单一的输入样本中提取类别概率或特征信息作为知识,并没有对样本间关系进行建模,造成...知识蒸馏的核心思想是利用1个作为教师网络的大型模型来指导1个作为学生网络的小型模型,提升学生网络在图像分类任务上的性能.现有知识蒸馏方法通常从单一的输入样本中提取类别概率或特征信息作为知识,并没有对样本间关系进行建模,造成网络的表征学习能力下降.为解决此问题,本文引入图卷积神经网络,将输入样本集视为图结点构建关系图,图中的每个样本都可以聚合其他样本信息,提升样本的表征能力.本文从图结点和图关系2个角度构建图表征知识蒸馏误差,利用元学习引导学生网络自适应学习教师网络更佳的图表征,提升学生网络的图建模能力.相比于基线方法,本文提出的图表征知识蒸馏方法在加拿大高等研究院(Canadian Institute For Advanced Research,CIFAR)发布的100种分类数据集上提升了3.70%的分类准确率,表明本文方法引导学生网络学习到了更具有判别性的特征空间,提升了图像分类能力.展开更多
文摘基于自注意力机制的Transformer在大多数自然语言处理(NLP)任务中表现出色,但以往的工作表明,将Transformer应用于说话人确认时竞争力不强,特别是在局部建模能力、轻量级的结构以及实时推理能力上。针对这些问题,从3个方面提出一种改进Transformer的端到端说话人确认模型DTF-Transformer(Deep Treatment Fusion-Transformer)。首先,使用一种简化的多尺度注意力代替多头注意力,以提升模型的局部建模能力并降低参数量;其次,设计轻量级的前馈网络(FFN),进一步在降低模型参数量的同时加快推理;最后,对于不同深度下的特征应用融合机制提高模型对深层特征的表达与泛化能力。在公共基准数据集VoxCeleb和CN-Celeb上的实验结果表明,相较于流行的ResNet34和ECAPA-TDNN(Emphasized Channel Attention, Propagation and Aggregation in Time Delay Neural Network based speaker verification)结构,DTFTransformer在VoxCeleb1-O和CN-Celeb(E)测试集上的等错误率(EER)分别下降了14%、24%和43%、15%,并且,DTFTransformer在不损失精度的情况更轻量,推理速度较优。
文摘知识蒸馏的核心思想是利用1个作为教师网络的大型模型来指导1个作为学生网络的小型模型,提升学生网络在图像分类任务上的性能.现有知识蒸馏方法通常从单一的输入样本中提取类别概率或特征信息作为知识,并没有对样本间关系进行建模,造成网络的表征学习能力下降.为解决此问题,本文引入图卷积神经网络,将输入样本集视为图结点构建关系图,图中的每个样本都可以聚合其他样本信息,提升样本的表征能力.本文从图结点和图关系2个角度构建图表征知识蒸馏误差,利用元学习引导学生网络自适应学习教师网络更佳的图表征,提升学生网络的图建模能力.相比于基线方法,本文提出的图表征知识蒸馏方法在加拿大高等研究院(Canadian Institute For Advanced Research,CIFAR)发布的100种分类数据集上提升了3.70%的分类准确率,表明本文方法引导学生网络学习到了更具有判别性的特征空间,提升了图像分类能力.