医疗命名实体识别是从非结构化医疗文本中识别命名实体,在许多下游任务中起重要作用。医疗命名实体的复杂性需要专家利用领域知识进行标注,导致医疗领域存在严重的标注数据稀缺问题。为解决该问题,提出了一种基于实体感知掩码局部融合...医疗命名实体识别是从非结构化医疗文本中识别命名实体,在许多下游任务中起重要作用。医疗命名实体的复杂性需要专家利用领域知识进行标注,导致医疗领域存在严重的标注数据稀缺问题。为解决该问题,提出了一种基于实体感知掩码局部融合命名实体识别数据增强(entity aware mask local mixup data augmentation,EALMDA)方法。首先,使用实体感知掩码通道提取关键元素并掩码非实体部分,以保留核心语义。其次,通过上下文实体相似度和k近邻两种采样策略的线性组合对掩码句子进行融合,保留核心语义的同时增加样本的多样性。最后,经序列线性化操作后,将句子输入生成的模型中得到增强样本。在NCBI-disease等五个主流医疗命名实体识别数据集上,模拟低资源场景与主流的数据增强基线方法进行对比实验,所提方法的性能相比基线方法有显著提升。展开更多
文摘医疗命名实体识别是从非结构化医疗文本中识别命名实体,在许多下游任务中起重要作用。医疗命名实体的复杂性需要专家利用领域知识进行标注,导致医疗领域存在严重的标注数据稀缺问题。为解决该问题,提出了一种基于实体感知掩码局部融合命名实体识别数据增强(entity aware mask local mixup data augmentation,EALMDA)方法。首先,使用实体感知掩码通道提取关键元素并掩码非实体部分,以保留核心语义。其次,通过上下文实体相似度和k近邻两种采样策略的线性组合对掩码句子进行融合,保留核心语义的同时增加样本的多样性。最后,经序列线性化操作后,将句子输入生成的模型中得到增强样本。在NCBI-disease等五个主流医疗命名实体识别数据集上,模拟低资源场景与主流的数据增强基线方法进行对比实验,所提方法的性能相比基线方法有显著提升。