医疗命名实体识别是从非结构化医疗文本中识别命名实体,在许多下游任务中起重要作用。医疗命名实体的复杂性需要专家利用领域知识进行标注,导致医疗领域存在严重的标注数据稀缺问题。为解决该问题,提出了一种基于实体感知掩码局部融合...医疗命名实体识别是从非结构化医疗文本中识别命名实体,在许多下游任务中起重要作用。医疗命名实体的复杂性需要专家利用领域知识进行标注,导致医疗领域存在严重的标注数据稀缺问题。为解决该问题,提出了一种基于实体感知掩码局部融合命名实体识别数据增强(entity aware mask local mixup data augmentation,EALMDA)方法。首先,使用实体感知掩码通道提取关键元素并掩码非实体部分,以保留核心语义。其次,通过上下文实体相似度和k近邻两种采样策略的线性组合对掩码句子进行融合,保留核心语义的同时增加样本的多样性。最后,经序列线性化操作后,将句子输入生成的模型中得到增强样本。在NCBI-disease等五个主流医疗命名实体识别数据集上,模拟低资源场景与主流的数据增强基线方法进行对比实验,所提方法的性能相比基线方法有显著提升。展开更多
横跨色尔腾山山前断裂布设一条长10.77 km的浅层地震勘探测线L1,结果发现,色尔腾山山前断裂在剖面上清晰可见,其主断裂在上部存在分叉,由断层F_(P1.1)和F_(P1)组成,均为正断层,视倾向南;结合地质地貌调查认为,F_(P1.1)断层的最新活动时...横跨色尔腾山山前断裂布设一条长10.77 km的浅层地震勘探测线L1,结果发现,色尔腾山山前断裂在剖面上清晰可见,其主断裂在上部存在分叉,由断层F_(P1.1)和F_(P1)组成,均为正断层,视倾向南;结合地质地貌调查认为,F_(P1.1)断层的最新活动时代为全新世。针对色尔腾山山前断裂的F_(P1)断层开展钻孔联合地质剖面探测,划分出Fa、Fb两个断层,结合光释光测年结果发现,断层Fa和Fb为全新世断层,其最新活动时代晚于2.5±0.6 ka BP。色尔腾山山前断裂在近地表呈叉状结构,是该断裂在晚第四纪具有多次活动的反映。展开更多
文摘医疗命名实体识别是从非结构化医疗文本中识别命名实体,在许多下游任务中起重要作用。医疗命名实体的复杂性需要专家利用领域知识进行标注,导致医疗领域存在严重的标注数据稀缺问题。为解决该问题,提出了一种基于实体感知掩码局部融合命名实体识别数据增强(entity aware mask local mixup data augmentation,EALMDA)方法。首先,使用实体感知掩码通道提取关键元素并掩码非实体部分,以保留核心语义。其次,通过上下文实体相似度和k近邻两种采样策略的线性组合对掩码句子进行融合,保留核心语义的同时增加样本的多样性。最后,经序列线性化操作后,将句子输入生成的模型中得到增强样本。在NCBI-disease等五个主流医疗命名实体识别数据集上,模拟低资源场景与主流的数据增强基线方法进行对比实验,所提方法的性能相比基线方法有显著提升。
文摘横跨色尔腾山山前断裂布设一条长10.77 km的浅层地震勘探测线L1,结果发现,色尔腾山山前断裂在剖面上清晰可见,其主断裂在上部存在分叉,由断层F_(P1.1)和F_(P1)组成,均为正断层,视倾向南;结合地质地貌调查认为,F_(P1.1)断层的最新活动时代为全新世。针对色尔腾山山前断裂的F_(P1)断层开展钻孔联合地质剖面探测,划分出Fa、Fb两个断层,结合光释光测年结果发现,断层Fa和Fb为全新世断层,其最新活动时代晚于2.5±0.6 ka BP。色尔腾山山前断裂在近地表呈叉状结构,是该断裂在晚第四纪具有多次活动的反映。