社交媒体在灾害发生时能够快速提供实时且丰富的灾情信息,为应急救援提供辅助参考。然而,社交媒体信息通常以短文本形式呈现,具有口语化、语义特征稀疏和标注语料匮乏等特征,给灾情信息的识别与分析带来挑战。为此,本文提出了一种结合...社交媒体在灾害发生时能够快速提供实时且丰富的灾情信息,为应急救援提供辅助参考。然而,社交媒体信息通常以短文本形式呈现,具有口语化、语义特征稀疏和标注语料匮乏等特征,给灾情信息的识别与分析带来挑战。为此,本文提出了一种结合灾害领域知识的预训练语言模型增强方法,用于识别和分类灾情信息。首先,构建灾情知识库,包含不同灾损事件的触发词及论元;其他,通过分析短文本与灾损事件触发词的语义相似度,生成灾损知识编码;最后,将灾情领域知识与预训练词向量融合增强特征向量并输入神经网络模型实现多标签分类。以2021年7月20日前后河南暴雨灾情数据为例,将本文方法与TextCNN、Attention based CNN模型进行了对比实验,结果表明,该方法不仅有效提升了小样本数据的分类精度,还有效缓解了语义高度重合的数据类型容易错分的问题。同时,对分类结果进行灾损事件论元匹配能够充分挖掘涉灾短文本中的有效灾情信息,辅助应急救援决策。展开更多
传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标...传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标签混淆的数据增强(LCDA)技术,从文本和标签这2个基本方面入手,为数据提供全面的强化。在文本方面,通过对文本进行标点符号随机插入和替换以及句末标点符号补齐等增强,在保留全部文本信息和顺序的同时增加文本的多样性;在标签方面,采用标签混淆方法生成模拟标签分布替代传统的one-hot标签分布,以更好地反映实例和标签与标签之间的关系。在THUCNews(TsingHua University Chinese News)和Toutiao这2个中文新闻数据集构建的小样本数据集上分别结合TextCNN、TextRNN、BERT(Bidirectional Encoder Representations from Transformers)和RoBERTa-CNN(Robustly optimized BERT approach Convolutional Neural Network)文本分类模型的实验结果表明,与增强前相比,性能均得到显著提升。其中,在由THUCNews数据集构造的50-THU数据集上,4种模型结合LCDA技术后的准确率相较于增强前分别提高了1.19、6.87、3.21和2.89个百分点;相较于softEDA(Easy Data Augmentation with soft labels)方法增强的模型分别提高了0.78、7.62、1.75和1.28个百分点。通过在文本和标签这2个维度的处理结果可知,LCDA技术能显著提升模型的准确率,在数据量较少的应用场景中表现尤为突出。展开更多
针对现有的基于注意力机制的方法难以捕捉文本之间复杂的依赖关系的问题,提出一种基于对比学习增强双注意力机制的多标签文本分类方法。首先,分别学习基于自注意力和基于标签注意力的文本表示,并融合二者以获得更全面的文本表示捕捉文...针对现有的基于注意力机制的方法难以捕捉文本之间复杂的依赖关系的问题,提出一种基于对比学习增强双注意力机制的多标签文本分类方法。首先,分别学习基于自注意力和基于标签注意力的文本表示,并融合二者以获得更全面的文本表示捕捉文本的结构特征以及文本与标签之间的语义关联;其次,给定一个多标签对比学习目标,利用标签引导的文本相似度监督文本表示的学习,以捕捉文本之间在主题、内容和结构层面上复杂的依赖关系;最后,使用前馈神经网络作为分类器进行文本分类。实验结果表明,相较于LDGN(Label-specific Dual Graph neural Network),所提方法在EUR-Lex(European Union Law Document)数据集与Reuters-21578数据集上的排名第5处的归一化折现累积收益(nDCG@5)值分别提升了1.81和0.86个百分点,在AAPD(Arxiv Academic Paper Dataset)数据集与RCV1(Reuters Corpus VolumeⅠ)数据集上也都取得了有竞争力的结果。可见,所提方法能有效捕捉文本之间在主题、内容和结构层面上复杂的依赖关系,从而在多标签文本分类任务上取得较优结果。展开更多
针对当下层级文本分类模型尚未充分利用层级实例的标签信息以及缺乏对类别分布不平衡的处理这两方面问题,本文提出一种面向标签共现和长尾分布的层级文本分类方法(hierarchical text classification for label cooccurrence and long-ta...针对当下层级文本分类模型尚未充分利用层级实例的标签信息以及缺乏对类别分布不平衡的处理这两方面问题,本文提出一种面向标签共现和长尾分布的层级文本分类方法(hierarchical text classification for label cooccurrence and long-tail distribution,LC-LTD),对基于共享标签的文本全局语义和面向长尾分布的平衡损失函数进行研究.首先,设计一种基于共享标签的对比学习目标,使具有更多共享标签的文本表示在特征空间中的语义距离更近,引导模型生成具有判别性的语义表征;其次,引入分布平衡损失函数替换二进制交叉熵损失,缓解层级分类固有的长尾分布问题,提高模型的泛化能力.在WOS、BGC两个公开数据集上将LC-LTD与当前多个主流模型进行比较,结果表明所提方法具有更好的分类性能,更适合处理层级文本分类任务.展开更多
文摘社交媒体在灾害发生时能够快速提供实时且丰富的灾情信息,为应急救援提供辅助参考。然而,社交媒体信息通常以短文本形式呈现,具有口语化、语义特征稀疏和标注语料匮乏等特征,给灾情信息的识别与分析带来挑战。为此,本文提出了一种结合灾害领域知识的预训练语言模型增强方法,用于识别和分类灾情信息。首先,构建灾情知识库,包含不同灾损事件的触发词及论元;其他,通过分析短文本与灾损事件触发词的语义相似度,生成灾损知识编码;最后,将灾情领域知识与预训练词向量融合增强特征向量并输入神经网络模型实现多标签分类。以2021年7月20日前后河南暴雨灾情数据为例,将本文方法与TextCNN、Attention based CNN模型进行了对比实验,结果表明,该方法不仅有效提升了小样本数据的分类精度,还有效缓解了语义高度重合的数据类型容易错分的问题。同时,对分类结果进行灾损事件论元匹配能够充分挖掘涉灾短文本中的有效灾情信息,辅助应急救援决策。
文摘传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标签混淆的数据增强(LCDA)技术,从文本和标签这2个基本方面入手,为数据提供全面的强化。在文本方面,通过对文本进行标点符号随机插入和替换以及句末标点符号补齐等增强,在保留全部文本信息和顺序的同时增加文本的多样性;在标签方面,采用标签混淆方法生成模拟标签分布替代传统的one-hot标签分布,以更好地反映实例和标签与标签之间的关系。在THUCNews(TsingHua University Chinese News)和Toutiao这2个中文新闻数据集构建的小样本数据集上分别结合TextCNN、TextRNN、BERT(Bidirectional Encoder Representations from Transformers)和RoBERTa-CNN(Robustly optimized BERT approach Convolutional Neural Network)文本分类模型的实验结果表明,与增强前相比,性能均得到显著提升。其中,在由THUCNews数据集构造的50-THU数据集上,4种模型结合LCDA技术后的准确率相较于增强前分别提高了1.19、6.87、3.21和2.89个百分点;相较于softEDA(Easy Data Augmentation with soft labels)方法增强的模型分别提高了0.78、7.62、1.75和1.28个百分点。通过在文本和标签这2个维度的处理结果可知,LCDA技术能显著提升模型的准确率,在数据量较少的应用场景中表现尤为突出。
文摘针对现有的基于注意力机制的方法难以捕捉文本之间复杂的依赖关系的问题,提出一种基于对比学习增强双注意力机制的多标签文本分类方法。首先,分别学习基于自注意力和基于标签注意力的文本表示,并融合二者以获得更全面的文本表示捕捉文本的结构特征以及文本与标签之间的语义关联;其次,给定一个多标签对比学习目标,利用标签引导的文本相似度监督文本表示的学习,以捕捉文本之间在主题、内容和结构层面上复杂的依赖关系;最后,使用前馈神经网络作为分类器进行文本分类。实验结果表明,相较于LDGN(Label-specific Dual Graph neural Network),所提方法在EUR-Lex(European Union Law Document)数据集与Reuters-21578数据集上的排名第5处的归一化折现累积收益(nDCG@5)值分别提升了1.81和0.86个百分点,在AAPD(Arxiv Academic Paper Dataset)数据集与RCV1(Reuters Corpus VolumeⅠ)数据集上也都取得了有竞争力的结果。可见,所提方法能有效捕捉文本之间在主题、内容和结构层面上复杂的依赖关系,从而在多标签文本分类任务上取得较优结果。
文摘针对当下层级文本分类模型尚未充分利用层级实例的标签信息以及缺乏对类别分布不平衡的处理这两方面问题,本文提出一种面向标签共现和长尾分布的层级文本分类方法(hierarchical text classification for label cooccurrence and long-tail distribution,LC-LTD),对基于共享标签的文本全局语义和面向长尾分布的平衡损失函数进行研究.首先,设计一种基于共享标签的对比学习目标,使具有更多共享标签的文本表示在特征空间中的语义距离更近,引导模型生成具有判别性的语义表征;其次,引入分布平衡损失函数替换二进制交叉熵损失,缓解层级分类固有的长尾分布问题,提高模型的泛化能力.在WOS、BGC两个公开数据集上将LC-LTD与当前多个主流模型进行比较,结果表明所提方法具有更好的分类性能,更适合处理层级文本分类任务.