社交媒体在灾害发生时能够快速提供实时且丰富的灾情信息,为应急救援提供辅助参考。然而,社交媒体信息通常以短文本形式呈现,具有口语化、语义特征稀疏和标注语料匮乏等特征,给灾情信息的识别与分析带来挑战。为此,本文提出了一种结合...社交媒体在灾害发生时能够快速提供实时且丰富的灾情信息,为应急救援提供辅助参考。然而,社交媒体信息通常以短文本形式呈现,具有口语化、语义特征稀疏和标注语料匮乏等特征,给灾情信息的识别与分析带来挑战。为此,本文提出了一种结合灾害领域知识的预训练语言模型增强方法,用于识别和分类灾情信息。首先,构建灾情知识库,包含不同灾损事件的触发词及论元;其他,通过分析短文本与灾损事件触发词的语义相似度,生成灾损知识编码;最后,将灾情领域知识与预训练词向量融合增强特征向量并输入神经网络模型实现多标签分类。以2021年7月20日前后河南暴雨灾情数据为例,将本文方法与TextCNN、Attention based CNN模型进行了对比实验,结果表明,该方法不仅有效提升了小样本数据的分类精度,还有效缓解了语义高度重合的数据类型容易错分的问题。同时,对分类结果进行灾损事件论元匹配能够充分挖掘涉灾短文本中的有效灾情信息,辅助应急救援决策。展开更多
观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该...观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该文提出使用情感分布增强(Sentiment Distribution Enhanced,SDE)方法改进现有基于狄利克雷过程混合模型的短文本流聚类算法,以高斯分布建模文本情感,并推导相应的坍缩吉布斯采样算法推断参数。该方法在捕获文本情感特征的同时,能够自动确定聚类簇数量并实现观点聚类。与现有先进方法在Tweets、Google News数据集上的对比实验显示,该文提出的方法在标准化互信息、准确度等指标上取得了超越现有模型的聚类表现,并且在主观性较强的数据集上具有更显著的优势。展开更多
藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,...藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,但由于藏文受分词技术的限制,直接以词作为文本摘要生成的基本单元,对性能的影响较大。针对上述问题,构建包含10523条文本-摘要对的多领域藏文短文本摘要数据集TB-SUM,在研究藏文文本构成单元的基础上,提出适用于藏文文本摘要生成的不同基本单元融合方法,并构建融合不同基本单元的藏文文本摘要生成模型Fusion_GloVe_GRU_Atten,利用全局词向量表示(GloVe)模块实现藏文文本向量化后通过双向门控循环单元(Bi-GRU)模块对输入向量进行编码,利用注意力机制获取输入向量的完整语义信息,使解码器更加关注与当前单词相关的编码器输出,同时将GRU作为解码器生成藏文摘要。在数据集TB-SUM和Ti-SUM上的实验结果表明,以音节和词的融合作为模型训练的基本单元,以音节作为测试的基本单元时,Fusion_GloVe_GRU_Atten模型生成短文本摘要效果更好,能得到更高的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分数。展开更多
文摘社交媒体在灾害发生时能够快速提供实时且丰富的灾情信息,为应急救援提供辅助参考。然而,社交媒体信息通常以短文本形式呈现,具有口语化、语义特征稀疏和标注语料匮乏等特征,给灾情信息的识别与分析带来挑战。为此,本文提出了一种结合灾害领域知识的预训练语言模型增强方法,用于识别和分类灾情信息。首先,构建灾情知识库,包含不同灾损事件的触发词及论元;其他,通过分析短文本与灾损事件触发词的语义相似度,生成灾损知识编码;最后,将灾情领域知识与预训练词向量融合增强特征向量并输入神经网络模型实现多标签分类。以2021年7月20日前后河南暴雨灾情数据为例,将本文方法与TextCNN、Attention based CNN模型进行了对比实验,结果表明,该方法不仅有效提升了小样本数据的分类精度,还有效缓解了语义高度重合的数据类型容易错分的问题。同时,对分类结果进行灾损事件论元匹配能够充分挖掘涉灾短文本中的有效灾情信息,辅助应急救援决策。
文摘观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该文提出使用情感分布增强(Sentiment Distribution Enhanced,SDE)方法改进现有基于狄利克雷过程混合模型的短文本流聚类算法,以高斯分布建模文本情感,并推导相应的坍缩吉布斯采样算法推断参数。该方法在捕获文本情感特征的同时,能够自动确定聚类簇数量并实现观点聚类。与现有先进方法在Tweets、Google News数据集上的对比实验显示,该文提出的方法在标准化互信息、准确度等指标上取得了超越现有模型的聚类表现,并且在主观性较强的数据集上具有更显著的优势。
文摘藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,但由于藏文受分词技术的限制,直接以词作为文本摘要生成的基本单元,对性能的影响较大。针对上述问题,构建包含10523条文本-摘要对的多领域藏文短文本摘要数据集TB-SUM,在研究藏文文本构成单元的基础上,提出适用于藏文文本摘要生成的不同基本单元融合方法,并构建融合不同基本单元的藏文文本摘要生成模型Fusion_GloVe_GRU_Atten,利用全局词向量表示(GloVe)模块实现藏文文本向量化后通过双向门控循环单元(Bi-GRU)模块对输入向量进行编码,利用注意力机制获取输入向量的完整语义信息,使解码器更加关注与当前单词相关的编码器输出,同时将GRU作为解码器生成藏文摘要。在数据集TB-SUM和Ti-SUM上的实验结果表明,以音节和词的融合作为模型训练的基本单元,以音节作为测试的基本单元时,Fusion_GloVe_GRU_Atten模型生成短文本摘要效果更好,能得到更高的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分数。