煤矿安全风险辨识文本包含丰富的风险特征描述与专家经验知识,深入挖掘这些文本对实现风险等级预测具有重要价值。针对风险辨识文本存在小样本、短文本及语义复杂问题,提出了一种融合类别描述与增强嵌入的煤矿安全风险预测模型。该方法...煤矿安全风险辨识文本包含丰富的风险特征描述与专家经验知识,深入挖掘这些文本对实现风险等级预测具有重要价值。针对风险辨识文本存在小样本、短文本及语义复杂问题,提出了一种融合类别描述与增强嵌入的煤矿安全风险预测模型。该方法在句子级嵌入维度对文本进行数据增强,有效扩充训练样本;通过构建风险类别描述引入煤矿领域知识,并利用注意力机制对风险类别描述进行动态融合,为煤矿安全风险样本补充专业知识;使用双向长短期记忆(Bidirectional Long Short-Term Memory,Bi-LSTM)网络与Mamba算法对原始文本特征进行深度提取,获取煤矿文本复杂情境下的核心特征;最后使用动态门控机制融合各模块特征,输出预测结果。研究表明,该模型在小规模煤矿风险辨识数据集上准确率和F1均有不错的表现,可基于煤矿安全风险辨识文本为煤矿安全风险等级预测提供支持。展开更多
在短文本分类这一热门研究领域,预训练模型虽表现出色,但存在数据表征散布和转移学习受限等问题,导致分类效果降低。尽管诸如ERNIE(enhanced representation through knowledge integration)等大模型提升了分类效果,但由于其速度慢、资...在短文本分类这一热门研究领域,预训练模型虽表现出色,但存在数据表征散布和转移学习受限等问题,导致分类效果降低。尽管诸如ERNIE(enhanced representation through knowledge integration)等大模型提升了分类效果,但由于其速度慢、资源需求大、受硬件限制等问题,难以应用于工业生产。为此提出了基于ERNIE的辅助任务模型EL(ERNIE+LAT(learning with auxiliary tasks)),旨在验证其获取更优类别特征的可行性。针对工业任务落地需求,同时提出知识蒸馏法,对EL与TextCNN模型进行蒸馏训练,以验证其在提升分类效果以及线上推理效率方面的可行性。研究验证现有预训练模型在公共数据集上的分类优势;采用辅助任务结合预训练模型的方法进行实验改进;并基于知识蒸馏法深入推进模型加速研究。实验表明,通过联合训练能够提升模型的泛化能力与特征提取能力,进而增强特定任务下的学习能力;学生模型TextCNN经蒸馏后不仅可与教师模型相媲美,在线上部署时还更具优势。展开更多
社交媒体在灾害发生时能够快速提供实时且丰富的灾情信息,为应急救援提供辅助参考。然而,社交媒体信息通常以短文本形式呈现,具有口语化、语义特征稀疏和标注语料匮乏等特征,给灾情信息的识别与分析带来挑战。为此,本文提出了一种结合...社交媒体在灾害发生时能够快速提供实时且丰富的灾情信息,为应急救援提供辅助参考。然而,社交媒体信息通常以短文本形式呈现,具有口语化、语义特征稀疏和标注语料匮乏等特征,给灾情信息的识别与分析带来挑战。为此,本文提出了一种结合灾害领域知识的预训练语言模型增强方法,用于识别和分类灾情信息。首先,构建灾情知识库,包含不同灾损事件的触发词及论元;其他,通过分析短文本与灾损事件触发词的语义相似度,生成灾损知识编码;最后,将灾情领域知识与预训练词向量融合增强特征向量并输入神经网络模型实现多标签分类。以2021年7月20日前后河南暴雨灾情数据为例,将本文方法与TextCNN、Attention based CNN模型进行了对比实验,结果表明,该方法不仅有效提升了小样本数据的分类精度,还有效缓解了语义高度重合的数据类型容易错分的问题。同时,对分类结果进行灾损事件论元匹配能够充分挖掘涉灾短文本中的有效灾情信息,辅助应急救援决策。展开更多
观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该...观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该文提出使用情感分布增强(Sentiment Distribution Enhanced,SDE)方法改进现有基于狄利克雷过程混合模型的短文本流聚类算法,以高斯分布建模文本情感,并推导相应的坍缩吉布斯采样算法推断参数。该方法在捕获文本情感特征的同时,能够自动确定聚类簇数量并实现观点聚类。与现有先进方法在Tweets、Google News数据集上的对比实验显示,该文提出的方法在标准化互信息、准确度等指标上取得了超越现有模型的聚类表现,并且在主观性较强的数据集上具有更显著的优势。展开更多
文摘煤矿安全风险辨识文本包含丰富的风险特征描述与专家经验知识,深入挖掘这些文本对实现风险等级预测具有重要价值。针对风险辨识文本存在小样本、短文本及语义复杂问题,提出了一种融合类别描述与增强嵌入的煤矿安全风险预测模型。该方法在句子级嵌入维度对文本进行数据增强,有效扩充训练样本;通过构建风险类别描述引入煤矿领域知识,并利用注意力机制对风险类别描述进行动态融合,为煤矿安全风险样本补充专业知识;使用双向长短期记忆(Bidirectional Long Short-Term Memory,Bi-LSTM)网络与Mamba算法对原始文本特征进行深度提取,获取煤矿文本复杂情境下的核心特征;最后使用动态门控机制融合各模块特征,输出预测结果。研究表明,该模型在小规模煤矿风险辨识数据集上准确率和F1均有不错的表现,可基于煤矿安全风险辨识文本为煤矿安全风险等级预测提供支持。
文摘在短文本分类这一热门研究领域,预训练模型虽表现出色,但存在数据表征散布和转移学习受限等问题,导致分类效果降低。尽管诸如ERNIE(enhanced representation through knowledge integration)等大模型提升了分类效果,但由于其速度慢、资源需求大、受硬件限制等问题,难以应用于工业生产。为此提出了基于ERNIE的辅助任务模型EL(ERNIE+LAT(learning with auxiliary tasks)),旨在验证其获取更优类别特征的可行性。针对工业任务落地需求,同时提出知识蒸馏法,对EL与TextCNN模型进行蒸馏训练,以验证其在提升分类效果以及线上推理效率方面的可行性。研究验证现有预训练模型在公共数据集上的分类优势;采用辅助任务结合预训练模型的方法进行实验改进;并基于知识蒸馏法深入推进模型加速研究。实验表明,通过联合训练能够提升模型的泛化能力与特征提取能力,进而增强特定任务下的学习能力;学生模型TextCNN经蒸馏后不仅可与教师模型相媲美,在线上部署时还更具优势。
文摘社交媒体在灾害发生时能够快速提供实时且丰富的灾情信息,为应急救援提供辅助参考。然而,社交媒体信息通常以短文本形式呈现,具有口语化、语义特征稀疏和标注语料匮乏等特征,给灾情信息的识别与分析带来挑战。为此,本文提出了一种结合灾害领域知识的预训练语言模型增强方法,用于识别和分类灾情信息。首先,构建灾情知识库,包含不同灾损事件的触发词及论元;其他,通过分析短文本与灾损事件触发词的语义相似度,生成灾损知识编码;最后,将灾情领域知识与预训练词向量融合增强特征向量并输入神经网络模型实现多标签分类。以2021年7月20日前后河南暴雨灾情数据为例,将本文方法与TextCNN、Attention based CNN模型进行了对比实验,结果表明,该方法不仅有效提升了小样本数据的分类精度,还有效缓解了语义高度重合的数据类型容易错分的问题。同时,对分类结果进行灾损事件论元匹配能够充分挖掘涉灾短文本中的有效灾情信息,辅助应急救援决策。
文摘观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该文提出使用情感分布增强(Sentiment Distribution Enhanced,SDE)方法改进现有基于狄利克雷过程混合模型的短文本流聚类算法,以高斯分布建模文本情感,并推导相应的坍缩吉布斯采样算法推断参数。该方法在捕获文本情感特征的同时,能够自动确定聚类簇数量并实现观点聚类。与现有先进方法在Tweets、Google News数据集上的对比实验显示,该文提出的方法在标准化互信息、准确度等指标上取得了超越现有模型的聚类表现,并且在主观性较强的数据集上具有更显著的优势。