随着互联网的发展和网民规模的扩大,线上信息传播更加便捷,但其中夹杂的敏感信息会危害网络社会和谐,尤其是影响低龄网民的价值观。因此,对敏感信息的自动化监测和识别非常重要。传统的自动化识别方法依赖于敏感词库,有一定的局限性,而...随着互联网的发展和网民规模的扩大,线上信息传播更加便捷,但其中夹杂的敏感信息会危害网络社会和谐,尤其是影响低龄网民的价值观。因此,对敏感信息的自动化监测和识别非常重要。传统的自动化识别方法依赖于敏感词库,有一定的局限性,而深度学习技术的发展为敏感信息识别带来了新契机。基于LSTM模型,参考BiLSTM模型逻辑,结合注意力机制提出基于深层双向LSTM与Multi Head Attention的敏感文本识别方法DBLSTM_Multi Head-Attention,并以新浪微博内容为数据来源,经主题模型筛选、回译法增强后,得到33452条高质量数据用于训练、验证和测试。实验结果显示,该模型准确率达到90.79%,精确率达到93.37%,召回率达到94.21%,F1值为0.9379,综合性能优于其他模型。该研究为互联网信息监管提供了有力的技术支撑。展开更多
文摘随着互联网的发展和网民规模的扩大,线上信息传播更加便捷,但其中夹杂的敏感信息会危害网络社会和谐,尤其是影响低龄网民的价值观。因此,对敏感信息的自动化监测和识别非常重要。传统的自动化识别方法依赖于敏感词库,有一定的局限性,而深度学习技术的发展为敏感信息识别带来了新契机。基于LSTM模型,参考BiLSTM模型逻辑,结合注意力机制提出基于深层双向LSTM与Multi Head Attention的敏感文本识别方法DBLSTM_Multi Head-Attention,并以新浪微博内容为数据来源,经主题模型筛选、回译法增强后,得到33452条高质量数据用于训练、验证和测试。实验结果显示,该模型准确率达到90.79%,精确率达到93.37%,召回率达到94.21%,F1值为0.9379,综合性能优于其他模型。该研究为互联网信息监管提供了有力的技术支撑。