【目的】工业控制系统(industrial control system,ICS)中设备间通信过程高度依赖工控协议来实现,协议安全性对保障ICS稳定运行起到关键作用。漏洞挖掘与入侵检测等作为ICS安全防御体系的核心技术组件,其有效性依赖于对工控协议结构及...【目的】工业控制系统(industrial control system,ICS)中设备间通信过程高度依赖工控协议来实现,协议安全性对保障ICS稳定运行起到关键作用。漏洞挖掘与入侵检测等作为ICS安全防御体系的核心技术组件,其有效性依赖于对工控协议结构及语义功能的精确解析。协议逆向分析作为解析协议结构与语义功能的关键技术,其核心环节语义推断精度直接决定协议理解的准确性。然而,受限于工控协议文档缺失、格式异构性强等现实条件,现有语义推断方法普遍依赖专家经验,存在自动化水平不足、跨协议泛化性能有限等固有瓶颈,难以适应实际工业环境中多源异构协议的高精度解析需求。【方法】为解决上述问题,本文提出mBERT协同多源领域自适应与结构化掩码策略的语义推断方法。通过mBERT模型实现跨协议通用语义表示;利用结合注意力权重与位置编码设计的结构化掩码策略,增强模型对协议结构和语义内在联系的表示能力,提高语义推断方法的自动化程度和效率;利用结合对抗训练的多源领域自适应逐步微调策略,提升模型对多个源协议的语义通用表示能力,增强其在多种工控协议上的适用性,实现关键字语义的有效推断。【结果】在辽宁省石油化工行业信息安全重点实验室的典型能源企业攻防演练靶场中开展实验验证,采集了S7comm、Modbus/TCP和EtherNet/IP三种工控协议数据,并利用协议复杂度评分机制组建训练数据集。结果表明,多源领域自适应逐步微调策略能够显著提升模型性能,将其与结构化掩码策略结合,进一步提高了语义推断精度,且本文方法在精确度、召回率与F_(1)分数指标上均显著优于现有基线方法。【结论】本文提出了mBERT协同多源领域自适应与结构化掩码策略的语义推断方法,在语义推断中采用高维球面映射与多任务损失函数,增强了不同语义类别的区分度与模型对协议语义的深层辨识能力。本文方法不仅显著降低了对人工先验知识的依赖,也提升了语义推断效率与跨协议适用性,为工控协议逆向分析及工业系统安全防护提供了具备理论支撑的新路径。展开更多
针对通用分词方法在专业领域的中文分词任务中,由于跨领域的数据分布不匹配和大量未登录的专业词汇限制导致分词准确率低的问题,提出基于XLBMC(XLNet-BiGRU-Multi-head Self-attention-Conditional Random Field)的专业领域分词方法。...针对通用分词方法在专业领域的中文分词任务中,由于跨领域的数据分布不匹配和大量未登录的专业词汇限制导致分词准确率低的问题,提出基于XLBMC(XLNet-BiGRU-Multi-head Self-attention-Conditional Random Field)的专业领域分词方法。首先通过改进的XLNet预训练模型生成包含上下文语义信息的动态词向量,使模型能更好地利用边界特征和语义知识;然后将获取的词向量输入BiGRU中进行特征提取,得到每个字符的隐藏状态表示。在BiGRU编码的基础上,引入稀疏多头自注意力机制(Multi-head Self-attention)对每个字符加权表示,提高模型在受限内存预算下细粒度和强长期依赖性的时间序列的预测准确性。最后由CRF(Conditional Random Field)解码相邻标签之间的依赖关系,输出最佳的分词序列。在自建的控制工程语料上进行分词实验。结果表明,该分词模型准确率为94.27%,召回率为93.24%,F 1值为95.52%,证明其在专业领域中文分词任务中的可靠性。展开更多
文摘【目的】工业控制系统(industrial control system,ICS)中设备间通信过程高度依赖工控协议来实现,协议安全性对保障ICS稳定运行起到关键作用。漏洞挖掘与入侵检测等作为ICS安全防御体系的核心技术组件,其有效性依赖于对工控协议结构及语义功能的精确解析。协议逆向分析作为解析协议结构与语义功能的关键技术,其核心环节语义推断精度直接决定协议理解的准确性。然而,受限于工控协议文档缺失、格式异构性强等现实条件,现有语义推断方法普遍依赖专家经验,存在自动化水平不足、跨协议泛化性能有限等固有瓶颈,难以适应实际工业环境中多源异构协议的高精度解析需求。【方法】为解决上述问题,本文提出mBERT协同多源领域自适应与结构化掩码策略的语义推断方法。通过mBERT模型实现跨协议通用语义表示;利用结合注意力权重与位置编码设计的结构化掩码策略,增强模型对协议结构和语义内在联系的表示能力,提高语义推断方法的自动化程度和效率;利用结合对抗训练的多源领域自适应逐步微调策略,提升模型对多个源协议的语义通用表示能力,增强其在多种工控协议上的适用性,实现关键字语义的有效推断。【结果】在辽宁省石油化工行业信息安全重点实验室的典型能源企业攻防演练靶场中开展实验验证,采集了S7comm、Modbus/TCP和EtherNet/IP三种工控协议数据,并利用协议复杂度评分机制组建训练数据集。结果表明,多源领域自适应逐步微调策略能够显著提升模型性能,将其与结构化掩码策略结合,进一步提高了语义推断精度,且本文方法在精确度、召回率与F_(1)分数指标上均显著优于现有基线方法。【结论】本文提出了mBERT协同多源领域自适应与结构化掩码策略的语义推断方法,在语义推断中采用高维球面映射与多任务损失函数,增强了不同语义类别的区分度与模型对协议语义的深层辨识能力。本文方法不仅显著降低了对人工先验知识的依赖,也提升了语义推断效率与跨协议适用性,为工控协议逆向分析及工业系统安全防护提供了具备理论支撑的新路径。
文摘针对通用分词方法在专业领域的中文分词任务中,由于跨领域的数据分布不匹配和大量未登录的专业词汇限制导致分词准确率低的问题,提出基于XLBMC(XLNet-BiGRU-Multi-head Self-attention-Conditional Random Field)的专业领域分词方法。首先通过改进的XLNet预训练模型生成包含上下文语义信息的动态词向量,使模型能更好地利用边界特征和语义知识;然后将获取的词向量输入BiGRU中进行特征提取,得到每个字符的隐藏状态表示。在BiGRU编码的基础上,引入稀疏多头自注意力机制(Multi-head Self-attention)对每个字符加权表示,提高模型在受限内存预算下细粒度和强长期依赖性的时间序列的预测准确性。最后由CRF(Conditional Random Field)解码相邻标签之间的依赖关系,输出最佳的分词序列。在自建的控制工程语料上进行分词实验。结果表明,该分词模型准确率为94.27%,召回率为93.24%,F 1值为95.52%,证明其在专业领域中文分词任务中的可靠性。