【目的】工业控制系统(industrial control system,ICS)中设备间通信过程高度依赖工控协议来实现,协议安全性对保障ICS稳定运行起到关键作用。漏洞挖掘与入侵检测等作为ICS安全防御体系的核心技术组件,其有效性依赖于对工控协议结构及...【目的】工业控制系统(industrial control system,ICS)中设备间通信过程高度依赖工控协议来实现,协议安全性对保障ICS稳定运行起到关键作用。漏洞挖掘与入侵检测等作为ICS安全防御体系的核心技术组件,其有效性依赖于对工控协议结构及语义功能的精确解析。协议逆向分析作为解析协议结构与语义功能的关键技术,其核心环节语义推断精度直接决定协议理解的准确性。然而,受限于工控协议文档缺失、格式异构性强等现实条件,现有语义推断方法普遍依赖专家经验,存在自动化水平不足、跨协议泛化性能有限等固有瓶颈,难以适应实际工业环境中多源异构协议的高精度解析需求。【方法】为解决上述问题,本文提出mBERT协同多源领域自适应与结构化掩码策略的语义推断方法。通过mBERT模型实现跨协议通用语义表示;利用结合注意力权重与位置编码设计的结构化掩码策略,增强模型对协议结构和语义内在联系的表示能力,提高语义推断方法的自动化程度和效率;利用结合对抗训练的多源领域自适应逐步微调策略,提升模型对多个源协议的语义通用表示能力,增强其在多种工控协议上的适用性,实现关键字语义的有效推断。【结果】在辽宁省石油化工行业信息安全重点实验室的典型能源企业攻防演练靶场中开展实验验证,采集了S7comm、Modbus/TCP和EtherNet/IP三种工控协议数据,并利用协议复杂度评分机制组建训练数据集。结果表明,多源领域自适应逐步微调策略能够显著提升模型性能,将其与结构化掩码策略结合,进一步提高了语义推断精度,且本文方法在精确度、召回率与F_(1)分数指标上均显著优于现有基线方法。【结论】本文提出了mBERT协同多源领域自适应与结构化掩码策略的语义推断方法,在语义推断中采用高维球面映射与多任务损失函数,增强了不同语义类别的区分度与模型对协议语义的深层辨识能力。本文方法不仅显著降低了对人工先验知识的依赖,也提升了语义推断效率与跨协议适用性,为工控协议逆向分析及工业系统安全防护提供了具备理论支撑的新路径。展开更多
藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,...藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,但由于藏文受分词技术的限制,直接以词作为文本摘要生成的基本单元,对性能的影响较大。针对上述问题,构建包含10523条文本-摘要对的多领域藏文短文本摘要数据集TB-SUM,在研究藏文文本构成单元的基础上,提出适用于藏文文本摘要生成的不同基本单元融合方法,并构建融合不同基本单元的藏文文本摘要生成模型Fusion_GloVe_GRU_Atten,利用全局词向量表示(GloVe)模块实现藏文文本向量化后通过双向门控循环单元(Bi-GRU)模块对输入向量进行编码,利用注意力机制获取输入向量的完整语义信息,使解码器更加关注与当前单词相关的编码器输出,同时将GRU作为解码器生成藏文摘要。在数据集TB-SUM和Ti-SUM上的实验结果表明,以音节和词的融合作为模型训练的基本单元,以音节作为测试的基本单元时,Fusion_GloVe_GRU_Atten模型生成短文本摘要效果更好,能得到更高的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分数。展开更多
作为表征学科领域知识结构的经典知识网络,共词网络方法受特征关键词共现关系稀疏、关键词同义不同形及语料利用不充分等因素影响,在面对大规模学科领域数据时,难以精准描绘关键词间的语义关联关系。从理论与方法论层面对共词网络进行扩...作为表征学科领域知识结构的经典知识网络,共词网络方法受特征关键词共现关系稀疏、关键词同义不同形及语料利用不充分等因素影响,在面对大规模学科领域数据时,难以精准描绘关键词间的语义关联关系。从理论与方法论层面对共词网络进行扩展,以全面揭示学科领域研究主题在宏观、微观等层面上的语义演化过程具有现实意义。本文将学科领域特征关键词视为网络顶点,通过全局词嵌入模型(global vectors for word representation,GloVe)获取特征关键词的向量表示,并将对应词向量间的归一化余弦相似度设定为网络连边权重,构建全连接、无向的词向量网络。进一步地,本文详细分析了学科领域词向量网络的作用与特征,提出基于词向量网络的科研主题语义漂移分析框架,并就其表征的语义关联关系与共词网络中的共现关系进行比较分析。研究发现,本文提出的学科领域词向量网络作为一类特殊的知识网络,是特征关键词的共词网络在语义超空间上的映射,具有明显的社区结构和时序演化分析价值。与共词网络方法相比,学科领域词向量网络在表征学科领域的关键概念上具有一致性,并在反映学科领域知识结构时更具稳定性和全面性,能够精细化揭示科研主题在微观层面上产生的语义漂移等更细粒度的演化过程。展开更多
文摘【目的】工业控制系统(industrial control system,ICS)中设备间通信过程高度依赖工控协议来实现,协议安全性对保障ICS稳定运行起到关键作用。漏洞挖掘与入侵检测等作为ICS安全防御体系的核心技术组件,其有效性依赖于对工控协议结构及语义功能的精确解析。协议逆向分析作为解析协议结构与语义功能的关键技术,其核心环节语义推断精度直接决定协议理解的准确性。然而,受限于工控协议文档缺失、格式异构性强等现实条件,现有语义推断方法普遍依赖专家经验,存在自动化水平不足、跨协议泛化性能有限等固有瓶颈,难以适应实际工业环境中多源异构协议的高精度解析需求。【方法】为解决上述问题,本文提出mBERT协同多源领域自适应与结构化掩码策略的语义推断方法。通过mBERT模型实现跨协议通用语义表示;利用结合注意力权重与位置编码设计的结构化掩码策略,增强模型对协议结构和语义内在联系的表示能力,提高语义推断方法的自动化程度和效率;利用结合对抗训练的多源领域自适应逐步微调策略,提升模型对多个源协议的语义通用表示能力,增强其在多种工控协议上的适用性,实现关键字语义的有效推断。【结果】在辽宁省石油化工行业信息安全重点实验室的典型能源企业攻防演练靶场中开展实验验证,采集了S7comm、Modbus/TCP和EtherNet/IP三种工控协议数据,并利用协议复杂度评分机制组建训练数据集。结果表明,多源领域自适应逐步微调策略能够显著提升模型性能,将其与结构化掩码策略结合,进一步提高了语义推断精度,且本文方法在精确度、召回率与F_(1)分数指标上均显著优于现有基线方法。【结论】本文提出了mBERT协同多源领域自适应与结构化掩码策略的语义推断方法,在语义推断中采用高维球面映射与多任务损失函数,增强了不同语义类别的区分度与模型对协议语义的深层辨识能力。本文方法不仅显著降低了对人工先验知识的依赖,也提升了语义推断效率与跨协议适用性,为工控协议逆向分析及工业系统安全防护提供了具备理论支撑的新路径。
文摘藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,但由于藏文受分词技术的限制,直接以词作为文本摘要生成的基本单元,对性能的影响较大。针对上述问题,构建包含10523条文本-摘要对的多领域藏文短文本摘要数据集TB-SUM,在研究藏文文本构成单元的基础上,提出适用于藏文文本摘要生成的不同基本单元融合方法,并构建融合不同基本单元的藏文文本摘要生成模型Fusion_GloVe_GRU_Atten,利用全局词向量表示(GloVe)模块实现藏文文本向量化后通过双向门控循环单元(Bi-GRU)模块对输入向量进行编码,利用注意力机制获取输入向量的完整语义信息,使解码器更加关注与当前单词相关的编码器输出,同时将GRU作为解码器生成藏文摘要。在数据集TB-SUM和Ti-SUM上的实验结果表明,以音节和词的融合作为模型训练的基本单元,以音节作为测试的基本单元时,Fusion_GloVe_GRU_Atten模型生成短文本摘要效果更好,能得到更高的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分数。
文摘作为表征学科领域知识结构的经典知识网络,共词网络方法受特征关键词共现关系稀疏、关键词同义不同形及语料利用不充分等因素影响,在面对大规模学科领域数据时,难以精准描绘关键词间的语义关联关系。从理论与方法论层面对共词网络进行扩展,以全面揭示学科领域研究主题在宏观、微观等层面上的语义演化过程具有现实意义。本文将学科领域特征关键词视为网络顶点,通过全局词嵌入模型(global vectors for word representation,GloVe)获取特征关键词的向量表示,并将对应词向量间的归一化余弦相似度设定为网络连边权重,构建全连接、无向的词向量网络。进一步地,本文详细分析了学科领域词向量网络的作用与特征,提出基于词向量网络的科研主题语义漂移分析框架,并就其表征的语义关联关系与共词网络中的共现关系进行比较分析。研究发现,本文提出的学科领域词向量网络作为一类特殊的知识网络,是特征关键词的共词网络在语义超空间上的映射,具有明显的社区结构和时序演化分析价值。与共词网络方法相比,学科领域词向量网络在表征学科领域的关键概念上具有一致性,并在反映学科领域知识结构时更具稳定性和全面性,能够精细化揭示科研主题在微观层面上产生的语义漂移等更细粒度的演化过程。