期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
物联网恶意流量的协同预处理与时空检测模型
1
作者 温雪岩 刘海鹏 +1 位作者 刘鹏 岳琪 《重庆理工大学学报(自然科学)》 北大核心 2025年第12期110-117,共8页
物联网恶意流量检测面临高维非平衡数据处理,攻击行为时空关联建模及边缘部署适配等挑战。现有方法在特征提取完整性、长程攻击关联性及分类边界优化方面存在局限。为此,提出多阶段协同预处理框架与深度时空融合检测模型,通过三级威胁... 物联网恶意流量检测面临高维非平衡数据处理,攻击行为时空关联建模及边缘部署适配等挑战。现有方法在特征提取完整性、长程攻击关联性及分类边界优化方面存在局限。为此,提出多阶段协同预处理框架与深度时空融合检测模型,通过三级威胁映射将43类攻击归并为6类高阶威胁,采用合成少数类过采样技术(synthetic minority oversampling technique, SMOTE)优化数据分布,构建基于残差注意力机制的时空联合感知网络,设计动态可调节分类头模块实现自适应权重调整。在CIC IoT dataset2023数据集上的实验表明,该方法综合检测精度达到97.10%,F1-score较传统长短期记忆网络(long short-term memory, LSTM)提升5.58个百分点。验证实验显示其对加密流量解析和低频攻击检测具有性能优势,模型参数量压缩显著,满足边缘计算环境部署需求。 展开更多
关键词 物联网安全 恶意流量检测 多阶段预处理 时空融合模型 动态分类头 CIC IoT数据集
在线阅读 下载PDF
基于GR算法的区块链智能合约漏洞检测
2
作者 王德广 单梦桃 +1 位作者 李凤岐 佟宁 《网络与信息安全学报》 2025年第2期76-86,共11页
智能合约作为区块链技术的核心执行载体,其安全性是确保链上数字资产有效管理的基石。针对当前智能合约漏洞检测存在覆盖漏洞类型有限、检测效率偏低的技术瓶颈,提出重点解决多类型漏洞检测与特征提取效率优化两大核心问题。为此,构建... 智能合约作为区块链技术的核心执行载体,其安全性是确保链上数字资产有效管理的基石。针对当前智能合约漏洞检测存在覆盖漏洞类型有限、检测效率偏低的技术瓶颈,提出重点解决多类型漏洞检测与特征提取效率优化两大核心问题。为此,构建了包含3000余条样本的5个专项数据集,覆盖可重入漏洞、时间戳依赖漏洞、整数型溢出漏洞、交易顺序依赖和交易授权漏洞等主流漏洞类型,为多种类检测奠定数据基础;在算法设计层面,提出改进的GR(gated recurrent unit-random forest)算法模型,其中改进型门控循环神经网络通过引入分离注意力机制强化关键漏洞特征的捕捉能力,而随机森林算法则采用信息熵优化策略实现全局特征的完整性保留,双通道处理架构既保证了关键漏洞特征的显著性提取,又避免了深层特征在传递过程中的信息衰减,旨在提升智能合约漏洞检测的种类数与效率。实验结果显示:GR算法模型能够识别出5种智能合约漏洞,准确率高达98.88%。相较于先前算法模型,检测效率提高3%以上,漏洞类型平均增加3种,验证了GR算法模型的可行性和优越性。 展开更多
关键词 区块链 智能合约 数据集预处理 漏洞检测算法
在线阅读 下载PDF
基于层次标注和自适应预处理的多源农业病害图像数据集构建 被引量:1
3
作者 胡婷 孙晓海 +2 位作者 宋海龙 廖昌义 王福德 《吉林大学学报(理学版)》 北大核心 2025年第3期815-821,共7页
针对农业病害图像数据集存在多样性和图像质量欠佳的问题,提出一种基于层次标注和自适应预处理的多源农业病害图像数据集构建方法.首先,利用智能手机、专业相机和无人机等设备从不同地区、作物种类及生长阶段采集图像,以确保数据的多样... 针对农业病害图像数据集存在多样性和图像质量欠佳的问题,提出一种基于层次标注和自适应预处理的多源农业病害图像数据集构建方法.首先,利用智能手机、专业相机和无人机等设备从不同地区、作物种类及生长阶段采集图像,以确保数据的多样性.其次,构建层次标注体系,涵盖农业病害类型、程度和部位3个层次,使用LabelImg和LabelMe等工具进行标注,并经专家审核.最后,应用自适应预处理方法,包括自动裁剪、归一化、去噪和增强,根据图像特征调整参数以提升质量.实验采用基于ResNet-50架构的卷积神经网络(CNN)模型进行验证,结果表明,层次标注和自适应预处理方法显著提升了数据集的质量和模型性能,模型在准确率、召回率和F1分数上分别达92.5%,91.8%和92.1%,优于其他数据集训练结果. 展开更多
关键词 农业病害图像 数据集构建 层次标注 自适应预处理 多源数据
在线阅读 下载PDF
基于BEV多模态特征融合的三维目标检测算法
4
作者 李珣 张友兵 +2 位作者 周奎 付勇智 宋杰 《计算机应用研究》 北大核心 2025年第12期3823-3831,共9页
针对多模态融合算法对小目标物体检测精度不足的问题,提出一种基于鸟瞰图视角多模态特征融合的三维目标检测算法(BEV-MFDet)。首先,对图像进行统一归一化,减少特征分布差异。对点云数据进行半径滤波与地面拟合,去除无效点云的影响。同时... 针对多模态融合算法对小目标物体检测精度不足的问题,提出一种基于鸟瞰图视角多模态特征融合的三维目标检测算法(BEV-MFDet)。首先,对图像进行统一归一化,减少特征分布差异。对点云数据进行半径滤波与地面拟合,去除无效点云的影响。同时,在柱化网络中引入空间注意力模块,增强网络对立柱特征的学习能力。其次,设计BEV全局注意力融合模块自适应分配多模态权重,更精准地表征场景特征。在KITTI数据集上的实验结果显示,该算法在中等难度的检测任务中综合表现最优。其中,在小目标自行车人类别的检测精度上,相较于综合表现较好的CenterPoint和LIN算法分别提升了2.51%和1.75%。实验结果表明,该算法在小目标检测精度和整体检测性能方面表现优越,具有较高的应用价值。 展开更多
关键词 BEV特征 数据预处理 全局注意力融合 KITTI数据集 三维目标检测
在线阅读 下载PDF
基于MIR-ATR、MIR-TR及NIR-TR的无创血糖定量检测比较分析
5
作者 曹书妍 李思瑶 +3 位作者 岳岩松 朱思聪 张朱珊莹 张献文 《化学试剂》 2025年第11期81-86,共6页
系统比较中红外衰减全反射(MIR-ATR)、中红外透射(MIR-TR)及近红外透射(NIR-TR)3种光谱技术在无创血糖定量检测中的性能差异,为临床选择高精度检测方法提供依据。实验通过配制30组梯度浓度葡萄糖仿体溶液(0.2~5 g/L)模拟人体血糖动态范... 系统比较中红外衰减全反射(MIR-ATR)、中红外透射(MIR-TR)及近红外透射(NIR-TR)3种光谱技术在无创血糖定量检测中的性能差异,为临床选择高精度检测方法提供依据。实验通过配制30组梯度浓度葡萄糖仿体溶液(0.2~5 g/L)模拟人体血糖动态范围,利用3种技术采集光谱数据,并结合偏最小二乘(PLS)和主成分回归(PCR)模型,评估3种数据集划分方法(ESD、KS、SPXY)及5种预处理算法(SG、SNV、DOSC、MSC、SG_1)的优化效果。结果表明,MIR-ATR技术表现出最优预测性能,其PLS模型结合ESD数据集划分法的预测相关系数(R_(p))高达0.9991,预测均方根误差(RMSEP)仅为0.0787 g/L,显著优于MIR-TR(R_(p)=0.9968)和NIR-TR(R_(p)=0.9834)。ESD划分法在MIR-ATR中效果最佳,而NIR-TR需依赖SPXY划分以抑制噪声干扰。进一步分析发现,MIR-ATR的优势主要源于其表面增强效应和指纹区特异性,能够有效放大葡萄糖分子的特征信号并抑制水分子干扰。相比之下,MIR-TR和NIR-TR因光程较长或吸收较弱,需依赖预处理算法提升信噪比。综合来看,MIR-ATR技术结合PLS模型及ESD划分法,可为无创血糖检测提供高精度解决方案。为红外光谱技术在血糖监测中的应用提供了重要参考,未来需进一步开展临床血样验证以优化实际应用效果。 展开更多
关键词 中红外光谱 近红外光谱 无创血糖检测 定量分析模型 数据集划分 光谱预处理
在线阅读 下载PDF
一种基于混合重取样策略的非均衡数据集分类算法 被引量:22
6
作者 谷琼 袁磊 +3 位作者 宁彬 吴钊 华丽 李文新 《计算机工程与科学》 CSCD 北大核心 2012年第10期128-134,共7页
非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类... 非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。本文提出了一种新型重取样算法,采用改进的SMOTE算法对少数类数据进行过取样,产生新的少数类样本,使类之间数据量基本均衡,然后再根据SMO算法的特点,提出使用聚类的数据欠取样方法,删除冗余或噪音数据。通过对数据集的过取样和清理之后,一些有用的样本被保留下来,减少了数据集规模,增强支持向量机训练执行的效率。实验结果表明,该方法在保持整体分类性能的情况下可以有效地提高少数类的分类精度。 展开更多
关键词 分类 非均衡数据集 预处理 混合重取样 SMOTE 聚类
在线阅读 下载PDF
融合过抽样和欠抽样的不平衡数据重抽样方法 被引量:15
7
作者 吴磊 房斌 +2 位作者 刁丽萍 陈静 谢娜娜 《计算机工程与应用》 CSCD 2013年第21期172-176,185,共6页
在机器学习领域的研究当中,分类器的性能会受到许多方面的影响,其中训练数据的不平衡对分类器的影响尤为严重。训练数据的不平衡也就是指在提供的训练数据集中,一类的样本总数远多于另一类的样本总数。常用的不平衡数据的处理方法有很多... 在机器学习领域的研究当中,分类器的性能会受到许多方面的影响,其中训练数据的不平衡对分类器的影响尤为严重。训练数据的不平衡也就是指在提供的训练数据集中,一类的样本总数远多于另一类的样本总数。常用的不平衡数据的处理方法有很多,只探讨利用重抽样方法对不平衡数据进行预处理来提高分类效果的方法。数据抽样算法有很多,但可以归为两大类:过抽样和欠抽样。针对二分类问题提出了四种融合过抽样和欠抽样算法的重抽样方法:BSM+Tomek、BSM+ENN、CBOS+Tomek和CBOS+ENN,并且与另外十种经典的重抽样算法做了大量的对比实验,实验证明提出的四种预处理算法在多种评价指标下提高了不平衡数据的分类效果。 展开更多
关键词 不平衡数据 重抽样 基于聚类的过抽样算法(CBOS) 基于边界值的虚拟少数类向上采样算法(BSM) 可选择最 近邻算法(ENN) Tomek LINKS 预处理
在线阅读 下载PDF
面向机器学习的训练数据集均衡化方法 被引量:13
8
作者 李国和 张腾 +2 位作者 吴卫江 洪云峰 周晓明 《计算机工程与设计》 北大核心 2019年第3期812-818,共7页
为提高机器学习算法对于不均衡数据的建模效果,提出一种均衡化预处理方法。采用iForest形成每个样本在样本空间中的分布特征评估值,基于负类(多数类)样本的分布特征评估值定义概率分布;根据样本的概率分布,通过轮盘转算法选取负类样本;... 为提高机器学习算法对于不均衡数据的建模效果,提出一种均衡化预处理方法。采用iForest形成每个样本在样本空间中的分布特征评估值,基于负类(多数类)样本的分布特征评估值定义概率分布;根据样本的概率分布,通过轮盘转算法选取负类样本;通过K-means方法形成若干负类样本聚类中心,以聚类中心为最终负类选取样本,实现正负类样本的均衡化。整个过程构成均衡化方法iForest-RM。iForest-RM与其它采样方法在Adaboost模型上的实验对比结果表明,iForest-RM具有更好的均衡化能力,更好获取样本空间分布特性,可有效应用于地震相识别。 展开更多
关键词 数据预处理 不均衡数据 隔离森林 均值聚类 轮盘转算法
在线阅读 下载PDF
欠抽样和DEC相结合的不平衡数据分类算法 被引量:3
9
作者 吴敏 张化朋 李雷 《计算机技术与发展》 2014年第4期110-113,共4页
DEC算法是一种基于支持向量机的改进算法,但是研究表明,对于某些不平衡数据集,DEC分类器不能达到较高的少数类分类精度。针对这种情况,提出了一种基于欠抽样方法和DEC方法结合的新算法US-DEC来提高少数类分类精度。先用一个新的欠抽样... DEC算法是一种基于支持向量机的改进算法,但是研究表明,对于某些不平衡数据集,DEC分类器不能达到较高的少数类分类精度。针对这种情况,提出了一种基于欠抽样方法和DEC方法结合的新算法US-DEC来提高少数类分类精度。先用一个新的欠抽样方法来预处理数据集,再用DEC分类器训练处理过的数据集。通过在七个不平衡数据集上的仿真实验,比较了US-DEC算法和支持向量机,欠抽样方法以及DEC方法的分类性能。实验结果表明,在提高每类数据集的少数类分类精度上,US-DEC算法要优于其他算法。 展开更多
关键词 不平衡数据集 支持向量机 预处理数据集 欠抽样 DEC
在线阅读 下载PDF
基于最大平衡度的自适应随机抽样算法 被引量:1
10
作者 董立岩 王越群 +1 位作者 李永丽 朱琪 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第6期792-796,共5页
针对分类算法在非平衡数据集的情况下分类性能不理想的问题,总结了常见的数据平衡化方法,包括改造数据集与改进算法,提出一种全新的基于最大平衡度的自适应随机抽样算法,进一步优化了随机森林算法的分类效果.将其应用在随机森林算法的... 针对分类算法在非平衡数据集的情况下分类性能不理想的问题,总结了常见的数据平衡化方法,包括改造数据集与改进算法,提出一种全新的基于最大平衡度的自适应随机抽样算法,进一步优化了随机森林算法的分类效果.将其应用在随机森林算法的数据预处理阶段,并通过实验证明了该随机抽样方法的有效性,在合理的整体精度范围内能够较好地处理非平衡数据.产生的新数据比较拟合初始数据,能够提高分类器处理非平衡数据的能力. 展开更多
关键词 非平衡数据集 最大平衡度 随机抽样 随机森林 数据预处理
在线阅读 下载PDF
不平衡数据集中的组合分类算法 被引量:4
11
作者 吴广潮 陈奇刚 《计算机工程与设计》 CSCD 北大核心 2007年第23期5687-5689,5761,共4页
为提高少数类的分类性能,对基于数据预处理的组合分类器算法进行了研究。利用Tomek links对数据集进行预处理;把新数据集里的多数类样本按照不平衡比拆分为多个子集,每个子集和少数类样本合并成新子集;用最小二乘支持向量机对每个新子... 为提高少数类的分类性能,对基于数据预处理的组合分类器算法进行了研究。利用Tomek links对数据集进行预处理;把新数据集里的多数类样本按照不平衡比拆分为多个子集,每个子集和少数类样本合并成新子集;用最小二乘支持向量机对每个新子集进行训练,把训练后的各个子分类器组合为一个分类系统,新的测试样本的类别将由这个分类系统投票表决。数据试验结果表明,该算法在多数类和少数类的分类性能方面,都优于最小二乘支持向量机、过抽样方法和欠抽样方法。 展开更多
关键词 不平衡数据集 最小二乘支持向量机 组合分类器 数据预处理 不平衡比
在线阅读 下载PDF
基于Rep-VGG的滚动轴承故障诊断 被引量:4
12
作者 鲍泽富 王晨阳 +1 位作者 张伟 郭永飞 《现代电子技术》 2023年第14期152-156,共5页
为解决传统的轴承故障诊断过于依赖人为经验且耗时耗力的问题,文中提出一种基于Rep-VGG模型的故障诊断方法。首先,通过希尔伯特和小波变换对原始振动信号数据进行预处理,将其转化为可供Rep-VGG网络识别的时频图形式;然后,利用Rep-VGG模... 为解决传统的轴承故障诊断过于依赖人为经验且耗时耗力的问题,文中提出一种基于Rep-VGG模型的故障诊断方法。首先,通过希尔伯特和小波变换对原始振动信号数据进行预处理,将其转化为可供Rep-VGG网络识别的时频图形式;然后,利用Rep-VGG模型进行训练和测试,实验数据来源于凯斯西储大学公开的轴承数据集,并与其他模型进行对比。实验结果表明,所提方法对于轴承故障的诊断准确率达到99.9499%,损失仅为0.0221%;通过混淆矩阵得到Rep-VGG模型将不同类型的故障进行分类的准确率达到99.3%,与VGG-16相比,准确率提升5.3499%,说明该模型具有广泛的应用前景。 展开更多
关键词 Rep-VGG模型 滚动轴承 故障诊断 数据预处理 轴承数据集 混淆矩阵
在线阅读 下载PDF
多输入卷积神经网络肺结节检测方法研究 被引量:15
13
作者 赵鹏飞 赵涓涓 +2 位作者 强彦 王峰智 赵文婷 《计算机科学》 CSCD 北大核心 2018年第1期162-166,共5页
针对传统计算机辅助诊断系统中肺部结节检出过程复杂,检出结果依赖于分类前期每个步骤的性能,以及存在假阳性率高的问题,提出了一种基于卷积神经网络的端到端的肺结节检测方法。该方法首先使用大量带标签的肺结节数据对构建的多输入卷... 针对传统计算机辅助诊断系统中肺部结节检出过程复杂,检出结果依赖于分类前期每个步骤的性能,以及存在假阳性率高的问题,提出了一种基于卷积神经网络的端到端的肺结节检测方法。该方法首先使用大量带标签的肺结节数据对构建的多输入卷积神经网络进行训练,实现从原始数据到语义标签的有监督学习。然后采用快速边缘检测方法和二维高斯概率密度函数构建候选区域模板,从待检测CT序列中获取候选区域并将其作为多输入卷积神经网络的输入数据。最后采用判定阈值实现疑似肺结节区域标注,同时在相邻的CT影像中进行重点检测。在LIDC-IDRI数据集上的大量实验结果表明,所提方法在肺部CT影像中对微、小结节的检出率较高;同时,重点检测模板能够小幅降低微、小结节检测的假阳率。 展开更多
关键词 计算机辅助诊断 卷积神经网络 微小结节检测 lidc-idri数据集预处理
在线阅读 下载PDF
儿童青少年大脑发育及脑图谱研究综述 被引量:3
14
作者 李雯 樊令仲 +4 位作者 宋明 张瑜 罗娜 程禄祺 蒋田仔 《中国图象图形学报》 CSCD 北大核心 2024年第6期1555-1574,共20页
大脑发育是神经系统结构和功能分化及成熟的一系列动态过程。大脑结构的发育包括部分脑区白质体积和完整性的增加,以及灰质体积的下降等;而这些结构的改变往往伴随着认知功能的变化,如智商、工作记忆和问题解决能力的提高以及社会认知... 大脑发育是神经系统结构和功能分化及成熟的一系列动态过程。大脑结构的发育包括部分脑区白质体积和完整性的增加,以及灰质体积的下降等;而这些结构的改变往往伴随着认知功能的变化,如智商、工作记忆和问题解决能力的提高以及社会认知的改善等。越来越多的发育研究为儿童青少年的教育干预提供了参考信息,帮助学校和家庭引导其从拥有冲动冒险心理状态的少年儿童阶段平稳过渡到心智更为成熟的成人阶段。脑图谱作为研究脑结构、脑功能及脑疾病的重要手段,是研究者对大脑进行解析的有力工具,在大脑发育研究中发挥着不可缺少的作用。本文立足于发育脑图谱,从3方面对儿童青少年大脑发育及脑图谱研究进展进行综述。首先,介绍儿童青少年发育阶段大脑特征的转变,以此来强调关注儿童青少年阶段大脑健康发育的重要性;其次,介绍现有的包括数据预处理步骤在内的发育图谱绘制的方法和手段;最后,对儿童和青少年图谱的研究进展进行描述,并分析当前研究对理解儿童青少年发育所做出的贡献以及它们的不足之处。对发育中的大脑进行研究,有利于增强对正常发育过程的了解,以针对性地对失衡的发育过程进行早期干预;通过对现有技术手段优缺点的总结,促进相关领域研究者开发更多以研究儿童青少年为导向的数据处理工具;综述具有精细划分的基于特定年龄儿童的大脑发育图谱,为未来的发育研究提供了强有力的研究工具的参考。这一综述有助于促进跨学科研究,推动儿童和青少年大脑发育领域的进展,从而为青少年的教育、健康和神经疾病研究提供更好的指导。 展开更多
关键词 儿童青少年 发育 大脑图谱 大脑模板 磁共振成像(MRI) 发育数据集 预处理
原文传递
基于强化学习的特征提取方法在攻击识别中的应用 被引量:1
15
作者 李晓明 王文晖 +4 位作者 任琳琳 晏涌 陈兆玉 沙芸 刘学君 《信息安全研究》 2021年第4期351-357,共7页
针对工控数据集特征数量较大时的分类准确率较低和训练时间较长等问题,提出了一种采用强化学习来进行特征提取对数据集进行预处理的方法.首先,通过强化学习确定过程矩阵和决策矩阵,再根据决策矩阵进行特征提取,获得预处理数据集.将NSL-... 针对工控数据集特征数量较大时的分类准确率较低和训练时间较长等问题,提出了一种采用强化学习来进行特征提取对数据集进行预处理的方法.首先,通过强化学习确定过程矩阵和决策矩阵,再根据决策矩阵进行特征提取,获得预处理数据集.将NSL-KDD、自建数据集和密西西比数据集的原始数据集、PCA和强化学习后的数据集分别用神经网络和SVM训练并进行分类,实验结果表明,该方法适用特征关联度较低的数据集进行神经网络训练.强化学习能有效提高分类的准确率、精确率等指标,并减少运行时间,提高效率. 展开更多
关键词 工控数据集 强化学习 特征提取 数据集预处理 神经网络 支持向量机
在线阅读 下载PDF
基于改进层次方法的无参K-means算法 被引量:3
16
作者 史国斌 张忠林 《计算机仿真》 北大核心 2022年第8期340-346,426,共8页
K-means算法是一种经典聚类算法,其优势是简单高效。特别在面对大型数据集时,上述算法仍能保持高效性和可伸缩性,因此K-means算法仍具有广泛应用前景。K-means算法对初值敏感,初值的选取对算法执行的效率和结果均有影响。为了最好的利用... K-means算法是一种经典聚类算法,其优势是简单高效。特别在面对大型数据集时,上述算法仍能保持高效性和可伸缩性,因此K-means算法仍具有广泛应用前景。K-means算法对初值敏感,初值的选取对算法执行的效率和结果均有影响。为了最好的利用K-means算法在大数据集上的高效,规避其初值敏感等缺点,提出一种算法,通过利用自下而上的凝聚方法对抽样数据进行有监督的迭代划分,最后取抽样数据上CH估分最高的类数k和类中心作为入参输入K-means,在完整数据集上进行聚类。通过对多个UCI真实世界数据集的聚类实验表明,面对样本数为1797、有64维属性的数据集时,基于聚类标签的归一化条件熵度量(V-measure)比随机中心K-means平均改善113%(733/628/3+723/605/3+744/652/3)、时间效率比后者提高10倍(0.79/0.07-1)。在数据集样本数达到2458284、属性达到68维且不进行主成分分析处理(PCA)时,K-means聚类时间提高984%。 展开更多
关键词 聚类 数据预处理 层次聚类
在线阅读 下载PDF
基于改进式k-prototypes聚类的坏数据辨识与修正 被引量:10
17
作者 王孝慈 董树锋 +2 位作者 刘育权 王莉 李俊格 《电测与仪表》 北大核心 2022年第2期9-15,共7页
工业领域很多技术的实现都以准确的负荷数据为基础,而工厂现有的负荷数据测量体系常因为通信、存储等故障,导致负荷数据中出现大量坏数据。因此,提出基于改进式k-prototypes聚类的坏数据辨识与修正方法,通过在聚类中引入非负荷数据特征... 工业领域很多技术的实现都以准确的负荷数据为基础,而工厂现有的负荷数据测量体系常因为通信、存储等故障,导致负荷数据中出现大量坏数据。因此,提出基于改进式k-prototypes聚类的坏数据辨识与修正方法,通过在聚类中引入非负荷数据特征,削弱负荷坏数据对聚类结果的影响,使坏数据辨识和修复结果更准确。改进式k-prototypes算法通过随机初始化,并行计算择优,克服了标准k-prototypes容易随初始聚类中心陷入局部最优解的缺陷;并通过聚类数量的自适应处理,解决了主观决定聚类数量的问题。基于聚类结果,根据正态分布原则确定负荷数据可行域,识别坏数据,并利用类中心置换法进行修正。实验表明,该方法较只考虑负荷数据的模糊均值聚类法效果更好,坏数据识别的召回率与修正的准确率显著提高。 展开更多
关键词 k-prototypes聚类 混合数据集聚类 坏数据辨识 类中心置换修正法 工业负荷预处理
在线阅读 下载PDF
中巴经济走廊(喀什至伊斯兰堡段)高分正射影像数据集 被引量:2
18
作者 韩立钦 张耀南 +1 位作者 田德宇 康建芳 《中国科学数据(中英文网络版)》 CSCD 2019年第3期118-128,共11页
中巴经济走廊是“一带一路”倡议大局的重要组成部分,对“一带一路”倡议实施发挥着重大的示范和推动作用。本数据集由高分一号、高分二号国产卫星影像制作而成,空间范围为23°54′N–39°12′N、71°24′E–76°48′E... 中巴经济走廊是“一带一路”倡议大局的重要组成部分,对“一带一路”倡议实施发挥着重大的示范和推动作用。本数据集由高分一号、高分二号国产卫星影像制作而成,空间范围为23°54′N–39°12′N、71°24′E–76°48′E,中巴公路两侧约60 km,中国喀什地区至巴基斯坦伊斯兰堡段,时间范围为2013–2017年,全色与多光谱2 m融合影像,TIFF格式。数据集正射校正精度最大误差X方向为0.35个像元,Y方向为0.4个像元;均方根误差X方向为0.42个像元,Y方向为0.38个像元。从图像融合效果看,高分影像采用PanSharpening方法融合效果较好。本数据集可以丰富本区域空间基础数据资源,能够应用于中巴经济走廊基础设施建设规划、自然灾害预警与生态安全评价等领域。 展开更多
关键词 中巴经济走廊 正射影像数据集 数据预处理 正射矫正 数据融合
在线阅读 下载PDF
智能机器狗巡线数据预处理方法探析 被引量:1
19
作者 刘振 盛建强 《深圳信息职业技术学院学报》 2023年第6期1-8,共8页
智能机器狗作为人工智能端侧设备在生产生活中有广泛的应用场景。基于深度学习模型的智能巡线是机器狗的重要功能,训练巡线模型需要准备丰富的数据集,同时要求结合实际场景对数据集进行合理的预处理。首先,结合机器狗单向巡线功能应用... 智能机器狗作为人工智能端侧设备在生产生活中有广泛的应用场景。基于深度学习模型的智能巡线是机器狗的重要功能,训练巡线模型需要准备丰富的数据集,同时要求结合实际场景对数据集进行合理的预处理。首先,结合机器狗单向巡线功能应用场景指出了巡线图像数据集预处理时应注意的旋转、翻转问题,避免机器狗偏离航线问题;其次,结合图像设备采集数据质量较差的情况,指出图像增强的必要处理方法集,以及在硬件设备性能限制的情况下推荐图像增强方法;最后,根据ResNet50模型训练部署结果,对巡线图像数据集预处理存在的问题和改进空间作了分析。 展开更多
关键词 图像预处理 数据集 深度学习 模型训练
在线阅读 下载PDF
文档级关系抽取技术研究综述 被引量:5
20
作者 祝涛杰 卢记仓 +3 位作者 周刚 丁肖摇 王凌 朱秀宝 《计算机科学》 CSCD 北大核心 2023年第5期189-200,共12页
关系抽取是信息抽取研究的重要方向,已逐步从句子级扩展到了文档级。与句子相比,文档通常蕴含更多的关系事实,可为知识库构建、信息检索和语义分析等提供更多的信息支持。然而,文档级关系抽取复杂度更高,难度更大,目前缺乏较为系统全面... 关系抽取是信息抽取研究的重要方向,已逐步从句子级扩展到了文档级。与句子相比,文档通常蕴含更多的关系事实,可为知识库构建、信息检索和语义分析等提供更多的信息支持。然而,文档级关系抽取复杂度更高,难度更大,目前缺乏较为系统全面的梳理和总结。为更好地促进文档级关系抽取的深入研究与发展,文中对已有技术和方法进行了综合深入分析,从数据预处理方式和核心算法角度,将已有文档级关系抽取研究大致分为基于树、基于序列和基于图3种类别;在此基础上,分析描述了各类研究中的部分典型方法、最新进展以及存在的不足;同时,介绍了现有研究中部分常用数据集和性能评价指标,并列出了已有部分典型方法的具体性能;最后,对现有文档级关系抽取研究存在的问题进行了分析和总结,指出了未来可能的发展趋势及可进一步深入关注的研究方向。 展开更多
关键词 信息抽取 文档级关系抽取 数据预处理 数据集 性能评价
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部