期刊文献+
共找到57篇文章
< 1 2 3 >
每页显示 20 50 100
基于自注意力机制的高分遥感影像语义分割 被引量:2
1
作者 杨军 张金影 康玥 《哈尔滨工程大学学报》 北大核心 2025年第2期344-354,共11页
针对遥感影像多尺度特征提取困难、上下文信息利用不足的问题,本文结合自注意力机制和深度可分离卷积提出一种线性多头自注意力网络模型,适用于高分辨率遥感影像语义分割。在自注意力模块之前引入深度可分离卷积,减少计算量的同时有助... 针对遥感影像多尺度特征提取困难、上下文信息利用不足的问题,本文结合自注意力机制和深度可分离卷积提出一种线性多头自注意力网络模型,适用于高分辨率遥感影像语义分割。在自注意力模块之前引入深度可分离卷积,减少计算量的同时有助于捕获局部特征;在编码器分支中提出线性的多头自注意力模块以降低模型的计算复杂度;设计一个解码器来恢复特征图分辨率,通过级联操作整合各层级的特征并生成高分辨率的语义分割结果。所提算法在ISPRS Vaihingen和Potsdam数据集上的分割结果的mF1分别达到了90.77%和92.36%,与目前主流算法相比,不透水表面、建筑、低矮植物、树木类的分割准确率及总体分割准确率均有提高。本文算法构建的线性多头自注意力网络是一种高效的高分辨率遥感影像语义分割模型。 展开更多
关键词 高分辨率遥感影像 多头自注意力 深度可分离卷积 语义分割 特征提取 卷积神经网络 编码器 解码器
在线阅读 下载PDF
双先验引导的注意力特征聚合去雾生成对抗网络
2
作者 王燕 胡津源 +1 位作者 刘晶晶 陈燕燕 《计算机工程与科学》 北大核心 2025年第10期1841-1852,共12页
图像去雾是计算机视觉领域中一个具有挑战性的热点问题。现有的去雾方法通常使用单一的卷积神经网络(CNN)来解决问题,但此类方法缺乏细节恢复机制,并且在非均匀雾情况下去雾性能较差。为了解决上述2个问题,提出了一个双先验引导的注意... 图像去雾是计算机视觉领域中一个具有挑战性的热点问题。现有的去雾方法通常使用单一的卷积神经网络(CNN)来解决问题,但此类方法缺乏细节恢复机制,并且在非均匀雾情况下去雾性能较差。为了解决上述2个问题,提出了一个双先验引导的注意力特征聚合去雾生成对抗网络,暗通道先验和语义先验分别引导图像广义特征和纹理细节的恢复。其中,生成器采用参数共享编码器提取特征,添加了注意力特征聚合块(AFAB)对多尺度特征进行聚合增强,并通过解码多尺度特征恢复无雾图像,最后用多尺度判别器监督无雾图像的恢复。此外,考虑到图像中可能存在雾的不均匀分布,提出了坐标注意力残差块(CARB),它能自适应地分配权重,使网络关注图像的重要特征;同时,采用残差聚合的方式通过3个CARB构造了坐标注意力密集残差组(CARG),使得残差特征能被充分利用。实验结果表明,提出的网络在合成有雾图像数据集和现实有雾图像数据集上均表现优异。 展开更多
关键词 图像去雾 生成对抗网络 双先验引导 注意力特征聚合 参数共享编码器 坐标注意力
在线阅读 下载PDF
基于编解码网络的生猪骨架提取方法研究
3
作者 王泽华 徐爱俊 +2 位作者 周素茵 叶俊华 夏芳 《计算机应用与软件》 北大核心 2025年第4期181-188,共8页
针对生猪骨架提取难度大、精度低、耗时长等问题,提出一种基于编解码网络的生猪骨架提取方法。该文构建关键点热力图生成模型,将ResNet50残差网络和U-Net语义分割网络相结合,搭建编码-解码网络结构并引入注意力机制,以提高尾、蹄等小目... 针对生猪骨架提取难度大、精度低、耗时长等问题,提出一种基于编解码网络的生猪骨架提取方法。该文构建关键点热力图生成模型,将ResNet50残差网络和U-Net语义分割网络相结合,搭建编码-解码网络结构并引入注意力机制,以提高尾、蹄等小目标关键点的特征提取精度;在生成关键点热力图的同时预测关键点偏移量,弥补反算关键点原始位置时的精度损失,再利用霍夫投票机制对二者进行加权聚合,最终映射得到生猪骨架。实验结果表明,骨架提取准确率为85.27%。相较于ResNet50残差网络,在耗时相近的情况下,准确率提高了22.67个百分点。该研究为生猪骨架提取提供了一种新的方法,可为进一步开展生猪行为研究提供技术参考。 展开更多
关键词 骨架提取 关键点检测 生猪 注意力机制 特征提取 编解码网络
在线阅读 下载PDF
基于压缩图像与YOLOv5模型的架空输电线路缺陷检测技术 被引量:2
4
作者 刘敏 姜亮 +2 位作者 田杨阳 张璐 陈岑 《沈阳工业大学学报》 北大核心 2025年第2期152-159,共8页
【目的】输电线路作为电能传输和使用过程中的重要环节,其安全稳定对电力系统的正常运行起着至关重要的作用,因此输电线路日常巡检具有重要作用。重大事故通常由微小缺陷隐患发展而来,日常巡检通常采用人工、无人机、可视化通道等手段,... 【目的】输电线路作为电能传输和使用过程中的重要环节,其安全稳定对电力系统的正常运行起着至关重要的作用,因此输电线路日常巡检具有重要作用。重大事故通常由微小缺陷隐患发展而来,日常巡检通常采用人工、无人机、可视化通道等手段,无论何种方式都需要处理大量可视化、红外或者紫外照片。但由于输电线路的特殊性,架设条件涉及多种环境,其巡检图像背景通常较为复杂,采用人工复核审查的方式精度较高,但对经验依赖较大且效率极低。如何快速、准确地识别架空线路巡检图片是架空输电线路缺陷识别的关键。传统输电线路巡检图片识别方法在复杂背景的干扰下,容易出现缺陷识别精确度不高的问题。【方法】为提高架空输电线路巡检图像复杂背景下的检测准确率,提出了一种兼顾识别效率和准确性的缺陷检测方法。基于压缩图像技术并结合YOLOv5模型,设计了一种基于稀疏卷积的非对称特征聚合压缩算法,将原始图像通过编码减少图像存储所需空间以便于存储和传输,经过信息通道传输到解密器后,再将压缩图像进行解码复原以提升局部集合特征的学习效率。同时,通过融入通道空间注意力模块从特征图中得到注意力通道权重矩阵和空间权重矩阵,并通过权重矩阵判断特征图区域的重要程度,完成对YOLOv5模型处理效率的提升。【结果】将压缩恢复后的图像输入改进YOLOv5模型中,利用通道注意力模块(CAM)和空间注意力模块(SAM)分别对图像进行通道与空间上的注意力数据处理,通过全局平均池化和最大池化处理增强目标区域的特征,并引入空间注意力模块增强通道注意力对特征位置信息的关注,以检测出存在缺陷的设备,并通过实验验证了方法的有效性。【结论】以某架空线路的巡检图像数据集为基础,对检测方法开展训练与测试,结果表明,巡检图像经所提技术压缩后,尺寸明显减小,恢复后的图像尺寸较原图约降低了3 MB且未出现失真;改进YOLOv5模型具有较高的检测精确度,其检测准确率和时间分别为0.91和0.87 s,算法在降低图像尺寸提升检测速度的同时保证了检测准确率。 展开更多
关键词 架空输电线路 缺陷检测 图像压缩 改进YOLOv5模型 非对称特征聚合编解码网络 通道空间注意力模块 逐通道稀疏残差卷积 检测准确率
在线阅读 下载PDF
结合多尺度与多层级聚合的卷轴画图像描述模型
5
作者 乐超洋 胡文瑾 张福军 《现代电子技术》 北大核心 2025年第17期41-47,共7页
针对卷轴画图像的尺度大小不一且具有一定的空间分布特性以及基于Transformer的编码层容易丢失图像关键信息的问题,文中提出一种结合多尺度与多层级聚合的卷轴画图像描述模型(MMA)。在编码阶段,通过引入非对称卷积和多尺度特征模块,可... 针对卷轴画图像的尺度大小不一且具有一定的空间分布特性以及基于Transformer的编码层容易丢失图像关键信息的问题,文中提出一种结合多尺度与多层级聚合的卷轴画图像描述模型(MMA)。在编码阶段,通过引入非对称卷积和多尺度特征模块,可以有效提高卷积层获取空间信息的能力并融合卷轴画图像全局和局部的多尺度上下文信息,从而得到具有丰富语义信息的特征表示。在解码阶段,设计了多层级聚合网络,通过聚合不同编码层的特征实现高层编码层语义信息和低层编码层内容信息的有效利用,从而有效缓解信息丢失的问题。实验结果表明,该模型在卷轴画数据集上取得了不错效果,较NIC模型在BLEU-4、METEOR上分别提高了26.7%、0.9%,并生成准确性更高的描述语句。 展开更多
关键词 图像描述 卷轴画图像 多尺度特征 非对称卷积 多层级聚合解码 TRANSFORMER
在线阅读 下载PDF
GMFNet:全局多尺度和多级别的特征融合语义分割网络 被引量:1
6
作者 陈金令 赵成明 李洁 《计算机应用与软件》 北大核心 2025年第4期311-318,334,共9页
语义分割网络在编码器-解码器中融合高低水平特征存在以下问题:(1)在空间和通道中特征提取无法同步,导致特征组合无法获取全局上下文信息;(2)特征融合无法充分利用高低水平特征图像,导致语义边界模糊。设计全局空洞空间金字塔池化,该结... 语义分割网络在编码器-解码器中融合高低水平特征存在以下问题:(1)在空间和通道中特征提取无法同步,导致特征组合无法获取全局上下文信息;(2)特征融合无法充分利用高低水平特征图像,导致语义边界模糊。设计全局空洞空间金字塔池化,该结构不仅在空间上提取多尺度信息和通道上对图像信息充分利用,还增强编码器阶段的特征重用。设计特征融合注意力模块,在编码器中连接不同阶段的高低水平特征和新特征。实验表明,该算法在Cityscapes数据集上达到了77.92%mIoU。 展开更多
关键词 语义分割 卷积神经网络 全局上下文信息 特征融合 编码器-解码器
在线阅读 下载PDF
基于多阶门控聚合网络的光学化学结构识别
7
作者 林帆 李建华 《计算机工程》 北大核心 2025年第8期364-372,共9页
在光学化学结构识别(OCSR)领域,现有基于深度学习的模型通常依赖于卷积神经网络(CNN)或视觉Transformer进行视觉特征提取,并采用Transformer进行序列解码。这些模型虽然有效,但仍受限于图像特征提取能力和解码时位置编码的精确性,从而... 在光学化学结构识别(OCSR)领域,现有基于深度学习的模型通常依赖于卷积神经网络(CNN)或视觉Transformer进行视觉特征提取,并采用Transformer进行序列解码。这些模型虽然有效,但仍受限于图像特征提取能力和解码时位置编码的精确性,从而影响识别效率。针对这些限制,将多阶门控聚合网络(MogaNet)和引入相对位置编码的Transformer构成的编码解码架构用于OCSR领域,提出一种基于多阶门控聚合网络的光学化学结构识别模型。该模型首先在图像特征提取时通过MogaNet空间聚合模块,捕获多尺度特征并减少特征冗余,并且通过MogaNet通道聚合模块改善通道维度的多样性;其次在序列解码时采用引入相对位置编码的Transformer作为解码器,精准捕捉序列单词之间的相对位置关系。为了训练和验证该模型,构建一个包含40万个分子的化学结构数据集,其中包含Markush结构与非Markush结构。实验结果表明,该模型的准确率达到了92.36%,优于其他现有的模型。 展开更多
关键词 光学化学结构识别 编码解码架构 深度学习 SMILES表达式 多阶门控聚合网络
在线阅读 下载PDF
基于特征聚合和Gaussian-Laplacian-Logistic混合模型的图像压缩
8
作者 朱俊 刘磊 +2 位作者 王帅 王珺 谭伟彪 《淮北师范大学学报(自然科学版)》 2025年第2期32-41,共10页
图像压缩在细节恢复和复杂场景处理方面存在局限,尤其在长距离上下文信息的利用上。为解决这一问题,提出一种基于自注意力特征聚合机制和Gaussian-Laplacian-Logistic混合模型。该模型通过融合不同层次的特征,有效捕捉长距离信息关系,... 图像压缩在细节恢复和复杂场景处理方面存在局限,尤其在长距离上下文信息的利用上。为解决这一问题,提出一种基于自注意力特征聚合机制和Gaussian-Laplacian-Logistic混合模型。该模型通过融合不同层次的特征,有效捕捉长距离信息关系,增强特征表达能力。提出创新性特征聚合模块,将压缩特征与Transformer中间层特征结合,提供更丰富的上下文信息,改善图像重建中的细节恢复和结构保持。引入Gaussian-Laplacian-Logistic混合模型,根据图像局部特征自适应调整,提高压缩效率。实验表明,所提模型在峰值信噪比(peak signal-to-noise ratio,PSNR)和多尺度结构相似性(multi-scale structural similarity,MS-SSIM)性能上优于传统学习压缩和标准压缩技术,特别在高复杂度图像和细节恢复方面表现突出。 展开更多
关键词 深度学习 图像压缩 特征聚合 混合模型 编码器-解码器架构 视频编码
在线阅读 下载PDF
基于多任务学习的全景驾驶感知算法
9
作者 吴伟林 刘春泉 余孝源 《计算机工程与设计》 北大核心 2025年第4期1127-1133,共7页
针对全景驾驶感知算法YOLOP存在特征图池化操作自适应较差、下采样过程细节丢失和模型性能差的问题,提出一种基于多任务学习的全景驾驶感知算法,引入高效处理模块,提高对特征图池化操作自适应能力,采用不同加权系数的损失函数,提升网络... 针对全景驾驶感知算法YOLOP存在特征图池化操作自适应较差、下采样过程细节丢失和模型性能差的问题,提出一种基于多任务学习的全景驾驶感知算法,引入高效处理模块,提高对特征图池化操作自适应能力,采用不同加权系数的损失函数,提升网络的检测性能及鲁棒性。在BDD100K数据集的评估结果中,车道线检测准确率提高11.6%,可行驶区域检测的平均交并比(mIoU)提高2.1%,车辆检测的平均精确率均值的50%指标(mAP50)提高3.7%。在KITTI数据集的评估结果中,车辆检测mAP50指标提高3.4%。 展开更多
关键词 多任务学习网络 编码-解码器 车道线检测 可行驶区域检测 车辆检测 特征对齐 转置卷积
在线阅读 下载PDF
基于MST-ECGNet深度学习模型的非接触ECG信号重构方法研究
10
作者 郭天娇 袁年曾 +6 位作者 安强 吕昊 王敬哲 张志远 龙语诺 刘振华 薛慧君 《空军军医大学学报》 2025年第10期1353-1358,1363,共7页
目的针对传统心电图(ECG)监测技术舒适性差、难以连续监测等问题,开展生物雷达与深度学习技术结合的非接触ECG信号精准重构研究。方法采用94 GHz连续波生物雷达采集胸腔微动信号,通过变分模态分解算法从中分离出心脏机械运动信号;构建... 目的针对传统心电图(ECG)监测技术舒适性差、难以连续监测等问题,开展生物雷达与深度学习技术结合的非接触ECG信号精准重构研究。方法采用94 GHz连续波生物雷达采集胸腔微动信号,通过变分模态分解算法从中分离出心脏机械运动信号;构建一种基于多尺度心脏特征提取网络和Transformer编解码架构的ECG重构模型(MST-ECGNet),采用双路特征提取架构,通过多尺度心跳特征提取网络捕获心脏机械运动信号的不同尺度局部特征,结合Transformer-Encoder捕获其全局时序特征,经特征融合后由Transformer-Decoder实现ECG波形重构。结果所提方法重构的ECG信号与参考信号的皮尔森相关系数达0.956,表明重构的ECG信号与参考信号高度一致,与现有非接触式方法相比,所提方法在波形还原准确性上更具优势。结论提出一种基于MST-ECGNet模型的非接触ECG信号重构方法,该模型兼顾多尺度局部特征与全局特征提取,实现了精准的ECG信号重构,为心血管疾病的诊断和监测提供了一种非接触、长期、动态的解决方案。 展开更多
关键词 生物雷达 非接触式 神经网络 多尺度特征 编解码网络 心电图 心脏机械运动 心血管疾病
在线阅读 下载PDF
基于门控位置编码的壁画图像多级色彩还原
11
作者 徐志刚 张创 《计算机应用》 CSCD 北大核心 2024年第9期2931-2937,共7页
近年来,壁画图像的色彩还原研究已成为壁画文物保护和展示领域的一个热点问题。针对壁画色彩还原面临的整体特征信息难以有效提取和保持,局部色彩还原易出现假色以及色彩溢出等问题,提出基于门控位置编码的壁画图像多级色彩还原方法。首... 近年来,壁画图像的色彩还原研究已成为壁画文物保护和展示领域的一个热点问题。针对壁画色彩还原面临的整体特征信息难以有效提取和保持,局部色彩还原易出现假色以及色彩溢出等问题,提出基于门控位置编码的壁画图像多级色彩还原方法。首先,构建基于全局特征约束的编码器网络,并通过改进的多核多值池化算法提取图像的全局特征梯度作为下采样取值标准以建立壁画图像特征金字塔,从而减少壁画图像在特征编码过程中的整体特征损失;其次,为准确还原壁画图像的局部色彩信息,设计基于门控位置编码的色彩迁移模块,该模块通过约束空间域中内容特征与色彩特征之间相似性核的学习,构建色彩特征在待还原壁画图像中的准确映射,从而减少还原图像中的假色现象与色彩溢出。实验结果表明,该方法所生成的壁画还原图像相较于AdaIN(Adaptive Instance Normalization)、AST(ArbitraryStyleTransfer)等对比方法所生成的壁画还原图像,NIQE(NaturalImageQuality Evaluator)和PIQE(Perception based Image Quality Evaluator)都取得了最优的结果。可见,所提方法能有效还原壁画色彩信息并保持待还原壁画图像的整体结构纹理特征。 展开更多
关键词 编码器-解码器网络 壁画图像 色彩还原 全局特征 位置编码
在线阅读 下载PDF
基于MTCN-Informer的铁矿球团工艺预测模型
12
作者 廖雪超 朱晨辉 +2 位作者 赵昊裔 向桂宏 刘宗宇 《计算机技术与发展》 2024年第9期188-194,共7页
成品球团流量的预测是生产过程的关键,它决定着整个生产的效率和产量。铁矿球团链箅机—回转窑是生产铁矿石制备高品质铁合金的重要工艺过程之一,具有大时滞、参数庞杂、耦合关系复杂等特点,且成品球团流量波动剧烈,使球团流量难以预测... 成品球团流量的预测是生产过程的关键,它决定着整个生产的效率和产量。铁矿球团链箅机—回转窑是生产铁矿石制备高品质铁合金的重要工艺过程之一,具有大时滞、参数庞杂、耦合关系复杂等特点,且成品球团流量波动剧烈,使球团流量难以预测。为此,该文使用移动平均滤波器来平滑波动的数据,互信息法对庞杂的参数做特征选择,再利用基于自注意力机制的Informer球团流量预测模型,其降低传统自注意力机制的时间复杂度,提高了模型训练效率。同时,针对Informer模型的概率稀疏自注意力机制难以把握长时间序列波动的问题,通过TCN时间卷积网络来提取长时间序列的扩展信息依赖,同时结合Informer编码解码网络来处理上下文的信息,从而完成球团流量的精确预测。通过对工厂实际数据进行实验分析可知,与循环神经网络这类传统的深度学习模型相比,所提集成模型在预测精度、稳定性方面均为最优。 展开更多
关键词 球团流量预测 特征选择 时间卷积网络 编码解码网络 自注意力机制
在线阅读 下载PDF
基于多路信息聚合协同解码的单通道语音增强 被引量:1
13
作者 莫尚斌 王文君 +2 位作者 董凌 高盛祥 余正涛 《计算机应用》 CSCD 北大核心 2024年第8期2611-2617,共7页
为了改善基于卷积编解码架构的单通道语音增强网络对语音声学特征提取不充分、解码特征丢失严重的问题,提出一种基于多路信息聚合协同解码的单通道语音增强网络MIACD,通过双路编码器充分提取融入了语音自监督学习(SSL)表征的幅度谱和复... 为了改善基于卷积编解码架构的单通道语音增强网络对语音声学特征提取不充分、解码特征丢失严重的问题,提出一种基于多路信息聚合协同解码的单通道语音增强网络MIACD,通过双路编码器充分提取融入了语音自监督学习(SSL)表征的幅度谱和复数谱特征,由4层Conformer分别从时间和频率维度对提取特征建模,采用残差连接将双路编码器提取的语音幅度、复数特征引入三路信息聚合解码器,并利用所提通道-时频注意力(CTF-Attention)机制根据语音能量分布情况调节解码器中聚合信息,有效缓解解码时可用声学信息缺失严重的问题。在公开数据集Voice Bank DEMAND上的实验结果表明,与用于单通道语音增强的协作学习框架(GaGNet)相比,MIACD在客观评价指标宽带感知评估语音质量(WB-PESQ)上提升了5.1%,短时客观可懂度(STOI)达到96.7%,验证所提方法可充分利用语音信息重构信号,有效抑制噪声并提升语音可理解性。 展开更多
关键词 声学特征 多路信息聚合 双路编码器 三路信息聚合解码器 通道-时频注意力机制
在线阅读 下载PDF
集成全尺度融合和循环注意力的医学图像分割网络 被引量:2
14
作者 单昕昕 李凯 文颖 《计算机科学》 CSCD 北大核心 2024年第5期100-107,共8页
深度学习中的编解码网络在图像特征提取和分层特征融合方面具有卓越的性能,常被用于医学图像分割。但是,目前主流的编解码网络分割方法仍面临编码和解码阶段单一网络挖掘的图像特征信息不足,以及仅使用简单的跳跃连接而无法充分利用全... 深度学习中的编解码网络在图像特征提取和分层特征融合方面具有卓越的性能,常被用于医学图像分割。但是,目前主流的编解码网络分割方法仍面临编码和解码阶段单一网络挖掘的图像特征信息不足,以及仅使用简单的跳跃连接而无法充分利用全尺度特征包含的粗粒度信息和细粒度信息等问题。为了解决上述问题,提出了一种集成全尺度融合和循环注意力的医学图像分割网络。首先,在U-Net编码器中加入了结合多层感知机(MLP)的卷积MLP模块来提取图像的全局特征信息,用于扩大编码器的特征感受野。其次,通过全尺度特征融合模块使得各尺度跳跃连接特征进行粗粒度信息和细粒度信息的有效融合,减小各尺度跳跃连接特征间的语义差异,突出图像的关键特征信息。最后,解码器通过提出的结合循环神经网络(RNN)和注意力机制的循环注意力解码模块(RADU)来逐级精细化图像特征信息,加强特征提取的同时避免信息冗余,并得到高精度分割结果。在4个数据集上将所提方法与主流较优的方法进行比较,所提方法在像素精度和骰子相似系数两个指标上的图像分割精度均有提高。因此,所提出的用于医学图像分割的编解码网络利用全尺度特征融合模块和循环注意力解码模块,能够获得较优异的高精度分割结果,并且模型具有良好的噪声鲁棒性和抗干扰能力。 展开更多
关键词 医学图像分割 编解码网络 多层感知机 全尺度特征融合 注意力机制 循环神经网络
在线阅读 下载PDF
基于多尺度特征模糊卷积神经网络的遥感图像分割 被引量:8
15
作者 马翔悦 徐金东 倪梦莹 《山东大学学报(工学版)》 CAS CSCD 北大核心 2024年第3期44-54,共11页
为解决高分辨率遥感图像“同谱异物、同物异谱”的不确定性以及大量空间信息利用率低的问题,提出一种基于多尺度特征的模糊卷积神经网络模型。该模型在长跳跃连接部分加入模糊学习模块去除噪声特征,缓解类别间的不确定性;利用多孔空间... 为解决高分辨率遥感图像“同谱异物、同物异谱”的不确定性以及大量空间信息利用率低的问题,提出一种基于多尺度特征的模糊卷积神经网络模型。该模型在长跳跃连接部分加入模糊学习模块去除噪声特征,缓解类别间的不确定性;利用多孔空间金字塔池化融合多尺度特征,提取完备的空间上下文信息,提升分割性能。试验结果表明,该模型在Potsdam数据集和Vaihingen数据集上的整体准确度分别达到92.65%和93.19%,明显优于现有流行的深度学习模型,能够显著提升高分辨率遥感图像的语义分割性能。 展开更多
关键词 模糊学习 多孔空间金字塔池化 多尺度特征 编码器-解码器 卷积神经网络
原文传递
多维图像融合驱动的复杂场景路表破损识别 被引量:2
16
作者 管进超 丁玲 +2 位作者 杨旭 刘鹏飞 汪海年 《交通运输工程学报》 EI CSCD 北大核心 2024年第3期154-170,共17页
为提升复杂场景中路表裂缝与坑槽的识别精度和鲁棒性,考虑实际检测场景中路表破损形态的不规则性和环境噪声干扰,提出了一种面向多维图像的路表破损自动分割模型与特征融合优化方法;基于多目立体视觉重构的路表高精度点云模型,通过同源... 为提升复杂场景中路表裂缝与坑槽的识别精度和鲁棒性,考虑实际检测场景中路表破损形态的不规则性和环境噪声干扰,提出了一种面向多维图像的路表破损自动分割模型与特征融合优化方法;基于多目立体视觉重构的路表高精度点云模型,通过同源点云栅格化生成二、三维图像,建立了复杂场景路表破损图像数据集;结合深度可分离卷积和多层位特征叠加,构造了轻量化编码-解码网络PDU-net,用于像素级裂缝与坑槽识别;在分割模型基础上,提出了像素运算和通道重组2种多维图像融合策略,以提升深度学习网络对浅细裂缝特征的提取效率。试验结果表明:PDU-net模型能够有效学习不同类型图像和破损特征,在不同数据集上的训练损失均能稳定收敛,其中三维图像训练周期小于二维图像;相较于现有卷积分割网络,PDU-net模型在复杂场景下的路表破损分割精度和效率更高,三维裂缝与坑槽图像分割的调和均值分别为81.00%和95.85%,平均正向推理时间约为现有模型的30%;多维融合图像可以提升复杂裂缝分割的精度和鲁棒性,在最优色彩-深度比为0.2时,裂缝分割的调和均值可提升至83.31%。综上所述,所提出的方法可在复杂场景中有效抑制环境噪声并强化病害特征。 展开更多
关键词 道路工程 路表破损识别 多维图像分割 复杂检测场景 轻量化编码-解码网络 图像特征融合
原文传递
基于卷积神经网络的路面裂缝分割设计与研究 被引量:1
17
作者 刘艳宁 章国宝 《应用光学》 CAS 北大核心 2024年第2期373-384,共12页
裂缝是路面病害最主要的类型,准确的裂缝分割是国家进行公路预防养护管理的重要决策依据。针对背景复杂下现有模型路面裂缝分割准确度有待提高的问题,提出一种基于卷积神经网络的端到端裂缝分割模型,使用分层结构的ConvNeXt编码器提取... 裂缝是路面病害最主要的类型,准确的裂缝分割是国家进行公路预防养护管理的重要决策依据。针对背景复杂下现有模型路面裂缝分割准确度有待提高的问题,提出一种基于卷积神经网络的端到端裂缝分割模型,使用分层结构的ConvNeXt编码器提取多尺度特征,特征的最高层使用金字塔池化模块进一步获取全局先验特征,通过具有横向连接和自上而下的金字塔结构进行特征融合。针对裂缝和背景不平衡问题,使用平衡交叉熵损失函数提高模型的检测性能。此外,构建了一个包含2 876张裂缝图片的数据集UCrack,覆盖多种裂缝类型和广泛的背景范围,以提供丰富的特征供模型学习。实验表明,在UCrack测试数据集上模型的召回率和F1得分比其他表现最佳的模型提高了2.68%和6.89%;在CrackDataset数据集上的测试取得了85.68%的召回率和80.11%的F1得分,说明模型具有较好的泛化性能,可应对背景复杂的路面裂缝分割。 展开更多
关键词 裂缝分割 卷积神经网络 编解码网络 特征金字塔 金字塔池化
在线阅读 下载PDF
特征选择融合和增强的轻量级深度估计方法
18
作者 陈磊 梁正友 孙宇 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2182-2187,共6页
目前大部分的单目深度估计网络存在网络参数庞大,消耗硬件资源多等问题.针对这些问题提出一种特征选择融合和特征增强的轻量级深度估计方法.首先,设计了特征选择融合模块来对编码器输出的多尺度特征进行选择融合,在解码器中融入编码器... 目前大部分的单目深度估计网络存在网络参数庞大,消耗硬件资源多等问题.针对这些问题提出一种特征选择融合和特征增强的轻量级深度估计方法.首先,设计了特征选择融合模块来对编码器输出的多尺度特征进行选择融合,在解码器中融入编码器底层位置特征信息,提高不同尺度特征信息的利用率;其次,设计了一个Sobel特征增强模块来加强模型对场景边界信息的感知,提高场景边界深度信息的估计精度.实验结果表明,该方法的模型参数量在仅有4.2M(M为百万),在NUY Depth V2数据集上取得δ1指标0.823的先进性能.该方法不但兼顾了推理速度和估计精度,而且对场景边缘信息有较强预测能力以及模型有较强鲁棒性. 展开更多
关键词 深度估计 多尺度特征融合 特征增强 编码器解码器 轻量级网络
在线阅读 下载PDF
基于时间特征细化网络的时空视频超分辨率研究
19
作者 姚晓娟 穆柯 +3 位作者 潘沛 杨紫伊 赵雨飞 朱永贵 《南通大学学报(自然科学版)》 CAS 2024年第3期10-22,共13页
时空视频超分辨率(space-time video super-resolution,STVSR)通过时间和空间2个尺度提升视频的质量,从而实现在视频采集设备、传输或者存储有限的情况下依然能实时地呈现高分辨率和高帧率的视频,满足人们对超高清画质的追求。相比两阶... 时空视频超分辨率(space-time video super-resolution,STVSR)通过时间和空间2个尺度提升视频的质量,从而实现在视频采集设备、传输或者存储有限的情况下依然能实时地呈现高分辨率和高帧率的视频,满足人们对超高清画质的追求。相比两阶段方法,一阶段方法实现的是特征层面而非像素层面的帧插值,其在推理速度和计算复杂度上都明显更胜一筹。一些现有的一阶段STVSR方法采用基于像素幻觉的特征插值,这幻化了像素,因此很难应对帧间快速运动物体的预测。为此,提出一种基于光流法的金字塔编码器-解码器网络来进行时间特征插值,实现快速的双向光流估计和更真实自然的纹理合成,在使得网络结构更高效的同时弥补了大运动对光流估计带来的不稳定性。另外,空间模块采用基于滑动窗口的局部传播和基于循环网络的双向传播来强化帧对齐,整个网络称为时间特征细化网络(temporal feature refinement netowrk,TFRnet)。为了进一步挖掘TFRnet的潜力,将空间超分辨率先于时间超分辨率(space-first),在几种广泛使用的数据基准和评估指标上的实验证明了所提出方法TFRnet-sf的出色性能,在总体峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structural similarity,SSIM)提升的同时,插入中间帧的PSNR和SSIM也得到提升,在一定程度上缓和了插入的中间帧与原有帧之间PSNR和SSIM差距过大的问题。 展开更多
关键词 时空视频超分辨率 金字塔编码器-解码器网络 时间特征插值 空-时超分策略 深度学习
在线阅读 下载PDF
基于双流增强编码和注意优化解码的图像篡改定位算法
20
作者 朱叶 赵晓祥 于洋 《液晶与显示》 CAS CSCD 北大核心 2024年第8期1103-1115,共13页
主流图像篡改定位方法通常通过简单操作融合不同流的不一致特征,导致特征冗余且篡改区域的像素误检。基于此,本文提出基于双流增强编码和注意优化解码的图像篡改定位框架。首先,提出双流增强编码分别对图像和频域特征进行基于噪声和通... 主流图像篡改定位方法通常通过简单操作融合不同流的不一致特征,导致特征冗余且篡改区域的像素误检。基于此,本文提出基于双流增强编码和注意优化解码的图像篡改定位框架。首先,提出双流增强编码分别对图像和频域特征进行基于噪声和通道注意力的自增强和基于特征映射的交叉注意权重的交互增强。随后,引入多级感受野策略探索多尺度上下文信息,设计邻阶特征聚合模块融合多尺度相邻特征。最后,利用篡改区域和非篡改区域协同增强模型的篡改定位能力,提出注意优化解码模块,消除初始篡改区域预测中边缘像素的错误预测,逐步精确细化篡改定位。在4个主流公共基准数据集NIST16、Coverage、Columbia、CASIA和两个现实挑战数据集IMD20、Wild上与主流篡改定位方法进行对比,本文算法在无微调模型和微调模型两个设置下,在6个数据集上的性能最优,证明本文提出的篡改定位网络能够充分利用多种篡改线索,在不同的篡改数据集上实现篡改区域的有效定位,具有更高的定位精度和更强的鲁棒性。 展开更多
关键词 图像篡改定位 双流增强编码 注意优化解码 邻阶特征聚合
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部