期刊文献+

《中国图象图形学报》 CSCD 北大核心

作品数5394被引量31717H指数55
《中国图象图形学报》是被国内主要检索系统收录的核心中文期刊,是图像图形学及相关领域的权威性杂志。主要刊登图像图形科学及其密切相关领域的基础研究和应用 研究方面,并具有创新性的、高水平科研学术论文,论文...查看详情>>
  • 曾用名 中国图象图形学报(A辑)
  • 主办单位中国科学院空天信息创新研究院;中国图象图形学学会;北京应用物理与计算数学研究所
  • 国际标准连续出版物号1006-8961
  • 国内统一连续出版物号11-3758/TB
  • 出版周期月刊
共找到5,394篇文章
< 1 2 250 >
每页显示 20 50 100
结合知识增强和特征对齐的胸片图像报告生成
1
作者 符杰 刘骊 +2 位作者 付晓东 刘利军 彭玮 《中国图象图形学报》 北大核心 2025年第5期1528-1542,共15页
目的针对胸片X-Ray图像报告生成中图像文本的语义鸿沟、疾病种类的复杂多样以及诊断报告的偏差缺失导致的表征不精确、特征不匹配、结果不准确等问题,提出一种结合知识增强和特征对齐的胸片图像报告生成方法。方法该方法包括图像和文本... 目的针对胸片X-Ray图像报告生成中图像文本的语义鸿沟、疾病种类的复杂多样以及诊断报告的偏差缺失导致的表征不精确、特征不匹配、结果不准确等问题,提出一种结合知识增强和特征对齐的胸片图像报告生成方法。方法该方法包括图像和文本特征表示、知识增强视觉特征学习和全局—局部特征对齐3个模块。首先,输入胸片图像和文本报告,通过构建包含视觉和文本编码器的图像和文本特征表示模块,分别提取图像和文本的全局特征和局部特征;然后,引入胸部先验知识图谱,通过病理图知识编码进行知识增强视觉特征学习,得到融合后的增强视觉特征;最后,定义交叉注意力对图像文本的全局—局部特征和视觉—疾病标签进行跨模态特征对齐,通过多头注意力编解码生成准确的胸片图像报告。结果为了验证方法的有效性,在两个具有挑战性的数据集IU X-Ray和MIMICCXR上进行对比实验。结果表明,本文方法在IU X-Ray数据集中,BLEU-1、BLEU-3、BLEU-4指标分别达到0.505、0.235和0.178,较现有大多数同任务方法有所提升;在MIMIC-CXR数据集中较性能第2的方法,BLEU-2、BLEU-3指标分别提升0.4%和1.2%,说明本文方法具有更大优势。结论本文提出的胸片图像报告生成方法,能捕获图像和文本的细节特征,聚焦全局—局部特征以及疾病类别间的关联,提高了图像与文本的匹配度,能够生成完整准确的医学报告。 展开更多
关键词 胸片图像报告生成 全局—局部特征表示 知识增强 特征学习 特征对齐
原文传递
面向360°全景图像显著目标检测的畸变语义聚合网络
2
作者 陈晓雷 张学功 +1 位作者 杜泽龙 王兴 《中国图象图形学报》 北大核心 2025年第7期2451-2467,共17页
目的为了有效应对360°全景图像的几何畸变和大视野特性带来的挑战,提出一种畸变自适应语义聚合网络(distortion semantic aggregation network,DSANet)。该网络能够提升360°全景图像显著目标检测性能。方法DSANet由3个模块组... 目的为了有效应对360°全景图像的几何畸变和大视野特性带来的挑战,提出一种畸变自适应语义聚合网络(distortion semantic aggregation network,DSANet)。该网络能够提升360°全景图像显著目标检测性能。方法DSANet由3个模块组成:畸变自适应校正模块(distortion aware calibration module,DACM)、多尺度语义注意力聚合模块(multiscale semantic attention aggregation module,MSAAM)以及渐进式细化模块(progressive refinement module,PRM)。DACM模块利用不同扩张率的可变形卷积来学习自适应权重矩阵,校正360°全景图像中的几何畸变;MSAAM模块结合注意力机制和可变形卷积,提取并融合全局语义特征与局部细节特征,生成多尺度语义特征;PRM模块逐层融合多尺度语义特征,进一步提升检测精度。MSAAM模块与PRM模块相配合,解决360°全景图像的大视野问题。结果在两个公开数据集360-SOD和360-SSOD(共计1605幅图像)上进行的实验表明,DSANet在6种主流评价指标(Max F-measure、Mean F-measure、MAE(mean absolute error)、Max E-measure、Mean E-measure、Structure-measure)上均优于其他方法。结论本文方法在多个客观评价指标上表现突出,同时生成的显著目标图像在边缘轮廓性和空间结构细节信息上更为清晰。 展开更多
关键词 深度学习 显著目标检测(SOD) 360°全景图像 几何畸变 大视野
原文传递
结合反事实提示与级联解码SAM的超声图像分割
3
作者 霍一儒 封筠 +2 位作者 刘娜 史屹琛 殷梦莹 《中国图象图形学报》 北大核心 2025年第5期1303-1317,共15页
目的分割一切模型(segment anything model,SAM)在自然图像分割领域已取得显著成就,但应用于医学成像尤其是涉及对比度低、边界模糊和形状复杂的超声图像时,分割过程往往需要人工干预,并且会出现分割性能下降情况。针对上述问题,提出一... 目的分割一切模型(segment anything model,SAM)在自然图像分割领域已取得显著成就,但应用于医学成像尤其是涉及对比度低、边界模糊和形状复杂的超声图像时,分割过程往往需要人工干预,并且会出现分割性能下降情况。针对上述问题,提出一种结合反事实提示与级联解码SAM的改进方法(SAM combined wihongth counterfactual prompt and cascaded decoder,SAMCD)。方法SAMCD在SAM的基础上增加旁路卷积神经网络(convolutional renual network,CNN)图像编码器、跨分支交互适配器、提示生成器和级联解码器。通过使用旁路CNN图像编码器以及跨分支交互适配器,补充ViT(vision Transformer)编码器缺乏的局部信息,以提高模型对细节的捕捉能力;引入反事实干预机制,通过生成反事实提示,迫使模型专注于事实提示生成,提高模型分割精度;采用级联解码器获得丰富的边缘信息,即先利用SAM的原始解码器创建先验掩码,再使用加入边界注意力的Transformer解码器和像素解码器;在训练模型时采用两阶段的训练策略,即交互分割模型训练阶段和自动分割模型训练阶段。结果在TN3K(thyroid nodule 3K)和BUSI(breast ultrasound image)数据集上进行实验,SAMCD的DSC(Dice similarity coefficient)值分别达到83.66%和84.29%,较SAMCT提升0.73%和0.90%,且较对比的SAM及其变体模型更为轻量化;相较于9种先进方法,SAMCD在DSC、mIoU(mean intersection over union)、HD(Hausdorff distance)、敏感性和特异性指标上均达到最优。消融实验和可视化分析表明提出的SAMCD方法具有明显的提升效果。结论本文提出的超声医学图像分割SAMCD方法在充分利用SAM强大的特征表达能力的基础上,通过对编码器、提示生成器、解码器和训练策略的改进,能够精准地捕获超声图像中的复杂局部细节和小目标,提高超声医学图像自动分割效果。 展开更多
关键词 超声图像分割 分割一切模型(SAM) 级联解码 反事实提示生成 跨分支交互适配器
原文传递
基于高空无人机平台的多模态跟踪数据集 被引量:2
4
作者 肖云 曹丹 +2 位作者 李成龙 江波 汤进 《中国图象图形学报》 北大核心 2025年第2期361-374,共14页
目的无人机(unmanned aerial vehicle,UAV)因易操纵、灵活等特点,近年来在军事和民用等多个领域得到广泛应用。相对于低空无人机,高空无人机具有更广的视野,更强的隐蔽性,在情报侦察、灾害救援等方面具有更高的应用价值。然而,现有无人... 目的无人机(unmanned aerial vehicle,UAV)因易操纵、灵活等特点,近年来在军事和民用等多个领域得到广泛应用。相对于低空无人机,高空无人机具有更广的视野,更强的隐蔽性,在情报侦察、灾害救援等方面具有更高的应用价值。然而,现有无人机多模态目标跟踪研究主要针对低空无人机,缺乏高空无人机多模态目标跟踪数据集,限制了该领域的研究和发展。方法构建了一个用于评估高空无人机多模态目标跟踪方法的数据集HiAl(high altitude UAV multi-modal tracking dataset),该数据集主要由搭载混合传感器的无人机在500 m高空拍摄的可见光—红外多模态视频构成,两种模态数据经过精确配准和帧级标注,可以较好地评估不同多模态目标跟踪方法在高空无人机平台下的性能表现。结果将主流的12种多模态跟踪方法在所提数据集与非高空无人机场景数据集上的表现进行了比较,方法TBSI(template-bridged search region interaction)在RGBT234数据集(RGBthermal dataset)上PR(precision rate)值达到0.871,而在本文所提数据集上仅0.527,下降了39.5%,其SR(success rate)值由RGBT234数据集上的0.637,下降到本文所提数据集上的0.468,下降了26.5%。方法HMFT(hierarchical multi-modal fusion tracker)在所提数据集上的PR与RGBT234相比下降了23.6%,SR下降了14%。此外,利用HiAl数据集对6个方法进行重新训练实验,所有重训练方法的性能均得到提升。结论本文提出一个基于高空无人机平台的多模态目标跟踪数据集,旨在促进多模态目标跟踪在高空无人机上的应用研究。HiAl数据集的在线发布地址为:https://github.com/mmic-lcl/Datasets-and-benchmark-code/tree/main。 展开更多
关键词 多模态目标跟踪 高空无人机 微小目标 高质量配准 数据集
原文传递
人工智能赋能地月空间感知技术现状及展望
5
作者 于登云 尹继豪 +5 位作者 刘斯琦 王鹏 王汇娟 张余 姜鸿翔 陈培 《中国图象图形学报》 北大核心 2025年第9期2899-2910,共12页
随着深空探测的不断推进,地月空间已成为探月和深空任务的关键战略区域。面对日益增多的航天器及太空碎片数量,亟需先进的空间态势感知技术以实现对地月空间目标的精准监测与持续跟踪。传统方法因复杂动力学环境和远距离探测精度限制,... 随着深空探测的不断推进,地月空间已成为探月和深空任务的关键战略区域。面对日益增多的航天器及太空碎片数量,亟需先进的空间态势感知技术以实现对地月空间目标的精准监测与持续跟踪。传统方法因复杂动力学环境和远距离探测精度限制,难以满足高精度轨迹预测和目标识别的需求,制约了地月空间感知技术进一步发展,人工智能技术的快速发展为解决这一瓶颈问题提供了新契机。本文系统梳理了人工智能技术在地月空间感知领域的应用进展,涵盖空间目标监视需求、传统机器学习在目标检测及轨道定轨中的应用,以及深度学习、强化学习等人工智能算法的初步应用。通过对国内外典型研究成果的对比分析,归纳了现有技术的优势和不足,提出在算法优化、模型开发等方面的发展展望。分析表明,人工智能方法在提升暗弱目标检测精度、智能轨道确定及复杂态势感知方面表现出显著潜力,尽管面临数据匮乏和专用场景未知等挑战,人工智能技术已初步展现出构建全天候、高自适应性地月空间智能感知体系的能力。未来需加强人工智能与地月空间目标检测、轨道定轨与预报等传统技术结合,持续拓展人工智能在地月空间感知领域的应用,推动地月空间开发迈向智能化发展新阶段。 展开更多
关键词 地月空间 态势感知 人工智能(AI) 目标检测 轨道定轨
原文传递
持续学习研究进展
6
作者 吕凡 王亮 +4 位作者 李玺 郑伟诗 张彰 周涛 胡伏原 《中国图象图形学报》 北大核心 2025年第8期2599-2632,共34页
持续学习(continual learning,CL)是机器学习领域的一个关键问题,旨在使模型在不断学习新任务的同时,避免灾难性遗忘,保持对先前任务的记忆。持续学习已在多个实际应用中扮演重要角色,如自动驾驶、机器人控制和医疗诊断系统等。本文旨... 持续学习(continual learning,CL)是机器学习领域的一个关键问题,旨在使模型在不断学习新任务的同时,避免灾难性遗忘,保持对先前任务的记忆。持续学习已在多个实际应用中扮演重要角色,如自动驾驶、机器人控制和医疗诊断系统等。本文旨在为学界提供持续学习领域的最新研究进展综述,并对未来可能的研究方向进行展望。为实现持续学习中新旧知识学习的“可塑性—稳定性”平衡,国内外研究者们提出多种方法,根据方法的发展路径可以分为传统持续训练方法和基于预训练模型的方法。首先,本文介绍了传统持续训练的关键技术和方法,包括记忆重放法、正则化法和动态结构法。记忆重放法通过将先前任务的样本存储并重放,以帮助模型回忆过去的知识。正则化法则通过对模型参数的更新进行约束,防止新任务对旧任务的干扰。动态结构法通过调整模型结构或引入新的模型模块以应对新任务的挑战,避免灾难性遗忘的发生。接着,本文进一步探讨了基于预训练模型的持续学习方法的进展。随着大规模预训练模型的广泛应用,这类预训练模型展示了强大的泛化能力和知识迁移能力。基于预训练模型的持续学习方法可以分为基于微调和基于提示的方法。微调方法可以通过冻结部分预训练模型参数,仅对特定层进行更新,或采用学习率调节等技术,避免对预训练模型的过度修改。基于提示的方法通过设计和输入提示来引导模型处理新任务,而无需大规模调整模型参数。本文提供的实验结果建议,当前持续学习任务应优先考虑采用基于预训练模型的方法。最后,本文对当前持续学习领域的挑战与未来发展方向进行了展望,重点讨论了各种实际约束条件下,如何结合预训练模型和经典持续学习方法,构建新的架构设计和优化策略,以应对日益复杂的现实任务需求。 展开更多
关键词 持续学习(CL) 灾难性遗忘(CF) 记忆重放 正则化 动态结构 预训练模型(PTM) 综述
原文传递
大模型驱动的多模态点云语义分割测试时自适应方法
7
作者 刘雪帆 刘砚 +2 位作者 李浩然 张晔 郭裕兰 《中国图象图形学报》 2025年第11期3651-3664,共14页
目的点云语义分割在面对跨域分布差异时常出现性能下降,测试时自适应(test-time adaptation,TTA)可以通过在测试阶段利用目标域的无标签数据对源域训练的模型进行在线微调,从而缓解域偏移问题。然而,传统方法往往难以精确处理点云的空... 目的点云语义分割在面对跨域分布差异时常出现性能下降,测试时自适应(test-time adaptation,TTA)可以通过在测试阶段利用目标域的无标签数据对源域训练的模型进行在线微调,从而缓解域偏移问题。然而,传统方法往往难以精确处理点云的空间连续性与局部结构约束,适应效果有限。为增强模型泛化能力,部分方法引入二维图像利用跨模态信息以增强模型的适应性,但跨模态对齐误差易导致语义碎片化的问题,影响语义分割性能。针对上述挑战,本文提出一种结合视觉大模型知识的测试时自适应点云语义分割方法。方法首先,利用CLIP(contrastive language-image pre-training)文本编码器生成类别对应的文本嵌入,将视觉—文本先验知识融入逐点特征的预测过程,为点云提供泛化能力更强的语义补充信息;其次,通过SAM(segment-anything-model)生成的区域掩码对点云特征进行局部的一致性约束,有效缓解因对齐误差导致的特征不连续及进而产生的语义碎片化问题,提升模型的语义分割性能。结果本文方法在3个数据集划分的3个真实场景(数据集—数据集、地点—地点、时间—时间)中,与现有的测试时自适应和无监督域自适应方法进行了对比。实验结果表明,本文方法在数据集—数据集场景中的性能提升尤为显著。在地点—地点和时间—时间场景中,本文方法也优于当前先进模型。此外,本文的测试时自适应方法在无法获取源域数据的条件下,仍能超越部分无监督域自适应方法,展现出较高的实用价值。结论本文提出的利用视觉大模型知识引导测试时自适应方法,通过融合视觉—文本信息和局部特征一致性约束,显著提升了点云语义分割在多种场景中的泛化性能。 展开更多
关键词 点云 语义分割 测试时自适应(TTA) 视觉基础模型 多模态
原文传递
室内场景拟人交互研究进展 被引量:3
8
作者 杜韬 胡瑞珍 +2 位作者 刘利斌 弋力 赵昊 《中国图象图形学报》 CSCD 北大核心 2024年第6期1575-1606,共32页
人类智能是在与环境交互中进化的,因而如何实现智能体与环境的自主交互是推进智能演化的关键。环境自主交互是一项涉及计算机图形学、计算机视觉和机器人等多个学科领域的研究课题,引起广泛的关注和探究,学术界已围绕这一热点研究问题... 人类智能是在与环境交互中进化的,因而如何实现智能体与环境的自主交互是推进智能演化的关键。环境自主交互是一项涉及计算机图形学、计算机视觉和机器人等多个学科领域的研究课题,引起广泛的关注和探究,学术界已围绕这一热点研究问题从不同视角和技术维度开展了一系列研究工作。本文着眼于室内场景拟人交互,全面梳理数字人与机器人在室内环境下学习完成特定交互任务过程中需要涉及的仿真交互平台、场景交互数据和交互生成算法3方面基本要素的研究进展。在仿真交互环境搭建方面,本文梳理了仿真环境涉及的仿真技术和研究进展,并对代表性的拟人交互仿真平台进行了介绍;在场景交互数据构建方面,本文从场景交互感知数据集、场景交互运动数据集以及交互数据规模的高效扩充3方面对国内外研究现状进行了详细介绍;在拟人交互感知与生成方面,本文介绍了以交互为导向的场景可供性分析的相关工作,并以交互生成为线索,分别梳理了数字人—场景交互生成、机器人—场景交互生成的相关工作。基于对国内外相关工作的梳理和讨论,最后从交互仿真、交互数据、交互感知和交互生成4个方面,总结了该领域目前仍面临的挑战,并对未来的发展趋势进行了展望。 展开更多
关键词 环境交互 交互仿真 交互数据 交互感知 交互生成
原文传递
深度学习实时语义分割研究进展和挑战 被引量:6
9
作者 王卓 瞿绍军 《中国图象图形学报》 CSCD 北大核心 2024年第5期1188-1220,共33页
语义分割作为计算机视觉领域的重要研究方向之一,应用十分广泛。其目的是根据预先定义好的类别对输入图像进行像素级别的分类。实时语义分割则在一般语义分割的基础上又增加了对速度的要求,广泛应用于如无人驾驶、医学图像分析、视频监... 语义分割作为计算机视觉领域的重要研究方向之一,应用十分广泛。其目的是根据预先定义好的类别对输入图像进行像素级别的分类。实时语义分割则在一般语义分割的基础上又增加了对速度的要求,广泛应用于如无人驾驶、医学图像分析、视频监控与航拍图像等领域。其要求分割方法不仅要取得较高的分割精度,且分割速度也要快。随着深度学习和神经网络的快速发展,实时语义分割也取得了一定的研究成果。本文在前人已有工作的基础上对基于深度学习的实时语义分割算法进行系统的归纳总结,包括基于Transformer和剪枝的方法等,全面介绍实时语义分割方法在各领域中的应用。首先介绍实时语义分割的概念,再根据标签的数量和质量,将现有的基于深度学习的实时语义分割方法分为强监督学习、弱监督学习和无监督学习3个类别。在分类的基础上,结合各个类别中最具有代表性的方法,对其优缺点展开分析,并从多个角度进行比较。随后介绍目前实时语义分割常用的数据集和评价指标,并对比分析各算法在各数据集上的实验效果,阐述现阶段实时语义分割的应用场景。最后,讨论了基于深度学习的实时语义分割存在的挑战,并对实时语义分割未来值得研究的方向进行展望,为研究者们解决存在的问题提供便利。 展开更多
关键词 语义分割(SS) 实时语义分割 深度学习 注意力 卷积
原文传递
相似度感知蒸馏的统一弱监督个性化联邦图像分割
10
作者 潘建珊 林立 +5 位作者 吴洁伟 刘翼翔 陈孝华 林其友 黄建业 唐晓颖 《中国图象图形学报》 CSCD 北大核心 2024年第3期620-636,共17页
目的 联邦学习允许多个机构在不侵犯数据隐私、安全的前提下协作训练强大的深度模型。现有多数联邦范式在处理多中心不同数据分布时性能通常会下降,且弱监督条件下的联邦范式鲜有研究,特别是各站点数据采用不同形式稀疏标注的情况。针... 目的 联邦学习允许多个机构在不侵犯数据隐私、安全的前提下协作训练强大的深度模型。现有多数联邦范式在处理多中心不同数据分布时性能通常会下降,且弱监督条件下的联邦范式鲜有研究,特别是各站点数据采用不同形式稀疏标注的情况。针对该问题,提出一种站点分布相似度感知知识蒸馏的统一弱监督个性化联邦学习框架(unified weakly supervised personalized federated image segmentation via similarity-aware distillation,pFedWSD),以应对多中心数据分布和标注上的差异。方法 所提出的pFedWSD通过循环知识蒸馏为每个站点训练个性化模型,包含动态循环公共知识积累及个性化两个阶段。第1阶段以不确定度感知方式动态地排序每轮训练中各站点模型性能,并以循环知识蒸馏的形式积累公共知识;第2阶段通过批标准化层的统计信息来度量各站点间相似性并聚合得到各站点教师模型并进行知识蒸馏。在弱监督方面,引入门控条件随机场损失和树能量损失相结合的训练目标,以产生更为精确的伪标注监督信号。结果 在眼底视杯视盘分割和视网膜中心凹无血管区分割两项任务中,pFedWSD的Dice系数和HD95(95%Hausdorff distance)指标均优于多种中心式联邦和个性化联邦方法,在两项任务中,Dice系数分别为90.38%和93.12%,相比于较先进的方法FedAP(federated learning with adaptive batchnorm for personalized healthcare)和FedALA(adaptive local aggregation for personalized federated learning)分别提升了1.67%和6.56%,性能接近于全监督集中式训练所得的模型。结论 本文提出的弱监督个性化联邦学习框架能有效统一不同形式稀疏标注数据并对不同分布的各站点数据训练得到个性化模型,使各站点分割性能均得到显著提升。 展开更多
关键词 相似度感知 知识蒸馏 弱监督学习 个性化联邦学习 医学图像分割
原文传递
感受野扩增的轻量级病理图像聚焦质量评估网络
11
作者 丁维龙 朱伟 +3 位作者 廖婉茵 刘津龙 汪春年 祝行琴 《中国图象图形学报》 CSCD 北大核心 2024年第11期3447-3461,共15页
目的病理切片扫描仪成像的数字病理图像的聚焦质量不佳,会严重影响肿瘤诊断的准确性。因此,开展对数字病理图像的聚焦质量评估的自动化算法至关重要。现有的聚焦质量评估主要采用深度学习方法,但常规的卷积神经网络(convolutional neura... 目的病理切片扫描仪成像的数字病理图像的聚焦质量不佳,会严重影响肿瘤诊断的准确性。因此,开展对数字病理图像的聚焦质量评估的自动化算法至关重要。现有的聚焦质量评估主要采用深度学习方法,但常规的卷积神经网络(convolutional neural network,CNN)存在全局信息提取能力差和计算量过大问题。为此,提出一种感受野扩增的轻量级病理图像聚焦质量评估网络。方法该网络引入大卷积核来扩增网络的感受野,以捕获更多的全局信息。再利用新的双流大核注意力机制,增强对空间和通道上全局信息的提取能力。最后,将该网络优化为参数量递减的大型、中型和小型3个版本,以实现网络的轻量化。结果本文提出的大型网络比同类先进方法取得更优的性能。与本文的大型网络相比,优化后的小型网络牺牲了较小的性能,却取得参数量、计算量和CPU推理时间的显著下降。与同类轻量级网络SDCNN(self-defined convolutional neural network)相比,本文的小型网络在SRCC(Spearman’s rank correlation coefficient)、PLCC(Pearson linear correlation coefficient)和KRCC(Kendall rank correlation coefficient)等度量指标上分别提升了0.0161、0.0166和0.0299,而参数量、计算量和CPU推理时间分别减少了39.06%、95.11%和51.91%。结论本文提出的方法可有效地提取数字病理图像的全局聚焦信息,且计算资源消耗更低,具有现实可行性。 展开更多
关键词 数字病理图像 聚焦质量评估 感受野扩增 注意力机制 轻量级
原文传递
面向全景智齿检测的内卷解耦轻量化网络 被引量:1
12
作者 曾怡峰 姚潇 +2 位作者 华飞 王佩佩 顾敏 《中国图象图形学报》 CSCD 北大核心 2023年第8期2491-2504,共14页
目的全口曲面断层片(全景片)需要病人的正确摆位辅以仪器的合理配置而取得合格的成像:以面中线为界,双侧上下颌骨等结构呈左右对称;牙齿的咬合面连线呈缓慢的微笑曲线,各牙齿在全景片上的生理位置是基本固定的。因此,以全景片为代表的... 目的全口曲面断层片(全景片)需要病人的正确摆位辅以仪器的合理配置而取得合格的成像:以面中线为界,双侧上下颌骨等结构呈左右对称;牙齿的咬合面连线呈缓慢的微笑曲线,各牙齿在全景片上的生理位置是基本固定的。因此,以全景片为代表的口腔医学图像具备固定的前、背景关系和稳定的空间结构,但基于常规卷积的网络因其卷积的空间无关性而对上述空间域的结构信息并不敏感。虽然一些特殊的注意力模块能够引导模型关注特定信息并给予加权,但是它关注的信息常常背离人们的期望,反而降低模型性能;另一方面,注意力作为嵌入式的模块往往会提高计算量和参数量。针对口腔医学图像的结构特性,提出适用于全景智齿检测的基于内卷解耦的YOLO(you only look once)模型。方法在主干网络中,通过重塑跨阶段分部(cross stage partial,CSP)结构并引入一种具备空间特异性的内卷积方式,使模型优先关注空间域中信息量最大的视觉元素,以此强化模型对空间信息的建模能力;在检测头结构中,提出采用多支路解耦结构克服任务耦合的负面影响,解决内卷算子与YOLO模型的适配性问题,并对各支路的损失函数进行针对性优化。结果在全景片数据集上的智齿检测的实验结果表明,本文方法的检测性能和模型参数大幅优于近年优秀的单阶段目标检测模型,相较于本文的基线模型,参数量缩减了42.5%,平均精确率提升了6.3%,充分验证了本文模型结构的合理性及对于智齿检测任务的有效性。结论本文针对口腔医学图像的空间结构性质提出的基于内卷解耦的全景智齿检测方案,具有更强的空间信息建模能力,且降低了参数量成本。 展开更多
关键词 全景片 智齿 目标检测 YOLO 解耦 内卷
原文传递
结合部首字形和层级结构的手写汉字纠错方法 被引量:3
13
作者 李云青 杜俊 +1 位作者 胡鹏飞 张建树 《中国图象图形学报》 CSCD 北大核心 2023年第8期2382-2395,共14页
目的手写汉字纠错(handwritten Chinese character error correction,HCCEC)任务具有两重性,即判断汉字正确性和对错字进行纠正,该任务在教育场景下应用广泛,可以帮助学生学习汉字、纠正书写错误。由于手写汉字具有复杂的空间结构、多... 目的手写汉字纠错(handwritten Chinese character error correction,HCCEC)任务具有两重性,即判断汉字正确性和对错字进行纠正,该任务在教育场景下应用广泛,可以帮助学生学习汉字、纠正书写错误。由于手写汉字具有复杂的空间结构、多样的书写风格以及巨大的数量,且错字与正确字之间具有高度的相似性,因此,手写汉字纠错的关键是如何精确地建模一个汉字。为此,提出一种层级部首网络(hierarchical radical network,HRN)。方法从部首字形的角度出发,挖掘部首形状结构上的相似性,通过注意力模块捕获包含部首信息的细粒度图像特征,增大相似字之间的区分性。另外,结合汉字本身的层级结构特性,采用基于概率解码的思路,对部首的层级位置进行建模。结果在手写汉字数据集上进行实验,与现有方案相比,HRN在正确字测试集与错字测试集上,精确率分别提升了0.5%和9.8%,修正率在错字测试集上提升了15.3%。此外,通过注意力机制的可视化分析,验证了HRN可以捕捉包含部首信息的细粒度图像特征。部首表征之间的欧氏距离证明了HRN学习到的部首表征向量中包含了部首的字形结构信息。结论本文提出的HRN能够更好地对相似部首进行区分,进而精确地区分正确字与错字,具有很强的鲁棒性和泛化性。 展开更多
关键词 手写汉字纠错(HCCEC) 汉字识别 部首分析 广义零样本学习(GZSL) 注意力机制 卷积神经网络(CNN)
原文传递
小股人群重识别研究进展 被引量:1
14
作者 张权 赖剑煌 +1 位作者 谢晓华 陈泓栩 《中国图象图形学报》 CSCD 北大核心 2023年第5期1225-1241,共17页
小股人群重识别旨在将非重叠视域的摄像头网络下具有相同成员的群组图像进行正确的关联。小股人群重识别是传统行人重识别任务的一个重要拓展,在安防监控场景下有着重要的研究意义和应用前景。小股人群重识别所面临的独特挑战在于如何... 小股人群重识别旨在将非重叠视域的摄像头网络下具有相同成员的群组图像进行正确的关联。小股人群重识别是传统行人重识别任务的一个重要拓展,在安防监控场景下有着重要的研究意义和应用前景。小股人群重识别所面临的独特挑战在于如何针对群内成员的数量变化和布局变化进行建模,并提取稳定、鲁棒的特征表达。近年来,小股人群重识别引发了研究人员的广泛关注,并获得了快速的发展。本文对小股人群重识别技术的研究进展进行了全面的梳理回顾。首先简要介绍本领域的研究背景,对基本概念、数据集和相关技术进行了简要总结。在此基础上,对多种小股人群重识别算法进行了详细的介绍,并在多个数据集上对前沿算法进行性能对比。最后,对该任务进行展望。整体而言,与行人重识别相比,小股人群重识别的现有方法在具体场景下的特定挑战性能表现欠佳,还需要从数据收集和方法设计两方面进一步探讨。此外,现有的小股人群重识别研究与其他视觉任务的关联性不够紧密,如何协同多任务作业以解决更多业界需求、加速产业落地,需要学术界和工业界共同思考和推动。 展开更多
关键词 小股人群重识别(GReID) 行人重识别 虚拟数据 深度学习 特征学习 度量学习 TRANSFORMER
原文传递
基于深度学习的图像融合方法综述 被引量:52
15
作者 唐霖峰 张浩 +1 位作者 徐涵 马佳义 《中国图象图形学报》 CSCD 北大核心 2023年第1期3-36,共34页
图像融合技术旨在将不同源图像中的互补信息整合到单幅融合图像中以全面表征成像场景,并促进后续的视觉任务。随着深度学习的兴起,基于深度学习的图像融合算法如雨后春笋般涌现,特别是自编码器、生成对抗网络以及Transformer等技术的出... 图像融合技术旨在将不同源图像中的互补信息整合到单幅融合图像中以全面表征成像场景,并促进后续的视觉任务。随着深度学习的兴起,基于深度学习的图像融合算法如雨后春笋般涌现,特别是自编码器、生成对抗网络以及Transformer等技术的出现使图像融合性能产生了质的飞跃。本文对不同融合任务场景下的前沿深度融合算法进行全面论述和分析。首先,介绍图像融合的基本概念以及不同融合场景的定义。针对多模图像融合、数字摄影图像融合以及遥感影像融合等不同的融合场景,从网络架构和监督范式等角度全面阐述各类方法的基本思想,并讨论各类方法的特点。其次,总结各类算法的局限性,并给出进一步的改进方向。再次,简要介绍不同融合场景中常用的数据集,并给出各种评估指标的具体定义。对于每一种融合任务,从定性评估、定量评估和运行效率等多角度全面比较其中代表性算法的性能。本文提及的算法、数据集和评估指标已汇总至https://github.com/Linfeng-Tang/Image-Fusion。最后,给出了本文结论以及图像融合研究中存在的一些严峻挑战,并对未来可能的研究方向进行了展望。 展开更多
关键词 图像融合 深度学习 多模图像 数字摄影 遥感影像
原文传递
双视图三维卷积网络的工业装箱行为识别 被引量:1
16
作者 胡海洋 潘健 李忠金 《中国图象图形学报》 CSCD 北大核心 2022年第8期2368-2379,共12页
目的 在自动化、智能化的现代生产制造过程中,行为识别技术扮演着越来越重要的角色,但实际生产制造环境的复杂性,使其成为一项具有挑战性的任务。目前,基于3D卷积网络结合光流的方法在行为识别方面表现出良好的性能,但还是不能很好地解... 目的 在自动化、智能化的现代生产制造过程中,行为识别技术扮演着越来越重要的角色,但实际生产制造环境的复杂性,使其成为一项具有挑战性的任务。目前,基于3D卷积网络结合光流的方法在行为识别方面表现出良好的性能,但还是不能很好地解决人体被遮挡的问题,而且光流的计算成本很高,无法在实时场景中应用。针对实际工业装箱场景中存在的人体被遮挡问题和光流计算成本问题,本文提出一种结合双视图3D卷积网络的装箱行为识别方法。方法 首先,通过使用堆叠的差分图像(residual frames, RF)作为模型的输入来更好地提取运动特征,替代实时场景中无法使用的光流。原始RGB图像和差分图像分别输入到两个并行的3D ResNeXt101中。其次,采用双视图结构来解决人体被遮挡的问题,将3D ResNeXt101优化为双视图模型,使用一个可学习权重的双视图池化层对不同角度的视图做特征融合,然后使用该双视图3D ResNeXt101模型进行行为识别。最后,为进一步提高检测结果的真负率(true negative rate, TNR),本文在模型中加入降噪自编码器和two-class支持向量机(support vector machine, SVM)。结果 本文在实际生产环境下装箱场景进行了实验,采用准确率和真负率两个指标进行评估,得到的装箱行为识别准确率为94.2%、真负率为98.9%。同时在公共数据集UCF(University of Central Florida)101上进行了评估,以准确率为评估指标,得到的装箱行为识别准确率为97.9%。进一步验证了本文方法的有效性和准确性。结论 本文提出的人体行为识别方法能够有效利用多个视图中的人体行为信息,结合传统模型和深度学习模型,显著提高了行为识别准确率和真负率。 展开更多
关键词 行为识别 双视图 三维卷积神经网络 降噪自编码器 支持向量机(SVM)
原文传递
用于单幅模糊图像超分辨的Transformer融合网络 被引量:6
17
作者 刘花成 任文琦 +1 位作者 王蕊 操晓春 《中国图象图形学报》 CSCD 北大核心 2022年第5期1616-1631,共16页
目的以卷积神经网络为代表的深度学习方法已经在单帧图像超分辨领域取得了丰硕成果,这些方法大多假设低分辨图像不存在模糊效应。然而,由于相机抖动、物体运动等原因,真实场景下的低分辨率图像通常会伴随着模糊现象。因此,为了解决模糊... 目的以卷积神经网络为代表的深度学习方法已经在单帧图像超分辨领域取得了丰硕成果,这些方法大多假设低分辨图像不存在模糊效应。然而,由于相机抖动、物体运动等原因,真实场景下的低分辨率图像通常会伴随着模糊现象。因此,为了解决模糊图像的超分辨问题,提出了一种新颖的Transformer融合网络。方法首先使用去模糊模块和细节纹理特征提取模块分别提取清晰边缘轮廓特征和细节纹理特征。然后,通过多头自注意力机制计算特征图任一局部信息对于全局信息的响应,从而使Transformer融合模块对边缘特征和纹理特征进行全局语义级的特征融合。最后,通过一个高清图像重建模块将融合特征恢复成高分辨率图像。结果实验在2个公开数据集上与最新的9种方法进行了比较,在GOPRO数据集上进行2倍、4倍、8倍超分辨重建,相比于性能第2的模型GFN(gated fusion network),峰值信噪比(peak signal-to-noive ratio,PSNR)分别提高了0.12 d B、0.18 d B、0.07 d B;在Kohler数据集上进行2倍、4倍、8倍超分辨重建,相比于性能第2的模型GFN,PSNR值分别提高了0.17 d B、0.28 d B、0.16 d B。同时也在GOPRO数据集上进行了对比实验以验证Transformer融合网络的有效性。对比实验结果表明,提出的网络明显提升了对模糊图像超分辨重建的效果。结论本文所提出的用于模糊图像超分辨的Transformer融合网络,具有优异的长程依赖关系和全局信息捕捉能力,其通过多头自注意力层计算特征图任一局部信息在全局信息上的响应,实现了对去模糊特征和细节纹理特征在全局语义层次的深度融合,从而提升了对模糊图像进行超分辨重建的效果。 展开更多
关键词 超分辨 单帧图像超分辨 模糊图像 融合网络 TRANSFORMER
原文传递
融合跨阶段深度学习的脑肿瘤MRI图像分割 被引量:13
18
作者 夏峰 邵海见 邓星 《中国图象图形学报》 CSCD 北大核心 2022年第3期873-884,共12页
目的磁共振成像(magnetic resonance imaging,MRI)作为一种非侵入性的软组织对比成像方式,可以提供有关脑肿瘤的形状、大小和位置等有价值的信息,是用于脑肿瘤患者检查的主要方法,在脑肿瘤分割任务中发挥着重要作用。由于脑肿瘤本身复... 目的磁共振成像(magnetic resonance imaging,MRI)作为一种非侵入性的软组织对比成像方式,可以提供有关脑肿瘤的形状、大小和位置等有价值的信息,是用于脑肿瘤患者检查的主要方法,在脑肿瘤分割任务中发挥着重要作用。由于脑肿瘤本身复杂多变的形态、模糊的边界、低对比度以及样本梯度复杂等问题,导致高精度脑肿瘤MRI图像分割非常具有挑战性,目前主要依靠专业医师手动分割,费时且可重复性差。对此,本文提出一种基于U-Net的改进模型,即CSPU-Net(cross stage partial U-Net)脑肿瘤分割网络,以实现高精度的脑肿瘤MRI图像分割。方法CSPU-Net在U-Net结构的上下采样中分别加入两种跨阶段局部网络结构(cross stage partial module,CSP)提取图像特征,结合GDL(general Dice loss)和WCE(weighted cross entropy)两种损失函数解决训练样本类别不平衡问题。结果在BraTS(brain tumor segmentation)2018和BraTS 2019两个数据集上进行实验,在BraTS 2018数据集中的整体肿瘤分割精度、核心肿瘤分割精度和增强肿瘤分割精度分别为87.9%、80.6%和77.3%,相比于传统U-Net的改进模型(ResU-Net)分别提升了0.80%、1.60%和2.20%。在BraTS 2019数据集中的整体肿瘤分割精度、核心肿瘤分割精度和增强肿瘤分割精度分别为87.8%、77.9%和70.7%,相比于ResU-Net模型提升了0.70%、1.30%和1.40%。结论本文提出的跨阶段局部网络结构,通过增加梯度路径、减少信息损失,可以有效提高脑肿瘤分割精度,实验结果证明了该模块对脑肿瘤分割任务的有效性。 展开更多
关键词 脑肿瘤分割 深度学习 U-Net 跨阶段局部网络结构 残差模块
原文传递
网络监督数据下的细粒度图像识别综述 被引量:9
19
作者 魏秀参 许玉燕 杨健 《中国图象图形学报》 CSCD 北大核心 2022年第7期2057-2077,共21页
细粒度图像识别旨在对某一传统语义类别下细粒度级别的不同子类类别进行视觉识别,在智慧新经济和工业物联网等领域(如智慧城市、公共安全、生态保护、农业生产与安全保障)具有重要的科学意义和应用价值。细粒度图像识别在深度学习的助... 细粒度图像识别旨在对某一传统语义类别下细粒度级别的不同子类类别进行视觉识别,在智慧新经济和工业物联网等领域(如智慧城市、公共安全、生态保护、农业生产与安全保障)具有重要的科学意义和应用价值。细粒度图像识别在深度学习的助力下取得了长足进步,但其对大规模优质细粒度图像数据的依赖成为制约细粒度图像识别推广和普及的瓶颈。随着互联网和大数据的快速发展,网络监督图像数据作为免费的数据来源成为缓解深度学习对大数据依赖的可行解决方案,如何有效利用网络监督数据成为提升细粒度图像识别推广性和泛化性的热门课题。本文围绕细粒度图像识别主题,以网络监督数据下的细粒度识别为重点,先后对细粒度识别数据集、传统细粒度识别方法、网络监督下细粒度识别特点与方法进行介绍,并回顾了全球首届网络监督下的细粒度图像识别竞赛的相关情况及冠军解决方案。最后,在上述内容基础上总结和讨论了该领域的未来发展趋势。 展开更多
关键词 网络监督 细粒度图像识别 噪声数据 长尾分布 类间差异小 综述
原文传递
一尺窗 一世界 2020年封面图片
20
《中国图象图形学报》 CSCD 北大核心 2021年第5期F0004-F0004,共1页
原文传递
上一页 1 2 250 下一页 到第
使用帮助 返回顶部