期刊文献+
共找到11,564篇文章
< 1 2 250 >
每页显示 20 50 100
《信号处理》图像与视频处理专刊编者按
1
作者 贲晛烨 张艳宁 +3 位作者 付莹 安平 毋立芳 白慧慧 《信号处理》 北大核心 2025年第2期193-197,共5页
图像与视频处理作为信号处理领域的重要分支,近年来伴随电子信息技术的快速发展和人工智能技术的深度融合,成为国际学术界和工程界关注的焦点。作为数字信号处理的重要应用方向,图像与视频处理涵盖了生成、修复、增强、检测、识别、分... 图像与视频处理作为信号处理领域的重要分支,近年来伴随电子信息技术的快速发展和人工智能技术的深度融合,成为国际学术界和工程界关注的焦点。作为数字信号处理的重要应用方向,图像与视频处理涵盖了生成、修复、增强、检测、识别、分割、跟踪等多个核心任务,并在安防监控、医疗诊断、智能娱乐等行业中展现了巨大的应用潜力和市场价值。在安防监控领域,图像与视频处理技术通过智能识别和目标跟踪实现了对异常行为的高效检测,显著提升了系统的自动化水平和监控精度。 展开更多
关键词 人工智能技术 智能识别 安防监控 数字信号处理 医疗诊断 电子信息技术 异常行为 目标跟踪
在线阅读 下载PDF
基于光电成像的籽棉回潮率与含杂率检测
2
作者 夏彬 王会博 +3 位作者 高云龙 孟永法 李梦辉 王飞 《毛纺科技》 北大核心 2025年第9期110-115,共6页
针对籽棉回潮率与含杂率检测速度慢、效率低等问题,提出了一种基于光电成像的籽棉回潮率与含杂率检测方法。搭建了由棉样输送机构、压棉机构、回潮率光电检测机构、含杂率图像采集机构、数据处理与显示机构组成的试验系统,采用电阻分压... 针对籽棉回潮率与含杂率检测速度慢、效率低等问题,提出了一种基于光电成像的籽棉回潮率与含杂率检测方法。搭建了由棉样输送机构、压棉机构、回潮率光电检测机构、含杂率图像采集机构、数据处理与显示机构组成的试验系统,采用电阻分压原理建立了电阻值与回潮率数学模型,同时,采用RGB双面成像方法建立了图像含杂面积与含杂率的检测模型,实现了籽棉回潮率与含杂率的快速检测。试验结果表明:与现行标准检测方法相比,本文回潮率方法的绝对误差均值为±0.31%,其中,在4%~7%的低回潮区间,检测的绝对误差为±0.19%;含杂率检测方法的绝对误差均值为±0.36%,验证了该方法的检测精度与有效性,可为籽棉回潮率与含杂率仪器化检测提供技术参考。 展开更多
关键词 籽棉回潮率 籽棉含杂率 光电成像 检测
在线阅读 下载PDF
面向深度学习的三维点云补全算法综述
3
作者 胡伏原 李晨露 +2 位作者 周涛 程洪福 顾敏明 《中国图象图形学报》 北大核心 2025年第2期309-333,共25页
点云因其丰富的信息表达能力已成为三维视觉的主要表现形式,然而实际采集到的点云数据往往因各种因素导致稀疏或残缺,严重影响点云后续处理。点云补全算法旨在从残缺点云数据中重建完整点云模型,是3D重建、目标检测和形状分类等领域的... 点云因其丰富的信息表达能力已成为三维视觉的主要表现形式,然而实际采集到的点云数据往往因各种因素导致稀疏或残缺,严重影响点云后续处理。点云补全算法旨在从残缺点云数据中重建完整点云模型,是3D重建、目标检测和形状分类等领域的重要研究基础。目前,基于深度学习的点云补全算法逐渐成为三维点云领域的研究热点,但补全任务中模型结构、精度和效率等挑战正阻碍点云补全算法的发展。本文对深度学习背景下的点云补全算法进行系统综述,首先根据网络输入模态将点云补全算法分为两大类,即基于单模态的方法以及基于多模态的方法。接着根据三维数据表征方式将基于单模态的方法分为三大类,即基于体素的方法、基于视图的方法以及基于点的方法,并对经典方法和最新方法进行系统的分析和总结,同时结合热点模型,如生成对抗网络(generative adversarial network,GAN)、Transformer模型等进一步分类对比,评述各类模型下点云补全算法的方法特点与网络性能。再对基于多模态的方法进行实际应用分析,结合扩散模型等方法进行算法性能对比。然后总结点云补全任务中常用的数据集及评价标准,分别以多种评价标准对比分析现有基于深度学习的点云补全算法在真实数据集与多种合成数据集上的性能表现。最后根据各分类的优缺点提出点云补全算法在深度学习领域的未来发展和研究趋势,为三维视觉领域的补全算法研究者提供重要参考价值。 展开更多
关键词 点云补全 体素方法 多模态方法 Transformer模型 扩散模型
原文传递
多媒体与交互技术驱动下的教材设计创新研究
4
作者 谭鹤毅 陈熙 李苹 《电脑知识与技术》 2025年第23期98-100,共3页
教育信息化的发展使得多媒体和交互技术在教育教学中被广泛使用,对教材设计也提出了全新的要求。文章探讨了多媒体与交互技术在教材内容呈现、交互功能设计和情境创设等方面带来的创新;分析了教学资源整合、师生技术适应性和资源实用性... 教育信息化的发展使得多媒体和交互技术在教育教学中被广泛使用,对教材设计也提出了全新的要求。文章探讨了多媒体与交互技术在教材内容呈现、交互功能设计和情境创设等方面带来的创新;分析了教学资源整合、师生技术适应性和资源实用性等方面面临的挑战;提出了构建技术支持体系和加强教师培训等应对策略。研究表明,多媒体与交互技术为教材设计带来变革,解决技术应用难题,实现技术与教学融合,是促进教育现代化的关键。 展开更多
关键词 多媒体与交互技术 教材设计创新 内容呈现 交互功能 情境创设 应对策略
在线阅读 下载PDF
基于双目视觉技术的障碍物检测算法设计研究
5
作者 罗颖 《山西师范大学学报(自然科学版)》 2025年第3期46-51,共6页
为完善智能交通系统道路检测和障碍物检测的准确度,利用双目视觉来模拟实现智能驾驶中对障碍物的检测.首先,基于计算机视觉技术的原理,对采集到的图像进行灰度变换图像增强,使图像清晰地显示出来.然后,利用灰度直方图再基于阈值的方式... 为完善智能交通系统道路检测和障碍物检测的准确度,利用双目视觉来模拟实现智能驾驶中对障碍物的检测.首先,基于计算机视觉技术的原理,对采集到的图像进行灰度变换图像增强,使图像清晰地显示出来.然后,利用灰度直方图再基于阈值的方式进行分割,通过最大熵法和类间最大距离法确定最佳阈值,并对图像进行二值化处理,最后通过基于灰度的快速模板匹配算法进行图像配准.结果表明,基于双目视觉的障碍物检测识别率在98.3%以上,测距误差低于5%,比单目视觉检测法的识别性能更优. 展开更多
关键词 智能交通系统 计算机视觉 障碍物检测 图像处理
在线阅读 下载PDF
多模态大模型驱动的三维视觉理解技术前沿进展 被引量:1
6
作者 冯明涛 沈军豪 +7 位作者 武子杰 彭伟星 钟杭 郭裕兰 舒祥波 张辉 董伟生 王耀南 《中国图象图形学报》 北大核心 2025年第6期1744-1791,共48页
三维(3D)视觉感知和理解在机器人导航、自动驾驶以及智能人机交互等众多领域广泛应用,是计算机视觉领域备受瞩目的研究方向。随着多模态大模型的发展,它们与3D视觉数据的融合取得快速进展,为理解和与3D物理世界交互提供了前所未有的能力... 三维(3D)视觉感知和理解在机器人导航、自动驾驶以及智能人机交互等众多领域广泛应用,是计算机视觉领域备受瞩目的研究方向。随着多模态大模型的发展,它们与3D视觉数据的融合取得快速进展,为理解和与3D物理世界交互提供了前所未有的能力,并展现了独特优势,如上下文学习、逐步推理、开放词汇能力和丰富的世界知识。本文涵盖3D视觉数据基本表示,从点云到3D高斯泼溅;梳理主流多模态大模型的发展脉络;对联合多模态大模型的3D视觉数据表征方法进行归纳总结;梳理基于多模态大模型的3D理解任务,如3D生成与重建、3D目标检测、3D语义分割、3D场景描述、语言引导的3D目标定位和3D场景问答等;提炼基于多模态大模型的机器人具身智能系统中空间理解能力的提升策略;最后梳理了核心数据集和对未来前景的深刻讨论,以期促进该领域的深入研究与广泛应用。本文全面分析揭示了本领域的重大进展,强调利用多模态大模型进行3D视觉理解的潜力和必要性。因此,本综述目标是为未来的研究绘制一条路线,探索和扩展多模态大模型在理解和与复杂3D世界的互动能力,为空间智能领域的进一步发展铺平道路。 展开更多
关键词 三维视觉 多模态大模型 三维视觉表征 三维视觉生成 三维重建 机器人三维视觉 三维场景理解
原文传递
面向机器视觉的VVC帧内编码算法 被引量:1
7
作者 熊皓萱 徐媛媛 朱琨 《信号处理》 北大核心 2025年第2期350-358,共9页
近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能... 近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能视频编码(Versatile Video Coding,VVC/H.266),主要针对人眼视觉特性进行优化,未能充分考虑压缩对机器视觉任务的性能影响。为解决这一问题,本文以多目标跟踪作为典型的机器视觉视频处理任务,提出一种面向机器视觉的VVC帧内编码算法。首先,使用神经网络可解释性方法,梯度加权类激活映射(Gradient-weighted Class Activation Mapping,GradCAM++),对视频内容进行显著性分析,定位出机器视觉任务所关注的区域,并以显著图的形式表示。随后,为了突出视频画面中的关键边缘轮廓信息,本文引入边缘检测并将其结果与显著性分析结果进行融合,得到最终的机器视觉显著性图。最后,基于融合后的机器视觉显著性图改进VVC模式选择过程,优化VVC中的块划分和帧内预测的模式决策过程。通过引入机器视觉失真,代替原有的信号失真来调整率失真优化公式,使得编码器在压缩过程中尽可能保留对视觉任务更为相关的信息。实验结果表明,与VVC基准相比,所提出方法在保持相同机器视觉检测精度的同时,可节约12.7%的码率。 展开更多
关键词 机器视觉编码 显著性分析 帧内编码 多功能视频编码
在线阅读 下载PDF
ASGC-STT:基于自适应空间图卷积和时空Transformer的人体行为识别 被引量:1
8
作者 庄添铭 秦臻 +1 位作者 耿技 张瀚文 《计算机应用研究》 北大核心 2025年第4期1239-1247,共9页
近年来许多行为识别研究将人体骨架建模为拓扑图,并利用图卷积网络提取动作特征。然而,拓扑图在训练过程中固有的共享和静态特征限制了模型的性能。为解决该问题,提出基于自适应空间图卷积和时空Transformer的人体行为识别方法—ASGC-ST... 近年来许多行为识别研究将人体骨架建模为拓扑图,并利用图卷积网络提取动作特征。然而,拓扑图在训练过程中固有的共享和静态特征限制了模型的性能。为解决该问题,提出基于自适应空间图卷积和时空Transformer的人体行为识别方法—ASGC-STT。首先,提出了一种非共享图拓扑的自适应空间图卷积网络,该图拓扑在不同网络层中是唯一的,可以提取更多样化的特征,同时使用多尺度时间卷积来捕获高级时域特征。其次,引入了一种时空Transformer模块,能够准确捕捉远距离的帧内和帧间任意关节之间的相关性,建模包含局部和全局关节关系的动作表示。最后,设计了一种多尺度残差聚合模块,通过分层残差结构设计来有效扩大感受野范围,捕获空间和时间域的多尺度依赖关系。ASGC-STT在大规模数据集NTU-RGB+D 60上的准确率为92.7%(X-Sub)和96.9%(X-View),在NTU-RGB+D 120上的准确率为88.2%(X-Sub)和89.5%(X-Set),在Kinetics Skeleton 400上的准确率为38.6%(top-1)和61.4%(top-5)。实验结果表明,ASGC-STT在人体行为识别任务中具有优越的性能和通用性。 展开更多
关键词 人体行为识别 时空特征 图卷积网络 多尺度建模
在线阅读 下载PDF
视觉基础模型研究现状与发展趋势 被引量:3
9
作者 张燚钧 张润清 +3 位作者 周华健 齐骥 余肇飞 黄铁军 《中国图象图形学报》 北大核心 2025年第1期1-24,共24页
在计算机视觉领域,尽管传统的深度学习视觉模型在特定任务上表现出色,但它们对大量标注数据的高度依赖及在新场景下性能泛化的局限性,大大增加了使用成本并限制了模型的应用范围。近年来,以Transformer为核心的新型模型结构,特别是在自... 在计算机视觉领域,尽管传统的深度学习视觉模型在特定任务上表现出色,但它们对大量标注数据的高度依赖及在新场景下性能泛化的局限性,大大增加了使用成本并限制了模型的应用范围。近年来,以Transformer为核心的新型模型结构,特别是在自监督学习领域的应用,为解决这些挑战提供了新的解决方案。这些模型通常通过大规模数据预训练,在处理复杂视觉场景中展现出强大的泛化能力,其被广泛称为视觉基础模型。本文深入探讨了视觉基础模型的研究现状与未来发展趋势,并重点关注该领域的关键技术进展及其对未来计算机视觉的潜在影响。首先回顾和梳理了视觉基础模型的背景与发展历程,然后介绍了在这一发展历程中出现的关键模型基础结构,介绍并分析了构建视觉基础模型所采用的各类预训练任务的设计思路,并根据其特性对现有的视觉基础模型进行分类。同时,对不同类型视觉基础模型中的代表性工作进行了介绍,并整理了目前可用于视觉基础模型预训练的数据集。最后,对视觉基础模型的研究现状进行总结和思考,提出了目前存在的一些挑战,并展望未来可能的研究方向。 展开更多
关键词 基础模型 计算机视觉(CV) 预训练模型 自监督学习 多任务学习
原文传递
用于单帧图像超分辨重建的自监督图像扩散模型 被引量:1
10
作者 牛阿茜 孙瑾秋 +1 位作者 朱宇 张艳宁 《信号处理》 北大核心 2025年第2期359-369,共11页
基于深度学习的方法在图像超分辨重建任务中已经取得了显著突破。它们成功的关键在于依赖大量成对的低分辨率和高分辨率图像来训练超分辨模型。然而,众所周知,获取如此大量一一对应的真实高-低分辨率图像对是一个具有挑战性的任务。且... 基于深度学习的方法在图像超分辨重建任务中已经取得了显著突破。它们成功的关键在于依赖大量成对的低分辨率和高分辨率图像来训练超分辨模型。然而,众所周知,获取如此大量一一对应的真实高-低分辨率图像对是一个具有挑战性的任务。且基于仿真图像对训练的模型在面对具有与训练集退化类型不同的图像时往往表现不佳。在本文中,我们提出了用于单帧图像超分辨重建的自监督图像扩散模型(Self-supervised Diffusion Model for Single Image Super-resolution,SSDM-SR)来突破数据集的限制,从而避免这些问题。该方法基于扩散模型来学习单帧图像内的信息分布,并为待超分辨重建的图像训练一个小型的特定图像扩散模型。训练数据集仅从待超分辨图像本身中提取,因此SSDM-SR可以适应不同的输入图像。另外,该方法引入了坐标信息以帮助构建出图像的整体框架,从而使模型收敛更快。在多个公开基准数据集和具有未知退化核的数据集上的实验表明,SSDM-SR不仅在图像失真度方面优于近期先进的有监督和无监督图像超分辨重建方法,并且能生成具有更高感知质量的图像。在真实世界低分辨率图像上,它也生成了视觉上令人满意且无明显伪影的结果。 展开更多
关键词 单帧图像超分辨 扩散模型 无监督图像超分辨
在线阅读 下载PDF
人工智能技术驱动下数字媒体艺术专业增值评价的构建路径 被引量:2
11
作者 何艳婷 李继林 《印刷与数字媒体技术研究》 北大核心 2025年第3期281-287,323,共8页
增值评价是一种发展性的价值判断,采用纵向比较而非横向对比的方式关注学生的成长轨迹与进步幅度,有利于形成动态反馈机制,提高教育质量,人工智能技术凭借数字优势能为其提供落实抓手。数字媒体艺术专业教育贯穿产学研不同环节,是综合... 增值评价是一种发展性的价值判断,采用纵向比较而非横向对比的方式关注学生的成长轨迹与进步幅度,有利于形成动态反馈机制,提高教育质量,人工智能技术凭借数字优势能为其提供落实抓手。数字媒体艺术专业教育贯穿产学研不同环节,是综合性、长期性的人才培养过程,以人工智能技术赋能增值评价在其中发挥着重要的协调作用。本文从理论与实践多层面出发,在厘清人工智能技术驱动增值评价的理论内涵基础上,分析其在数字媒体艺术专业的实践困境,进而提出构建路径:育人为本,强化发展性增值评价;采集数据,构建全景式增值评价;善用技术,形成协同式增值评价。 展开更多
关键词 人工智能技术 数字媒体艺术专业 增值评价 算法分析
在线阅读 下载PDF
基于球麦克风阵列的高阶声场记录与重放在电影音频制作中的应用 被引量:2
12
作者 曲天书 吴玺宏 《现代电影技术》 2025年第2期4-11,共8页
随着电影对极致沉浸式视听体验的发展需求,沉浸式声场记录和重放技术日显重要。本文围绕电影音频制作技术中的声场记录和重放问题,介绍了基于球麦克风阵列的高阶高保真立体声(Higher Order Ambisonics,HOA)分析技术,并针对球麦克风阵列... 随着电影对极致沉浸式视听体验的发展需求,沉浸式声场记录和重放技术日显重要。本文围绕电影音频制作技术中的声场记录和重放问题,介绍了基于球麦克风阵列的高阶高保真立体声(Higher Order Ambisonics,HOA)分析技术,并针对球麦克风阵列球谐分解中的低频噪声与高频混叠问题,以及双耳重放技术中的阶数受限问题,给出了相应解决方案,研究表明所提方案可为观众提供更真实、更具沉浸感的声场重放效果,提升了观影体验,在电影音频制作中具有广阔的应用前景。 展开更多
关键词 虚拟现实 球麦克风阵列 高阶高保真立体声(HOA)技术 双耳重放 球谐分解
在线阅读 下载PDF
人工智能技术在多媒体安全中的应用策略——评《多媒体与人工智能安全研究极简综述》 被引量:1
13
作者 周璐华 《安全与环境学报》 北大核心 2025年第1期408-409,共2页
信息技术飞速发展,多媒体数据已成为现代社会中信息传播的重要载体。然而由于多媒体数据的易复制性、易篡改性及在网络中的广泛传播,给信息安全带来了新的挑战。人工智能技术为多媒体安全领域注入了新的活力,通过深度学习、机器学习等... 信息技术飞速发展,多媒体数据已成为现代社会中信息传播的重要载体。然而由于多媒体数据的易复制性、易篡改性及在网络中的广泛传播,给信息安全带来了新的挑战。人工智能技术为多媒体安全领域注入了新的活力,通过深度学习、机器学习等先进手段,人工智能技术能够高效识别、分析并处理多媒体数据中的安全隐患,为多媒体内容的保护、版权维护及真实性验证提供了强有力的支持。人工智能技术在多媒体安全中的应用实践,既可提升信息安全防护的智能化水平,亦可在维护网络环境健康、促进信息传播秩序、保障个人隐私权益等方面发挥重要作用。 展开更多
关键词 人工智能技术 传播秩序 应用策略 深度学习 信息安全防护 多媒体数据 机器学习 信息技术
原文传递
基于边缘计算的拖轮智能安全预警系统 被引量:2
14
作者 吴陈锋 郑华东 陈锋 《物联网技术》 2025年第8期10-15,共6页
文中介绍了基于边缘计算的拖轮智能安全预警系统设计原理与实施方案。通过边缘计算实时获取部署在拖轮上的摄像头数据,经视频取流解码后通过神经网络进行检测,实现驾驶员离岗预警、人员进入危险区域预警和人员定时巡查预警等。针对神经... 文中介绍了基于边缘计算的拖轮智能安全预警系统设计原理与实施方案。通过边缘计算实时获取部署在拖轮上的摄像头数据,经视频取流解码后通过神经网络进行检测,实现驾驶员离岗预警、人员进入危险区域预警和人员定时巡查预警等。针对神经网络检测可能出现的误检问题,设计了一套推理均衡器算法和感兴趣区域检测算法,有效减少了因误检导致的系统误报问题。所设计的系统最终在福州港务集团的拖轮上得到实际部署、测试和验证。结果表明,设计的系统和算法运行可靠,可以有效实现拖轮智能安全预警功能。 展开更多
关键词 拖轮安全 YOLOv5s 嵌入式 推理均衡器 射线法 区域检测
在线阅读 下载PDF
AIGC技术在数字媒体设计中的应用研究 被引量:3
15
作者 陈敏锐 粟晓文 《鞋类工艺与设计》 2025年第4期93-95,共3页
人工智能生成内容(Artificial Intelligence Generated Content,AIGC)技术被越来越多地用于数字媒体的创作。在设计方面,AIGC可以应用到平面设计、广告设计、视频编辑等方面,可以极大地提升创意的效果和启发创造力。AIGC技术在改善用户... 人工智能生成内容(Artificial Intelligence Generated Content,AIGC)技术被越来越多地用于数字媒体的创作。在设计方面,AIGC可以应用到平面设计、广告设计、视频编辑等方面,可以极大地提升创意的效果和启发创造力。AIGC技术在改善用户体验发挥了重要作用,但在技术瓶颈、数据安全和隐私保护等问题上仍存在诸多问题,亟需从技术创新、隐私安全等多个层面提升应用效果,促进相关行业的可持续发展。 展开更多
关键词 AIGC技术 数字媒体设计 创意设计
在线阅读 下载PDF
基于二维聚合经验模态分解的SAR图像目标识别方法
16
作者 肜瑶 张洋洋 《火力与指挥控制》 北大核心 2025年第6期200-205,共6页
合成孔径雷达图像特征有效性直接决定了后续目标识别性能。针对SAR特征提取和目标识别问题,采用二维聚合经验模态分解获得多层次二维固态模函数并据此设计识别方法。BEEMD对传统经验模态函数进行优化,其分解得到的BIMF可以更为稳健、有... 合成孔径雷达图像特征有效性直接决定了后续目标识别性能。针对SAR特征提取和目标识别问题,采用二维聚合经验模态分解获得多层次二维固态模函数并据此设计识别方法。BEEMD对传统经验模态函数进行优化,其分解得到的BIMF可以更为稳健、有效地反映目标特性。为了充分利用分解得到的多层次BIMF,基于联合稀疏表示对它们进行统一表征从而考察其内在相关性。根据重构结果,在各层次BIMF上计算重构误差之和进行决策。采用MSTAR数据集设置实验条件对方法进行测试。综合不同条件下的结果表明,提出方法相比现有几类SAR目标识别方法具有更强的有效性。 展开更多
关键词 合成孔径雷达 目标识别 二维聚合经验模态分解 联合稀疏表示
在线阅读 下载PDF
数字人风格化、多模态驱动与交互进展 被引量:4
17
作者 潘烨 李韶旭 +3 位作者 谭帅 韦俊杰 翟广涛 杨小康 《中国图象图形学报》 北大核心 2025年第2期334-360,共27页
风格化数字人是在计算机图形学、视觉艺术和游戏设计等领域中迅速发展的一个领域。数字人物的设计和制作技术取得了显著的进步,使得数字人物能够具有更加逼真的外观和行为,同时也可以更好地适应各种艺术风格和情境。本文围绕风格化数字... 风格化数字人是在计算机图形学、视觉艺术和游戏设计等领域中迅速发展的一个领域。数字人物的设计和制作技术取得了显著的进步,使得数字人物能够具有更加逼真的外观和行为,同时也可以更好地适应各种艺术风格和情境。本文围绕风格化数字人任务,围绕数字人的风格化生成、多模态驱动与用户交互3个核心研究方向的发展现状、前沿动态、热点问题等进行系统性综述。针对数字人的风格化生成,从显式三维模型和隐式三维模型两种数字人的三维表达方式对于方法进行分类。显式三维数字人风格化以基于优化的方法、基于生成对抗网络的方法、基于引擎的方法为主要分析对象;隐式三维数字人风格化从通用隐式场景风格化方法以及针对人脸的隐式风格化进行回顾。针对数字人的驱动,根据驱动源的不同,从显式音频驱动、文本驱动和视频驱动3个方面进行回顾。根据驱动实现算法的不同,从基于中间变量、基于编码—解码结构等方面进行回顾。此外,算法还根据中间变量的不同可分为基于关键点、三维人脸和光流的方法。针对数字人的用户交互,目前主流的交互方式是语音交互,本文对语音交互模块从自动语音识别和文本转语音合成两方面进行了回顾,对于数字人的对话系统模块,从自然语言理解和自然语言生成等方面进行了回顾。在此基础上,展望了风格化数字人研究的未来发展趋势,为后续的相关研究提供参考。 展开更多
关键词 风格化 数字人 人脸驱动 人机交互 三维建模 深度学习 神经网络
原文传递
基于双向约束蒸馏的无监督图像异常检测
18
作者 李波 李泽超 +1 位作者 邢鹏 唐金辉 《电子学报》 北大核心 2025年第3期895-909,共15页
异常检测是一项重要的计算机视觉任务,它的目标是检测异常样本同时定位异常区域.近期,主流的无监督异常检测方案通常基于蒸馏方法和重构方法 .然而,它们仍存在相似的局限.在基于蒸馏方法的异常检测中,学生网络通常能学习到教师网络相似... 异常检测是一项重要的计算机视觉任务,它的目标是检测异常样本同时定位异常区域.近期,主流的无监督异常检测方案通常基于蒸馏方法和重构方法 .然而,它们仍存在相似的局限.在基于蒸馏方法的异常检测中,学生网络通常能学习到教师网络相似的表征能力,无法针对某些异常区域产生与教师网络有明显差异的表征.在重构模型中,编码-解码结构容易学习到简单的复原捷径,导致复原图像与输入相似,无法有效地检测异常.为了解决上述挑战,本文提出基于双向约束蒸馏的无监督图像异常检测方法 N-Net,它通过双向蒸馏模块和多级过滤模块缓解了上述局限.具体地,在教师学生网络中,本文首先提出蒸馏适应域特征而非原始域特征,它通过双向蒸馏分支保证了正常适应域特征的高效对齐.然后,本文提出多级过滤模块,通过查询和压缩的方式过滤异常特征,进一步增强学习正常语义特征分布的能力,提升异常检测性能.最后,本文在两个基准异常检测数据集MVTec和VisA上进行了大量实验,结果表明所提方法在异常检测和定位任务上取得了先进的性能. 展开更多
关键词 异常检测 双向蒸馏 特征映射 多级过滤 特征压缩
在线阅读 下载PDF
基于大语言模型的可信多模态推荐算法
19
作者 闫萌 徐偲 +2 位作者 黄海槟 赵伟 管子玉 《计算机研究与发展》 北大核心 2025年第7期1611-1621,共11页
序列推荐的核心在于从用户的交互序列中挖掘其偏好和行为模式.现有研究已经认识到单一模态交互数据存在不足,因此借助大量多模态数据(如商品评价、主页图片等)来丰富交互信息,提升推荐系统的性能.然而,这些多模态数据中常常夹杂着不可... 序列推荐的核心在于从用户的交互序列中挖掘其偏好和行为模式.现有研究已经认识到单一模态交互数据存在不足,因此借助大量多模态数据(如商品评价、主页图片等)来丰富交互信息,提升推荐系统的性能.然而,这些多模态数据中常常夹杂着不可避免的噪声,可能会限制用户个性化偏好的探索.尽管可以通过抑制模态间不一致的信息来减少噪声干扰,但要完全消除用户生成的多模态内容中的噪声几乎是不可能的.针对上述挑战,提出了一种基于大语言模型的可信多模态推荐算法,旨在于含噪多模态数据场景下提供可信的推荐结果.具体而言,该算法依托于大语言模型卓越的自然语言理解能力,高效过滤多模态数据中的噪声,实现对用户偏好更为精确和细致的建模.此外,还设计了一种可信决策机制,用于动态评估推荐结果的不确定性,以确保在高风险场景下推荐结果的可用性.在4个广泛使用的公开数据集上的实验结果显示,相较于其他基线算法,提出的算法有更好的性能表现.代码可以在https://github.com/hhbray/Large-TR获取. 展开更多
关键词 序列推荐 多模态 用户生成内容 可信决策 大语言模型
在线阅读 下载PDF
结合多粒度信息学习的卫星视频目标跟踪算法
20
作者 鲁宸旭 高隆 +1 位作者 邹云龙 李云松 《西安电子科技大学学报》 北大核心 2025年第3期36-47,共12页
在遥感卫星视频目标跟踪任务中,由于跟踪目标分辨率低,背景干扰较多,容易被遮挡等问题,导致现有目标跟踪算法不能满足需要。针对这些问题,提出了一种基于多粒度信息学习与运动状态估计的卫星视频目标跟踪算法。多粒度信息学习通过双向... 在遥感卫星视频目标跟踪任务中,由于跟踪目标分辨率低,背景干扰较多,容易被遮挡等问题,导致现有目标跟踪算法不能满足需要。针对这些问题,提出了一种基于多粒度信息学习与运动状态估计的卫星视频目标跟踪算法。多粒度信息学习通过双向融合网络,将空间信息丰富的浅层特征与语义信息丰富的深层特征进行双向自适应融合,提升特征对低分辨目标的表征能力。进一步,使用运动状态估计方法,基于历史目标运动状态,估计当前目标位置,以修正跟踪网络受遮挡和背景噪声干扰输出的错误结果,提升跟踪网络在复杂场景下的鲁棒性。最后,基于以上两种方法和孪生网络设计实现了一种新的卫星视频目标跟踪算法,并在遥感卫星视频数据集SatSOT上进行了测试。实验结果表明,所提出算法的跟踪性能优于其他目标跟踪算法,其在跟踪精确度和成功率方面比同样基于孪生网络的SiamCAR算法分别有5.1%和3.2%的提升。 展开更多
关键词 卫星视频 目标跟踪 多粒度信息学习 运动状态估计 孪生网络
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部