期刊文献+
共找到11,633篇文章
< 1 2 250 >
每页显示 20 50 100
基于线性注意和类别关联特征学习的在线动作检测
1
作者 詹永照 孙慧敏 +1 位作者 夏惠芬 任晓鹏 《江苏大学学报(自然科学版)》 北大核心 2026年第1期39-47,63,共10页
为了在在线动作检测中充分合理利用动作的上下文特征、与类别关联的特征和预测的未来特征快速检测相应动作,提出基于线性注意和类别关联特征学习的在线动作检测方法.该方法改进了Transformer构架,采用哈达玛积的轻型线性自注意实现Trans... 为了在在线动作检测中充分合理利用动作的上下文特征、与类别关联的特征和预测的未来特征快速检测相应动作,提出基于线性注意和类别关联特征学习的在线动作检测方法.该方法改进了Transformer构架,采用哈达玛积的轻型线性自注意实现Transformer视频上下文特征学习,以减少计算开销;其次对训练样本动作特征进行聚类,将视频序列上下文特征与动作类别特征进行关联学习,有效获得与类别关联的特征表达;最后融合动作的上下文特征、与类别关联的特征和预测的未来特征检测相应时刻动作,以提升动作鉴别性.在典型数据集上进行性能试验,完成了超参取值分析,对比了不同方法的工作精度和运行效率.给出了消融试验和可视化分析.结果表明:在Thumos14(TSN-Anet)、Thumos14(TSN-Kinetics)和HDD数据集上,所提出方法的mAP比Colar方法分别提高了0.2、0.5、0.2百分点,可见新方法优于目前较先进的Colar方法. 展开更多
关键词 在线动作检测 深度学习 注意力机制 编码 上下文特征 TRANSFORMER 类别关联特征学习
在线阅读 下载PDF
基于集成学习的神经母细胞瘤语义分割及半透明可视化
2
作者 潘姣 季申予 +2 位作者 李亮 田中觉 王笑琨 《工程科学学报》 北大核心 2026年第2期360-369,共10页
神经母细胞瘤是一种形态复杂多变的肿瘤,肿瘤的位置、形状和大小差异显著,且常伴随重要解剖结构的包绕,肿瘤与周围组织的边界模糊,导致术前评估与手术规划面临巨大挑战.为提升术前诊疗的智能化与可视化水平,本文提出了一种基于集成学习... 神经母细胞瘤是一种形态复杂多变的肿瘤,肿瘤的位置、形状和大小差异显著,且常伴随重要解剖结构的包绕,肿瘤与周围组织的边界模糊,导致术前评估与手术规划面临巨大挑战.为提升术前诊疗的智能化与可视化水平,本文提出了一种基于集成学习的神经母细胞瘤语义分割及半透明三维可视化方法.在语义分割部分,本文基于预训练的nnU-Net架构构建了能够使用多模态医学图像作为输入的分割框架,并在推理阶段引入了一种基于验证集Dice分数的加权投票集成策略.与nnU-Net默认的等权平均集成不同,该策略根据模型性能分配融合权重,使表现更优的模型在最终预测中占据更大权重,从而在保持整体稳定性的同时提升了分割精度.本方法在SPPIN 2023挑战赛提供的儿童神经母细胞瘤数据集上开展了对比实验,该方法在Dice系数、Hausdorff距离与体积相似性等指标上均优于主流方法.此外,为进一步验证投票集成策略的有效性,我们在BraTS2021给出的脑肿瘤数据集上进行了消融实验,证明了投票策略确实有效.在肿瘤可视化部分,本文使用了一种基于随机点采样的半透明三维可视化方法,通过将分割后的结果进行点云化,并进行多子集点云的统计融合,在无需深度排序的条件下实现快速渲染,实现了肿瘤和周围器官的半透明可视化.本文提出的可视化方案可以提升术前空间理解效率,为复杂病例的术前辅助决策提供直观、精准的视觉支持,具备良好的临床应用前景. 展开更多
关键词 语义分割 半透明可视化 神经母细胞瘤 集成学习 多模态核磁共振
在线阅读 下载PDF
面向深度学习的三维点云补全算法综述 被引量:3
3
作者 胡伏原 李晨露 +2 位作者 周涛 程洪福 顾敏明 《中国图象图形学报》 北大核心 2025年第2期309-333,共25页
点云因其丰富的信息表达能力已成为三维视觉的主要表现形式,然而实际采集到的点云数据往往因各种因素导致稀疏或残缺,严重影响点云后续处理。点云补全算法旨在从残缺点云数据中重建完整点云模型,是3D重建、目标检测和形状分类等领域的... 点云因其丰富的信息表达能力已成为三维视觉的主要表现形式,然而实际采集到的点云数据往往因各种因素导致稀疏或残缺,严重影响点云后续处理。点云补全算法旨在从残缺点云数据中重建完整点云模型,是3D重建、目标检测和形状分类等领域的重要研究基础。目前,基于深度学习的点云补全算法逐渐成为三维点云领域的研究热点,但补全任务中模型结构、精度和效率等挑战正阻碍点云补全算法的发展。本文对深度学习背景下的点云补全算法进行系统综述,首先根据网络输入模态将点云补全算法分为两大类,即基于单模态的方法以及基于多模态的方法。接着根据三维数据表征方式将基于单模态的方法分为三大类,即基于体素的方法、基于视图的方法以及基于点的方法,并对经典方法和最新方法进行系统的分析和总结,同时结合热点模型,如生成对抗网络(generative adversarial network,GAN)、Transformer模型等进一步分类对比,评述各类模型下点云补全算法的方法特点与网络性能。再对基于多模态的方法进行实际应用分析,结合扩散模型等方法进行算法性能对比。然后总结点云补全任务中常用的数据集及评价标准,分别以多种评价标准对比分析现有基于深度学习的点云补全算法在真实数据集与多种合成数据集上的性能表现。最后根据各分类的优缺点提出点云补全算法在深度学习领域的未来发展和研究趋势,为三维视觉领域的补全算法研究者提供重要参考价值。 展开更多
关键词 点云补全 体素方法 多模态方法 Transformer模型 扩散模型
原文传递
基于光电成像的籽棉回潮率与含杂率检测 被引量:1
4
作者 夏彬 王会博 +3 位作者 高云龙 孟永法 李梦辉 王飞 《毛纺科技》 北大核心 2025年第9期110-115,共6页
针对籽棉回潮率与含杂率检测速度慢、效率低等问题,提出了一种基于光电成像的籽棉回潮率与含杂率检测方法。搭建了由棉样输送机构、压棉机构、回潮率光电检测机构、含杂率图像采集机构、数据处理与显示机构组成的试验系统,采用电阻分压... 针对籽棉回潮率与含杂率检测速度慢、效率低等问题,提出了一种基于光电成像的籽棉回潮率与含杂率检测方法。搭建了由棉样输送机构、压棉机构、回潮率光电检测机构、含杂率图像采集机构、数据处理与显示机构组成的试验系统,采用电阻分压原理建立了电阻值与回潮率数学模型,同时,采用RGB双面成像方法建立了图像含杂面积与含杂率的检测模型,实现了籽棉回潮率与含杂率的快速检测。试验结果表明:与现行标准检测方法相比,本文回潮率方法的绝对误差均值为±0.31%,其中,在4%~7%的低回潮区间,检测的绝对误差为±0.19%;含杂率检测方法的绝对误差均值为±0.36%,验证了该方法的检测精度与有效性,可为籽棉回潮率与含杂率仪器化检测提供技术参考。 展开更多
关键词 籽棉回潮率 籽棉含杂率 光电成像 检测
在线阅读 下载PDF
《信号处理》图像与视频处理专刊编者按
5
作者 贲晛烨 张艳宁 +3 位作者 付莹 安平 毋立芳 白慧慧 《信号处理》 北大核心 2025年第2期193-197,共5页
图像与视频处理作为信号处理领域的重要分支,近年来伴随电子信息技术的快速发展和人工智能技术的深度融合,成为国际学术界和工程界关注的焦点。作为数字信号处理的重要应用方向,图像与视频处理涵盖了生成、修复、增强、检测、识别、分... 图像与视频处理作为信号处理领域的重要分支,近年来伴随电子信息技术的快速发展和人工智能技术的深度融合,成为国际学术界和工程界关注的焦点。作为数字信号处理的重要应用方向,图像与视频处理涵盖了生成、修复、增强、检测、识别、分割、跟踪等多个核心任务,并在安防监控、医疗诊断、智能娱乐等行业中展现了巨大的应用潜力和市场价值。在安防监控领域,图像与视频处理技术通过智能识别和目标跟踪实现了对异常行为的高效检测,显著提升了系统的自动化水平和监控精度。 展开更多
关键词 人工智能技术 智能识别 安防监控 数字信号处理 医疗诊断 电子信息技术 异常行为 目标跟踪
在线阅读 下载PDF
基于2D卷积神经网络的3D点云物体检测
6
作者 李晓丽 王乐 +1 位作者 杜振龙 陈东 《计算机工程与应用》 北大核心 2025年第23期297-304,共8页
激光雷达在自动驾驶和工业自动化领域已得到初步应用,获取了大量的场景、物体等点云数据,这些点云数据具有维度高、不规则的特性,已有的深度学习网络模型在处理这些数据时需用到计算代价高昂的三维卷积,其时空复杂度高且不能在线应用。... 激光雷达在自动驾驶和工业自动化领域已得到初步应用,获取了大量的场景、物体等点云数据,这些点云数据具有维度高、不规则的特性,已有的深度学习网络模型在处理这些数据时需用到计算代价高昂的三维卷积,其时空复杂度高且不能在线应用。针对传统网络模型处理点云数据的缺陷,提出一种基于2D卷积神经网络的3D点云物体识别方法,所提方法把不规则的点云数据统计规整为点云柱,用卷积、池化提取点云柱簇的特征,将三维的点云数据编码转化为二维的类图像特征数据;使用包含注意力机制的二维卷积神经网络在多个感受野提取充分表示点云的多尺度隐特征,解码网络根据位置、方向及物体种类识别点云物体。实验基于AscendAtlas 200DK边端设备,单次推理耗时291 ms,实验结果与传统点云目标检测网络进行比较,分别以14.7、13.2、3.4倍的性能提升优于Voxel-Net、F-PoitnNet以及Second网络模型;在KITTI数据集与ContFuse等14种点云目标检测算法进行精度对比,与次优算法相比,平均精度提升在2.3%以上;设计针对二维卷积以及注意力机制的消融实验,两个模块在模型大小与推理精度上分别提升50.9%和5.37%。实验结果表明,所提方法可高效、鲁棒、准确地检测3D点云数据的目标物体。 展开更多
关键词 3D点云 点云物体识别 深度学习 点云柱 类图像
在线阅读 下载PDF
短视频发展中的数字媒体技术与人工智能技术协同创新探析
7
作者 李颖 《印刷与数字媒体技术研究》 北大核心 2025年第S2期58-65,共8页
数字媒体技术与AI技术的协同融合正推动内容生产与传播模式的深度变革,但其仍面临创意趋同、算法导向单一与价值引导不足等问题。研究数字媒体与AI技术在短视频发展中的协同创新机制,有助于为构建高质量、可持续的数字媒体生态提供理论... 数字媒体技术与AI技术的协同融合正推动内容生产与传播模式的深度变革,但其仍面临创意趋同、算法导向单一与价值引导不足等问题。研究数字媒体与AI技术在短视频发展中的协同创新机制,有助于为构建高质量、可持续的数字媒体生态提供理论支撑与实践路径。本研究结合传播学与情报学的分析框架,构建了“技术协同—内容创新—传播优化”三维模型。通过对典型平台(抖音、快手、微信视频号)的机制分析与结构化比较,考察了AI生成内容(AIGC)、语义识别与情感计算在短视频创制与分发中的应用逻辑,并通过平台实践观察与半结构化访谈,验证协同机制在传播过程中的功能差异与优化方向。研究发现,数字媒体与AI技术在短视频领域形成了以“技术融合—内容创新—算法分发—反馈改进”为特征的四重协同机制。本研究最后提出应在数据伦理与技术治理框架下,构建开放、可信与人文导向的短视频协同创新体系,以实现数字媒体产业的智能化升级与可持续发展。 展开更多
关键词 短视频 数字媒体技术 人工智能 协同创新 内容生成
在线阅读 下载PDF
AIGC在社交媒体营销中内容创新与提升用户互动的研究
8
作者 刘晓亮 周涛 曹晟 《印刷与数字媒体技术研究》 北大核心 2025年第S2期18-25,共8页
随着生成式智能技术的不断进步,其在社交媒体营销领域中的应用价值日益显现,特别是在内容生成与用户交互方面表现出较强的适应性与效率优势。本研究从信息生态学视角出发,构建涵盖用户特征、信息内容、技术机制与媒介系统的四维互动模... 随着生成式智能技术的不断进步,其在社交媒体营销领域中的应用价值日益显现,特别是在内容生成与用户交互方面表现出较强的适应性与效率优势。本研究从信息生态学视角出发,构建涵盖用户特征、信息内容、技术机制与媒介系统的四维互动模型。结合用户聚类分析、自然语言生成算法与语义理解机制,搭建基于多模态输入的智能交互系统。实验结果表明,优化后的语言生成模型在文本连贯性与表达自然度上优于传统方法,内容创作效率显著提升。系统拟人化设计与实时反馈机制有效增强了用户参与意愿,以个性化推荐策略提升了平台响应效率与转化效果。本研究揭示了技术驱动下的内容创新如何引发用户互动行为变化,进一步证实AIGC技术在推动营销模式智能化转型中的实际价值,为后续在商业传播场景中的深度应用提供了理论支撑与实践参考。 展开更多
关键词 AIGC 内容创新 信任 用户交互 用户行为分析
在线阅读 下载PDF
多媒体与交互技术驱动下的教材设计创新研究
9
作者 谭鹤毅 陈熙 李苹 《电脑知识与技术》 2025年第23期98-100,共3页
教育信息化的发展使得多媒体和交互技术在教育教学中被广泛使用,对教材设计也提出了全新的要求。文章探讨了多媒体与交互技术在教材内容呈现、交互功能设计和情境创设等方面带来的创新;分析了教学资源整合、师生技术适应性和资源实用性... 教育信息化的发展使得多媒体和交互技术在教育教学中被广泛使用,对教材设计也提出了全新的要求。文章探讨了多媒体与交互技术在教材内容呈现、交互功能设计和情境创设等方面带来的创新;分析了教学资源整合、师生技术适应性和资源实用性等方面面临的挑战;提出了构建技术支持体系和加强教师培训等应对策略。研究表明,多媒体与交互技术为教材设计带来变革,解决技术应用难题,实现技术与教学融合,是促进教育现代化的关键。 展开更多
关键词 多媒体与交互技术 教材设计创新 内容呈现 交互功能 情境创设 应对策略
在线阅读 下载PDF
人工智能赋能数字媒体类专业中高职贯通培养的模式创新研究
10
作者 热孜娅·苏鲁坦 《微型计算机》 2026年第1期166-168,共3页
数字媒体产业正加速迈向智能化生产与多模态表达,这对中高职阶段的人才培养提出新的结构要求。为适应行业变化,职业教育体系需要在能力衔接、课程链重组与实践教学方式上进行系统调整。该研究聚焦人工智能技术对内容生产流程和技能结构... 数字媒体产业正加速迈向智能化生产与多模态表达,这对中高职阶段的人才培养提出新的结构要求。为适应行业变化,职业教育体系需要在能力衔接、课程链重组与实践教学方式上进行系统调整。该研究聚焦人工智能技术对内容生产流程和技能结构的影响,梳理中高职贯通培养中能力递进的逻辑,并构建以智能工具使用、场景化项目训练和校企协同机制为核心的培养模式。通过典型案例的实施验证,表明新模式能够促进学生形成更具整合性的技术应用能力和内容创作能力。 展开更多
关键词 人工智能 数字媒体 中高职贯通 课程体系 实践教学
在线阅读 下载PDF
多模态大模型驱动的三维视觉理解技术前沿进展 被引量:2
11
作者 冯明涛 沈军豪 +7 位作者 武子杰 彭伟星 钟杭 郭裕兰 舒祥波 张辉 董伟生 王耀南 《中国图象图形学报》 北大核心 2025年第6期1744-1791,共48页
三维(3D)视觉感知和理解在机器人导航、自动驾驶以及智能人机交互等众多领域广泛应用,是计算机视觉领域备受瞩目的研究方向。随着多模态大模型的发展,它们与3D视觉数据的融合取得快速进展,为理解和与3D物理世界交互提供了前所未有的能力... 三维(3D)视觉感知和理解在机器人导航、自动驾驶以及智能人机交互等众多领域广泛应用,是计算机视觉领域备受瞩目的研究方向。随着多模态大模型的发展,它们与3D视觉数据的融合取得快速进展,为理解和与3D物理世界交互提供了前所未有的能力,并展现了独特优势,如上下文学习、逐步推理、开放词汇能力和丰富的世界知识。本文涵盖3D视觉数据基本表示,从点云到3D高斯泼溅;梳理主流多模态大模型的发展脉络;对联合多模态大模型的3D视觉数据表征方法进行归纳总结;梳理基于多模态大模型的3D理解任务,如3D生成与重建、3D目标检测、3D语义分割、3D场景描述、语言引导的3D目标定位和3D场景问答等;提炼基于多模态大模型的机器人具身智能系统中空间理解能力的提升策略;最后梳理了核心数据集和对未来前景的深刻讨论,以期促进该领域的深入研究与广泛应用。本文全面分析揭示了本领域的重大进展,强调利用多模态大模型进行3D视觉理解的潜力和必要性。因此,本综述目标是为未来的研究绘制一条路线,探索和扩展多模态大模型在理解和与复杂3D世界的互动能力,为空间智能领域的进一步发展铺平道路。 展开更多
关键词 三维视觉 多模态大模型 三维视觉表征 三维视觉生成 三维重建 机器人三维视觉 三维场景理解
原文传递
基于双目视觉技术的障碍物检测算法设计研究
12
作者 罗颖 《山西师范大学学报(自然科学版)》 2025年第3期46-51,共6页
为完善智能交通系统道路检测和障碍物检测的准确度,利用双目视觉来模拟实现智能驾驶中对障碍物的检测.首先,基于计算机视觉技术的原理,对采集到的图像进行灰度变换图像增强,使图像清晰地显示出来.然后,利用灰度直方图再基于阈值的方式... 为完善智能交通系统道路检测和障碍物检测的准确度,利用双目视觉来模拟实现智能驾驶中对障碍物的检测.首先,基于计算机视觉技术的原理,对采集到的图像进行灰度变换图像增强,使图像清晰地显示出来.然后,利用灰度直方图再基于阈值的方式进行分割,通过最大熵法和类间最大距离法确定最佳阈值,并对图像进行二值化处理,最后通过基于灰度的快速模板匹配算法进行图像配准.结果表明,基于双目视觉的障碍物检测识别率在98.3%以上,测距误差低于5%,比单目视觉检测法的识别性能更优. 展开更多
关键词 智能交通系统 计算机视觉 障碍物检测 图像处理
在线阅读 下载PDF
人工智能技术驱动下数字媒体艺术专业增值评价的构建路径 被引量:3
13
作者 何艳婷 李继林 《印刷与数字媒体技术研究》 北大核心 2025年第3期281-287,323,共8页
增值评价是一种发展性的价值判断,采用纵向比较而非横向对比的方式关注学生的成长轨迹与进步幅度,有利于形成动态反馈机制,提高教育质量,人工智能技术凭借数字优势能为其提供落实抓手。数字媒体艺术专业教育贯穿产学研不同环节,是综合... 增值评价是一种发展性的价值判断,采用纵向比较而非横向对比的方式关注学生的成长轨迹与进步幅度,有利于形成动态反馈机制,提高教育质量,人工智能技术凭借数字优势能为其提供落实抓手。数字媒体艺术专业教育贯穿产学研不同环节,是综合性、长期性的人才培养过程,以人工智能技术赋能增值评价在其中发挥着重要的协调作用。本文从理论与实践多层面出发,在厘清人工智能技术驱动增值评价的理论内涵基础上,分析其在数字媒体艺术专业的实践困境,进而提出构建路径:育人为本,强化发展性增值评价;采集数据,构建全景式增值评价;善用技术,形成协同式增值评价。 展开更多
关键词 人工智能技术 数字媒体艺术专业 增值评价 算法分析
在线阅读 下载PDF
面向机器视觉的VVC帧内编码算法 被引量:1
14
作者 熊皓萱 徐媛媛 朱琨 《信号处理》 北大核心 2025年第2期350-358,共9页
近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能... 近年来,随着计算机视觉在智能监控、自动驾驶等领域的广泛应用,越来越多视频不仅用于人类观看,还可直接由机器视觉算法进行自动分析。如何高效地面向机器视觉存储和传输此类视频成为新的挑战。然而,现有的视频编码标准,如最新的多功能视频编码(Versatile Video Coding,VVC/H.266),主要针对人眼视觉特性进行优化,未能充分考虑压缩对机器视觉任务的性能影响。为解决这一问题,本文以多目标跟踪作为典型的机器视觉视频处理任务,提出一种面向机器视觉的VVC帧内编码算法。首先,使用神经网络可解释性方法,梯度加权类激活映射(Gradient-weighted Class Activation Mapping,GradCAM++),对视频内容进行显著性分析,定位出机器视觉任务所关注的区域,并以显著图的形式表示。随后,为了突出视频画面中的关键边缘轮廓信息,本文引入边缘检测并将其结果与显著性分析结果进行融合,得到最终的机器视觉显著性图。最后,基于融合后的机器视觉显著性图改进VVC模式选择过程,优化VVC中的块划分和帧内预测的模式决策过程。通过引入机器视觉失真,代替原有的信号失真来调整率失真优化公式,使得编码器在压缩过程中尽可能保留对视觉任务更为相关的信息。实验结果表明,与VVC基准相比,所提出方法在保持相同机器视觉检测精度的同时,可节约12.7%的码率。 展开更多
关键词 机器视觉编码 显著性分析 帧内编码 多功能视频编码
在线阅读 下载PDF
ASGC-STT:基于自适应空间图卷积和时空Transformer的人体行为识别 被引量:1
15
作者 庄添铭 秦臻 +1 位作者 耿技 张瀚文 《计算机应用研究》 北大核心 2025年第4期1239-1247,共9页
近年来许多行为识别研究将人体骨架建模为拓扑图,并利用图卷积网络提取动作特征。然而,拓扑图在训练过程中固有的共享和静态特征限制了模型的性能。为解决该问题,提出基于自适应空间图卷积和时空Transformer的人体行为识别方法—ASGC-ST... 近年来许多行为识别研究将人体骨架建模为拓扑图,并利用图卷积网络提取动作特征。然而,拓扑图在训练过程中固有的共享和静态特征限制了模型的性能。为解决该问题,提出基于自适应空间图卷积和时空Transformer的人体行为识别方法—ASGC-STT。首先,提出了一种非共享图拓扑的自适应空间图卷积网络,该图拓扑在不同网络层中是唯一的,可以提取更多样化的特征,同时使用多尺度时间卷积来捕获高级时域特征。其次,引入了一种时空Transformer模块,能够准确捕捉远距离的帧内和帧间任意关节之间的相关性,建模包含局部和全局关节关系的动作表示。最后,设计了一种多尺度残差聚合模块,通过分层残差结构设计来有效扩大感受野范围,捕获空间和时间域的多尺度依赖关系。ASGC-STT在大规模数据集NTU-RGB+D 60上的准确率为92.7%(X-Sub)和96.9%(X-View),在NTU-RGB+D 120上的准确率为88.2%(X-Sub)和89.5%(X-Set),在Kinetics Skeleton 400上的准确率为38.6%(top-1)和61.4%(top-5)。实验结果表明,ASGC-STT在人体行为识别任务中具有优越的性能和通用性。 展开更多
关键词 人体行为识别 时空特征 图卷积网络 多尺度建模
在线阅读 下载PDF
视觉基础模型研究现状与发展趋势 被引量:3
16
作者 张燚钧 张润清 +3 位作者 周华健 齐骥 余肇飞 黄铁军 《中国图象图形学报》 北大核心 2025年第1期1-24,共24页
在计算机视觉领域,尽管传统的深度学习视觉模型在特定任务上表现出色,但它们对大量标注数据的高度依赖及在新场景下性能泛化的局限性,大大增加了使用成本并限制了模型的应用范围。近年来,以Transformer为核心的新型模型结构,特别是在自... 在计算机视觉领域,尽管传统的深度学习视觉模型在特定任务上表现出色,但它们对大量标注数据的高度依赖及在新场景下性能泛化的局限性,大大增加了使用成本并限制了模型的应用范围。近年来,以Transformer为核心的新型模型结构,特别是在自监督学习领域的应用,为解决这些挑战提供了新的解决方案。这些模型通常通过大规模数据预训练,在处理复杂视觉场景中展现出强大的泛化能力,其被广泛称为视觉基础模型。本文深入探讨了视觉基础模型的研究现状与未来发展趋势,并重点关注该领域的关键技术进展及其对未来计算机视觉的潜在影响。首先回顾和梳理了视觉基础模型的背景与发展历程,然后介绍了在这一发展历程中出现的关键模型基础结构,介绍并分析了构建视觉基础模型所采用的各类预训练任务的设计思路,并根据其特性对现有的视觉基础模型进行分类。同时,对不同类型视觉基础模型中的代表性工作进行了介绍,并整理了目前可用于视觉基础模型预训练的数据集。最后,对视觉基础模型的研究现状进行总结和思考,提出了目前存在的一些挑战,并展望未来可能的研究方向。 展开更多
关键词 基础模型 计算机视觉(CV) 预训练模型 自监督学习 多任务学习
原文传递
用于单帧图像超分辨重建的自监督图像扩散模型 被引量:1
17
作者 牛阿茜 孙瑾秋 +1 位作者 朱宇 张艳宁 《信号处理》 北大核心 2025年第2期359-369,共11页
基于深度学习的方法在图像超分辨重建任务中已经取得了显著突破。它们成功的关键在于依赖大量成对的低分辨率和高分辨率图像来训练超分辨模型。然而,众所周知,获取如此大量一一对应的真实高-低分辨率图像对是一个具有挑战性的任务。且... 基于深度学习的方法在图像超分辨重建任务中已经取得了显著突破。它们成功的关键在于依赖大量成对的低分辨率和高分辨率图像来训练超分辨模型。然而,众所周知,获取如此大量一一对应的真实高-低分辨率图像对是一个具有挑战性的任务。且基于仿真图像对训练的模型在面对具有与训练集退化类型不同的图像时往往表现不佳。在本文中,我们提出了用于单帧图像超分辨重建的自监督图像扩散模型(Self-supervised Diffusion Model for Single Image Super-resolution,SSDM-SR)来突破数据集的限制,从而避免这些问题。该方法基于扩散模型来学习单帧图像内的信息分布,并为待超分辨重建的图像训练一个小型的特定图像扩散模型。训练数据集仅从待超分辨图像本身中提取,因此SSDM-SR可以适应不同的输入图像。另外,该方法引入了坐标信息以帮助构建出图像的整体框架,从而使模型收敛更快。在多个公开基准数据集和具有未知退化核的数据集上的实验表明,SSDM-SR不仅在图像失真度方面优于近期先进的有监督和无监督图像超分辨重建方法,并且能生成具有更高感知质量的图像。在真实世界低分辨率图像上,它也生成了视觉上令人满意且无明显伪影的结果。 展开更多
关键词 单帧图像超分辨 扩散模型 无监督图像超分辨
在线阅读 下载PDF
面向产业布局和就业需求育才的高校人工智能教育模式研究 被引量:1
18
作者 胡古月 宋思远 +2 位作者 郑爱华 李成龙 孙登第 《忻州师范学院学报》 2025年第3期95-100,117,共7页
人工智能的迅猛发展推动了产业转型升级和就业市场剧变。安徽部分高校已开设人工智能教育,但教育教学模式与新兴产业布局和就业市场需求匹配度不高,内容体系性不强、形式丰富度不足、育人机制单一。研究详细分析了安徽省新兴产业布局和... 人工智能的迅猛发展推动了产业转型升级和就业市场剧变。安徽部分高校已开设人工智能教育,但教育教学模式与新兴产业布局和就业市场需求匹配度不高,内容体系性不强、形式丰富度不足、育人机制单一。研究详细分析了安徽省新兴产业布局和就业市场需求及现有人工智能教育在教学内容、教学形式、育人机制方面存在的问题,提出面向地方产业布局和就业需求育才的高校人工智能教育创新模式,包括多维联动式课程体系、互补结合式教学方法、多方协同式育人机制。 展开更多
关键词 人工智能 新兴产业布局 就业市场需求 多维联动式课程体系 互补结合式教学方法 多方协同式育人机制
在线阅读 下载PDF
基于球麦克风阵列的高阶声场记录与重放在电影音频制作中的应用 被引量:2
19
作者 曲天书 吴玺宏 《现代电影技术》 2025年第2期4-11,共8页
随着电影对极致沉浸式视听体验的发展需求,沉浸式声场记录和重放技术日显重要。本文围绕电影音频制作技术中的声场记录和重放问题,介绍了基于球麦克风阵列的高阶高保真立体声(Higher Order Ambisonics,HOA)分析技术,并针对球麦克风阵列... 随着电影对极致沉浸式视听体验的发展需求,沉浸式声场记录和重放技术日显重要。本文围绕电影音频制作技术中的声场记录和重放问题,介绍了基于球麦克风阵列的高阶高保真立体声(Higher Order Ambisonics,HOA)分析技术,并针对球麦克风阵列球谐分解中的低频噪声与高频混叠问题,以及双耳重放技术中的阶数受限问题,给出了相应解决方案,研究表明所提方案可为观众提供更真实、更具沉浸感的声场重放效果,提升了观影体验,在电影音频制作中具有广阔的应用前景。 展开更多
关键词 虚拟现实 球麦克风阵列 高阶高保真立体声(HOA)技术 双耳重放 球谐分解
在线阅读 下载PDF
人工智能技术在多媒体安全中的应用策略——评《多媒体与人工智能安全研究极简综述》 被引量:1
20
作者 周璐华 《安全与环境学报》 北大核心 2025年第1期408-409,共2页
信息技术飞速发展,多媒体数据已成为现代社会中信息传播的重要载体。然而由于多媒体数据的易复制性、易篡改性及在网络中的广泛传播,给信息安全带来了新的挑战。人工智能技术为多媒体安全领域注入了新的活力,通过深度学习、机器学习等... 信息技术飞速发展,多媒体数据已成为现代社会中信息传播的重要载体。然而由于多媒体数据的易复制性、易篡改性及在网络中的广泛传播,给信息安全带来了新的挑战。人工智能技术为多媒体安全领域注入了新的活力,通过深度学习、机器学习等先进手段,人工智能技术能够高效识别、分析并处理多媒体数据中的安全隐患,为多媒体内容的保护、版权维护及真实性验证提供了强有力的支持。人工智能技术在多媒体安全中的应用实践,既可提升信息安全防护的智能化水平,亦可在维护网络环境健康、促进信息传播秩序、保障个人隐私权益等方面发挥重要作用。 展开更多
关键词 人工智能技术 传播秩序 应用策略 深度学习 信息安全防护 多媒体数据 机器学习 信息技术
原文传递
上一页 1 2 250 下一页 到第
使用帮助 返回顶部