期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于交叉模态注意力特征增强的医学视觉问答 被引量:1
1
作者 刘凯 任洪逸 +2 位作者 李蓥 季怡 刘纯平 《计算机工程》 北大核心 2025年第6期49-56,共8页
医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像... 医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像的局部特征所包含的医学信息与跨模态间的交互作用,从而限制了图像内容理解。针对以上问题,提出一种交叉模态注意力特征增强的Med-VQA模型(CMAG-MVQA)。基于U-Net编码有效增强图像局部特征,从交叉模态协同角度提出选择引导注意力方法,为单模态表征引入其他模态的交互信息,同时利用自注意力机制进一步增强选择引导注意力的图像表征。在VQA-RAD医学问答数据集上的消融与对比实验表明,所提方法在Med-VQA任务上有良好的表现,相比于现有同类方法,其在特征表征上性能得到较好改善。 展开更多
关键词 跨模态交互 注意力机制 医学视觉问答 特征融合 特征增强
在线阅读 下载PDF
基于Adaboost实现的实时手势识别 被引量:4
2
作者 季怡 杨帆 +1 位作者 龚声蓉 刘纯平 《实验室研究与探索》 CAS 北大核心 2014年第8期123-126,139,共5页
随着更多照相和视频捕捉设备的涌现,对于非接触式手势命令的识别提出了很高的需求。本文针对这一趋势,依据实验环境和实际应用的需要,提出了一种在基于OpenCV2.2视觉库和Visual Studio C++来实现的Haar的矩形特征提取并充分利用Adaboos... 随着更多照相和视频捕捉设备的涌现,对于非接触式手势命令的识别提出了很高的需求。本文针对这一趋势,依据实验环境和实际应用的需要,提出了一种在基于OpenCV2.2视觉库和Visual Studio C++来实现的Haar的矩形特征提取并充分利用Adaboost的学习分类模块来实现对特定握拳手势的实时识别和精确定位。本方法使用的迭代算法将弱分类器训练组合为强分类器,经过基于正负样本图片的过程后,所得的级联分类器首先可以根据摄像头捕捉的视频中的实时手势位置,能够识别手势的类型并进行对应画笔轨迹的跟踪实验,并且通过具体的算法,在已识别的各个位置中,实现了去除可能的误差位置,从而使得画笔的轨迹更为流畅。根据统计,所进行的实验对室内环境下握拳手势的识别率可以达到90%,取得了良好的效果。 展开更多
关键词 手势识别 HAAR特征 ADABOOST算法
在线阅读 下载PDF
关于本科数据库课程设计和相互衔接研究 被引量:5
3
作者 季怡 刘纯平 龚声蓉 《计算机工程与科学》 CSCD 北大核心 2014年第A02期52-55,共4页
目前高校计算机本科教育在数据库教学中往往开设多门相关的必修、选修和实践课程。针对这一教学实际,着力分析这几门课程间的内容分配、课程衔接和实践能力培养等问题。以苏州大学计算机学院的数据库课程安排为例,对该课程的安排和建设... 目前高校计算机本科教育在数据库教学中往往开设多门相关的必修、选修和实践课程。针对这一教学实际,着力分析这几门课程间的内容分配、课程衔接和实践能力培养等问题。以苏州大学计算机学院的数据库课程安排为例,对该课程的安排和建设提出了自己的认识和看法,总结了相应的教学实践和教学效果。 展开更多
关键词 数据库 课程衔接 课程实践
在线阅读 下载PDF
基于在线交互的网络数据库实验系统实现 被引量:2
4
作者 季怡 陈鸿 +2 位作者 杨炯 何俊 陈越 《计算机教育》 2015年第22期105-107,共3页
随着计算机网络技术的发展,在实验室进行ORACLE数据库实验并提交纸质实验报告已经无法满足信息时代的需求。针对这一现象,文章阐述如何构建基于B/S构架的ORACLE在线实验平台,为师生提供新的实验模式。这一系统拥有用户信息管理功能、在... 随着计算机网络技术的发展,在实验室进行ORACLE数据库实验并提交纸质实验报告已经无法满足信息时代的需求。针对这一现象,文章阐述如何构建基于B/S构架的ORACLE在线实验平台,为师生提供新的实验模式。这一系统拥有用户信息管理功能、在线ORACLE实验功能和实验报告生成功能,教师能方便地布置实验和管理学生实验报告,学生能不受时空限制地进行ORACLE实验。 展开更多
关键词 在线实验平台 ORACLE B/S JSP
在线阅读 下载PDF
高校数据库技术实验设计与在线实验系统整合研究
5
作者 季怡 杨炯 +1 位作者 刘纯平 王朝辉 《软件导刊.教育技术》 2017年第1期29-30,共2页
基于实验方案的设计和在线实验平台的实施,对于Oracle数据库实验进行了总体的案例选取和实验规划,方案规划为配合课堂讲解内容,巩固课堂所学知识,覆盖Oracle安装和配置、日常运行管理以及PL/SQL学习等方面,为学生今后从事数据库管理和... 基于实验方案的设计和在线实验平台的实施,对于Oracle数据库实验进行了总体的案例选取和实验规划,方案规划为配合课堂讲解内容,巩固课堂所学知识,覆盖Oracle安装和配置、日常运行管理以及PL/SQL学习等方面,为学生今后从事数据库管理和开发打下基础,并且结合在线实验平台实现了在线实验、实验报告递交和批改。 展开更多
关键词 在线实验平台 ORACLE 实验设计
在线阅读 下载PDF
基于主曲线的遥感图像河岸线提取 被引量:8
6
作者 郭芸 王宜怀 +2 位作者 刘纯平 龚声蓉 季怡 《通信学报》 EI CSCD 北大核心 2016年第11期80-89,共10页
针对遥感图像中河岸线提取存在不光滑、容易发生间断等问题,提出一种基于主曲线的河岸线提取方法。该方法在学习过程中结合多边形线(PL,polygonal line)算法和误差反向传播(BP,back propagation)算法,首先学习河流中心骨架主曲线表达,... 针对遥感图像中河岸线提取存在不光滑、容易发生间断等问题,提出一种基于主曲线的河岸线提取方法。该方法在学习过程中结合多边形线(PL,polygonal line)算法和误差反向传播(BP,back propagation)算法,首先学习河流中心骨架主曲线表达,然后再根据提出的左右河岸点集分割方法获得图像中河流的左岸点集和右岸点集,分别学习左右河岸线主曲线的光滑参数表达,最终实现遥感图像中河流中心骨架和河岸线的矢量化描述。主曲线表达解决了河岸线不光滑问题,而左右河岸线分开学习有效解决了因河道窄而导致河岸线间断的问题。在实际遥感图像河流提取实验中,与现有几种河岸线提取方法的对比分析结果表明:基于主曲线的河岸线提取方法提取的河岸线具有更好的光滑性,可以较好地解决在河流较窄处发生间断的问题,所得的河岸线矢量化描述更便于存储和重建,并可作为河流区域的形状特征用于检测与识别。 展开更多
关键词 遥感图像 河岸线提取 主曲线 PL算法 BP算法
在线阅读 下载PDF
基于在线消息传递的主题追踪方法 被引量:2
7
作者 龚声蓉 叶芸 +1 位作者 刘纯平 季怡 《计算机学报》 EI CSCD 北大核心 2015年第2期249-260,共12页
主题追踪因可以有效地汇集和组织分散在不同时间、地点的信息,并从主题层次的角度对某个主题相关事件的时效性、动态演化关系等得到比较全面的把握,成为当前数据挖掘领域的重要研究方向.现有基于概率主题模型的主题追踪方法主要以潜在... 主题追踪因可以有效地汇集和组织分散在不同时间、地点的信息,并从主题层次的角度对某个主题相关事件的时效性、动态演化关系等得到比较全面的把握,成为当前数据挖掘领域的重要研究方向.现有基于概率主题模型的主题追踪方法主要以潜在狄利克雷分布(Latent Dirichlet allocation,LDA)模型为基础,采用在线吉布斯采样(Online Gibbs Sampling,OGS)和在线变分贝叶斯(Online Variational Bayesian,OVB)算法进行参数估计.OGS和OVB算法尽管解决了LDA模型中使用传统离线近似推理方法所需内存空间的大小随数据集的增长而不断增加,无法训练海量数据集以及数据流数据的问题,但训练的精度和速度均有待提高.该文基于LDA模型的改进因子图提出了一种在线消息传递(Online Belief Propagation,OBP)的主题追踪算法.该算法借助因子图中消息传递(Belief Propagation,BP)算法的推理,通过切分海量数据集为段,并用前一段数据集训练后的参数计算当前段的梯度下降,使得主题追踪更加快速和准确.四组大规模文本数据集的实验对比表明,LDA模型中OBP算法在速度和精度上均优越于OGS和OVB算法,文中也从理论上进一步验证了OBP算法的收敛性,并给出了主题追踪的具体应用. 展开更多
关键词 潜在狄利克雷分布 吉布斯采样 变分贝叶斯 消息传递算法 主题追踪 社交网络 社会计算
在线阅读 下载PDF
网络购物的跨文化研究——析中美文化差异对消费者的影响 被引量:6
8
作者 季怡 《北京第二外国语学院学报》 2006年第8期69-74,共6页
本文力图分析中美两国的消费者在进行网上购物时,文化价值体系对其产生的影响。后者通过调查分析发现文化价值是风险感知程度、自我感知效力和客观标准的前提;而且,调查分析还发现文化价值对两个国家的消费者在进行网上购物时的作用机... 本文力图分析中美两国的消费者在进行网上购物时,文化价值体系对其产生的影响。后者通过调查分析发现文化价值是风险感知程度、自我感知效力和客观标准的前提;而且,调查分析还发现文化价值对两个国家的消费者在进行网上购物时的作用机制并不相同。 展开更多
关键词 网络购物 计划行为理论 跨文化
在线阅读 下载PDF
基于深度残差双单向DLSTM的时空一致视频事件识别 被引量:15
9
作者 李永刚 王朝晖 +5 位作者 万晓依 董虎胜 龚声蓉 刘纯平 季怡 朱蓉 《计算机学报》 EI CSCD 北大核心 2018年第12期2852-2866,共15页
监控视频下的事件识别是近期计算机视觉领域的研究热点之一.然而,自然场景下监控视频往往具有背景复杂、事件区域内对象遮挡严重等特点,使得事件类内差异大、类间差异小,给识别带来了很大的困难.为解决复杂背景下事件识别问题,提出了一... 监控视频下的事件识别是近期计算机视觉领域的研究热点之一.然而,自然场景下监控视频往往具有背景复杂、事件区域内对象遮挡严重等特点,使得事件类内差异大、类间差异小,给识别带来了很大的困难.为解决复杂背景下事件识别问题,提出了一种基于深度残差双单向DLSTM(DRDU-DLSTM)的时空一致视频事件识别方法.该方法首先从训练好的时间CNN网络和空间CNN网络获取视频的时空深度特征,经LSTM同步解析后形成时空特征数据联接单元DLSTM,并作为残差网络的输入.双单向传递的DLSTM联接后构成DU-DLSTM层;多个DU-DLSTM层再加一个恒等映射形成残差模块;在此基础上,多层的残差模块堆叠构成了深度残差网络架构.为了进一步优化识别结果,设计了基于双中心Loss的2C-softmax目标函数,在最大化类间距离的同时最小化类内间隔距离.在监控视频数据集VIRAT 1.0和VIRAT 2.0上的实验表明,该文提出的事件识别方法有很好的性能表现和稳定性,识别准确率分别提高了5.1%和7.3%. 展开更多
关键词 事件识别 时空一致 残差网络 LSTM 双单向 DLSTM 深度特征 监控视频
在线阅读 下载PDF
基于多层卷积神经网络特征和双向长短时记忆单元的行为识别(英文) 被引量:12
10
作者 葛瑞 王朝晖 +3 位作者 徐鑫 季怡 刘纯平 龚声蓉 《控制理论与应用》 EI CAS CSCD 北大核心 2017年第6期790-796,共7页
鲁棒的视频行为识别由于其复杂性成为了一项极具挑战的任务.如何有效提取鲁棒的时空特征成为解决问题的关键.在本文中,提出使用双向长短时记忆单元(Bi-LSTM)作为主要框架去捕获视频序列的双向时空特征.首先,为了增强特征表达,使用多层... 鲁棒的视频行为识别由于其复杂性成为了一项极具挑战的任务.如何有效提取鲁棒的时空特征成为解决问题的关键.在本文中,提出使用双向长短时记忆单元(Bi-LSTM)作为主要框架去捕获视频序列的双向时空特征.首先,为了增强特征表达,使用多层的卷积神经网络特征代替传统的手工特征.多层卷积特征融合了低层形状信息和高层语义信息,能够捕获丰富的空间信息.然后,将提取到的卷积特征输入Bi-LSTM,Bi-LSTM包含两个不同方向的LSTM层.前向层从前向后捕获视频演变,后向层反方向建模视频演变.最后两个方向的演变表达融合到Softmax中,得到最后的分类结果.在UCF101和HMDB51数据集上的实验结果显示本文的方法在行为识别上可以取得较好的性能. 展开更多
关键词 行为识别 卷积神经网络 递归神经网络 双向递归神经网络
在线阅读 下载PDF
基于增强特征金字塔网络的场景文本检测算法 被引量:12
11
作者 邵海琳 季怡 +1 位作者 刘纯平 徐云龙 《计算机科学》 CSCD 北大核心 2022年第2期248-255,共8页
场景文本检测有助于机器理解图像内容,在智能交通、场景理解和智能导航等领域应用广泛。现有的场景文本检测算法未充分利用高层语义信息和空间信息,限制了模型对复杂背景像素的分类能力和对不同尺度的文本实例的检测和定位能力。为解决... 场景文本检测有助于机器理解图像内容,在智能交通、场景理解和智能导航等领域应用广泛。现有的场景文本检测算法未充分利用高层语义信息和空间信息,限制了模型对复杂背景像素的分类能力和对不同尺度的文本实例的检测和定位能力。为解决上述问题,提出了一种基于增强特征金字塔网络的场景文本检测算法。该算法包括比率不变特征增强(Ratio Invariant Feature Enhanced,RIFE)模块和重建空间分辨率(Rebuild Spatial Resolution,RSR)模块。RIFE模块作为残差分支,增强了网络的高层语义信息传递,提高了分类能力,降低了误报率和漏捡率。RSR模块重建多层特征分辨率,利用丰富的空间信息改进边界位置。实验结果表明,所提算法提升了在多方向文本数据集ICDAR2015、弯曲文本数据集Totaltext以及长文本数据集MSRA-TD500上的检测能力。 展开更多
关键词 场景文本检测 特征金字塔网络 语义信息 空间信息 边界位置
在线阅读 下载PDF
基于多模态特征融合的三维点云分类方法 被引量:18
12
作者 顾砾 季怡 刘纯平 《计算机工程》 CAS CSCD 北大核心 2021年第2期279-284,共6页
针对点云数据本身信息量不足导致现有三维点云分类方法分类精度较低的问题,结合多模态特征融合,设计一种三维点云分类模型。通过引入投影图对点云数据信息进行扩充,将点云数据与图像数据同时作为输入,对PointCNN模型提取的点云特征与CN... 针对点云数据本身信息量不足导致现有三维点云分类方法分类精度较低的问题,结合多模态特征融合,设计一种三维点云分类模型。通过引入投影图对点云数据信息进行扩充,将点云数据与图像数据同时作为输入,对PointCNN模型提取的点云特征与CNN模型提取的投影图特征进行加权融合,从而得到最终分类结果。在ModelNet40数据集上的分类结果表明,该模型的分类精度达到96.4%,相比PointCNN模型提升4.7个百分点。 展开更多
关键词 深度学习 三维点云分类 PointCNN模型 图像特征提取 特征融合
在线阅读 下载PDF
基于LSTM神经网络的声纹识别 被引量:19
13
作者 刘晓璇 季怡 刘纯平 《计算机科学》 CSCD 北大核心 2021年第S02期270-274,共5页
声纹识别利用说话人生物特征的个体差异性,通过声音来识别说话人的身份。声纹具有非接触、易采集、特征稳定等特点,应用领域十分广泛。现有的统计模型方法具有提取特征单一、泛化能力不强等局限性。近年来,随着人工智能深度学习的快速发... 声纹识别利用说话人生物特征的个体差异性,通过声音来识别说话人的身份。声纹具有非接触、易采集、特征稳定等特点,应用领域十分广泛。现有的统计模型方法具有提取特征单一、泛化能力不强等局限性。近年来,随着人工智能深度学习的快速发展,神经网络模型在声纹识别领域崭露头角。文中提出基于长短时记忆(Long Short-Term Memory,LSTM)神经网络的声纹识别方法,使用语谱图提取声纹特征作为模型输入,从而实现文本无关的声纹识别。语谱图能够综合表征语音信号在时间方向上的频率和能量信息,表达的声纹特征更加丰富。LSTM神经网络擅长捕捉时序特征,着重考虑了时间维度上的信息,相比其他神经网络模型,更契合语音数据的特点。文中将LSTM神经网络长期学习的优势与声纹语谱图的时序特征有效结合,实验结果表明,在THCHS-30语音数据集上取得了84.31%的识别正确率。在自然环境下,对于3 s的短语音,该方法的识别正确率达96.67%,与现有的高斯混合模型和卷积神经网络方法相比,所提方法的识别性能更优。 展开更多
关键词 声纹识别 长短时记忆 语谱图 神经网络 深度学习
在线阅读 下载PDF
一种改进的时空线索的视频显著目标检测方法 被引量:3
14
作者 秦利斌 刘纯平 +1 位作者 王朝晖 季怡 《计算机工程与应用》 CSCD 北大核心 2015年第16期161-165,共5页
针对Zhai和Shah提出的原始时空显著性检测模型在空间显著性方面仅仅使用了图像的亮度信息,忽略彩色图像中的色彩信息的不足,提出了一种基于HSV颜色模型的空间显著性计算方法。该方法充分利用图像中的亮度信息和彩色信息,从像素级和区域... 针对Zhai和Shah提出的原始时空显著性检测模型在空间显著性方面仅仅使用了图像的亮度信息,忽略彩色图像中的色彩信息的不足,提出了一种基于HSV颜色模型的空间显著性计算方法。该方法充分利用图像中的亮度信息和彩色信息,从像素级和区域级两个层次上进行显著性的计算。将改进的空间显著性计算与Zhai和Shah提出的时间显著性计算以及时空融合框架进行整合,检测视频中的显著目标。实验证明改进方法在光照不均和背景较复杂的情况下获取的空间显著区域和显著目标比原始方法更准确。 展开更多
关键词 时间显著模型 空间显著目标检测模型 动态融合 目标检测 复杂场景
在线阅读 下载PDF
基于局部和全局特征视觉单词的人物行为识别 被引量:3
15
作者 谢飞 龚声蓉 +1 位作者 刘纯平 季怡 《计算机科学》 CSCD 北大核心 2015年第11期293-298,共6页
基于视觉单词的人物行为识别由于在特征中加入了中层语义信息,因此提高了识别的准确性。然而,视觉单词提取时由于前景和背景存在相互干扰,使得视觉单词的表达能力受到影响。提出一种结合局部和全局特征的视觉单词生成方法。该方法首先... 基于视觉单词的人物行为识别由于在特征中加入了中层语义信息,因此提高了识别的准确性。然而,视觉单词提取时由于前景和背景存在相互干扰,使得视觉单词的表达能力受到影响。提出一种结合局部和全局特征的视觉单词生成方法。该方法首先用显著图检测出前景人物区域,采用提出的动态阈值矩阵对人物区域用不同的阈值来分别检测时空兴趣点,并计算周围的3D-SIFT特征来描述局部信息。在此基础上,采用光流直方图特征描述行为的全局运动信息。通过谱聚类将局部和全局特征融合成视觉单词。实验证明,相对于流行的局部特征视觉单词生成方法,所提出的方法在简单背景的KTH数据集上的识别率比平均识别率提高了6.4%,在复杂背景的UCF数据集上的识别率比平均识别率提高了6.5%。 展开更多
关键词 视觉单词 显著图 3D-SIFT 动态阈值矩阵 光流直方图
在线阅读 下载PDF
一种残差置乱上下文信息的场景图生成方法 被引量:3
16
作者 林欣 田鑫 +2 位作者 季怡 徐云龙 刘纯平 《计算机研究与发展》 EI CSCD 北大核心 2019年第8期1721-1730,共10页
场景图在视觉理解中有着很重要的作用.现有的场景图生成方法对于主语、宾语以及主宾语间的视觉关系进行研究.但是,人类通过空间关系上下文、语义上下文和目标之间的互动信息来进行关系的理解和推理.为了获得更好的全局上下文表示,同时... 场景图在视觉理解中有着很重要的作用.现有的场景图生成方法对于主语、宾语以及主宾语间的视觉关系进行研究.但是,人类通过空间关系上下文、语义上下文和目标之间的互动信息来进行关系的理解和推理.为了获得更好的全局上下文表示,同时减少数据集偏差的影响,提出了一个新的场景图生成框架RSSQ(residual shuffle sequence model).该框架由目标解码、残差置乱和位置嵌入3部分构成.残差置乱模块由随机置乱和残差连接的双向LSTM的基本结构叠加而成,利用迭代方式实现随机打乱双向LSTM的隐藏状态以减少数据集偏差影响,利用残差连接提取共享的全局上下文信息.在位置嵌入模块中,通过对目标的相对位置和面积比例的编码则可以增强目标对之间的空间关系.在数据集Visual Genome的3个不同层次子任务的实验中,证明了提出的RSSQ方法因全局上下文改善和空间关系增强,在Recall@50和Recall@100指标评价下,相对于现有方法能生成更好的场景图. 展开更多
关键词 场景图 视觉关系 上下文 残差双向LSTM 目标检测
在线阅读 下载PDF
局部时空域模型的核密度估计目标检测方法 被引量:2
17
作者 王兴宝 刘纯平 +2 位作者 费兰英 王朝晖 季怡 《中国图象图形学报》 CSCD 北大核心 2012年第7期813-820,共8页
针对非参数核密度估计在前期学习阶段信息冗余和计算量大,在后期背景更新阶段自适应性差需手动调整阈值和检测结果出现阴影等问题,提出一种基于局部时空域模型的核密度估计目标检测方法。在前期训练学习阶段采用K均值聚类选择关键帧,从... 针对非参数核密度估计在前期学习阶段信息冗余和计算量大,在后期背景更新阶段自适应性差需手动调整阈值和检测结果出现阴影等问题,提出一种基于局部时空域模型的核密度估计目标检测方法。在前期训练学习阶段采用K均值聚类选择关键帧,从而避免信息冗余和计算量大问题;在后期背景更新阶段,构建一种局部时空域模型,在时间域通过历史帧信息自适应调整时间域窗口大小,在空间域利用颜色和LBP描述的纹理特征消除部分阴影问题。在复杂场景下的实验结果表明,该算法在实时性和检测准确率方面有效得到提高。 展开更多
关键词 核密度估计 局部时空域模型 K均值 LBP算子
原文传递
外部信息引导和残差置乱的场景图生成方法 被引量:5
18
作者 田鑫 季怡 +2 位作者 高海燕 林欣 刘纯平 《计算机科学与探索》 CSCD 北大核心 2021年第10期1958-1968,共11页
场景图因其具有的表示视觉场景内容的语义和组织结构的特点,有助于视觉理解和可解释推理,成为计算机视觉研究热点之一。但由于现存的视觉场景中目标和目标之间关系标注的不平衡,导致现有的场景图生成方法受到数据集偏置影响。对场景图... 场景图因其具有的表示视觉场景内容的语义和组织结构的特点,有助于视觉理解和可解释推理,成为计算机视觉研究热点之一。但由于现存的视觉场景中目标和目标之间关系标注的不平衡,导致现有的场景图生成方法受到数据集偏置影响。对场景图数据失衡问题进行研究,提出一种基于外部信息引导和残差置乱相结合的场景图生成方法(EGRES),缓解数据集偏置对场景图生成的负面影响。该方法利用外部知识库中无偏置的常识性知识规范场景图的语义空间,缓解数据集中关系数据分布不平衡的问题,以提高场景图生成的泛化能力;利用残差置乱方式对视觉特征和提取的常识性知识进行融合,规范场景图生成网络。在VG数据集上的对比实验和消融实验证明,提出的方法可以有效改善场景图生成。对于数据集中不同标签的对比实验证明,提出的方法可以改善绝大多数关系类别的生成性能,尤其是中低频关系类别下的场景图生成性能,极大地改善了数据标注失衡的问题,比现有的场景图生成方法具有更好的生成效果。 展开更多
关键词 数据集偏置 残差置乱 外部知识库 场景图生成
在线阅读 下载PDF
基于视觉特征引导融合的视频描述方法 被引量:3
19
作者 苗教伟 季怡 刘纯平 《计算机工程与应用》 CSCD 北大核心 2022年第20期124-131,共8页
视频描述生成因其广泛的潜在应用场景而成为近年来的研究热点之一。针对模型解码过程中视觉特征和文本特征交互不足而导致描述中出现识别错误的情况,提出基于编解码框架下的视觉与文本特征交互增强的多特征融合视频描述方法。在解码过程... 视频描述生成因其广泛的潜在应用场景而成为近年来的研究热点之一。针对模型解码过程中视觉特征和文本特征交互不足而导致描述中出现识别错误的情况,提出基于编解码框架下的视觉与文本特征交互增强的多特征融合视频描述方法。在解码过程中,该方法使用视觉特征辅助引导描述生成,不仅为每一步的生成过程提供了文本信息,同时还提供了视觉参考信息,引导其生成更准确的词,大幅度提升了模型产生的描述质量;同时,结合循环dropout缓解解码器存在的过拟合情况,进一步提升了评价分数。在该领域广泛使用的MSVD和MSRVTT数据集上的消融和对比实验结果证明,提出的方法的可以有效生成视频描述,综合指标分别增长了17.2和2.1个百分点。 展开更多
关键词 编解码框架 视频描述 特征融合 DROPOUT 特征交互
在线阅读 下载PDF
基于单-多视图优化的足球球员三维姿态和体型估计 被引量:1
20
作者 谢欢 刘纯平 季怡 《计算机工程》 CAS CSCD 北大核心 2024年第3期200-207,共8页
足球比赛场景的三维重建有助于观众自由切换视角,增加了互动性和沉浸感。针对足球比赛场景中的足球球员,提出一种三维姿态和体型估计方法。对球员的多视图图像使用训练好的部分注意力回归的三维人体估计(PARE)模型生成初始的三维姿态和... 足球比赛场景的三维重建有助于观众自由切换视角,增加了互动性和沉浸感。针对足球比赛场景中的足球球员,提出一种三维姿态和体型估计方法。对球员的多视图图像使用训练好的部分注意力回归的三维人体估计(PARE)模型生成初始的三维姿态和体型估计,并使用人工标注的二维关节点作为优化目标。单-多视图优化操作利用蒙皮多人线性模型(SMPL)和正交投影的可微性,将球员的三维姿态和体型参数映射到二维关节点,计算其与人工标注之间的差异,再使用神经网络的反向传播算法更新三维姿态和体型参数,持续这些过程直到差异最小化。在自建的足球球员多视图数据集上的实验结果表明,该方法能够有效估计足球球员的三维姿态和体型,与人体网格恢复、在循环中优化SMPL、PARE等方法相比,二维关节点精度在单视图上提高了9.2%~37.5%,在多视图交叉验证中提高了34.9%~54.1%。 展开更多
关键词 三维姿态和体型估计 参数化人体模型 单-多视图优化 反向传播 蒙皮多人线性模型
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部