期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
多尺度特征融合的图像描述算法 被引量:1
1
作者 白雪冰 车进 吴金蔓 《计算机工程与应用》 北大核心 2025年第7期288-296,共9页
针对现有图像描述算法提取的图像特征信息不全面、编码器和解码器模型不统一的问题,提出了多尺度特征融合的图像描述算法。通过多尺度全局特征提取模块和区域特征提取模块分别得到图像的多尺度全局特征和区域特征,通过特征融合模块获得... 针对现有图像描述算法提取的图像特征信息不全面、编码器和解码器模型不统一的问题,提出了多尺度特征融合的图像描述算法。通过多尺度全局特征提取模块和区域特征提取模块分别得到图像的多尺度全局特征和区域特征,通过特征融合模块获得融合后的视觉特征,送入Transformer模型的编码器完成特征编码,通过Transformer模型的解码器生成图像描述内容。通过在MS-COCO数据集上进行实验,并且与当前的一些主流算法进行比较,实验结果表明,所提出的算法在CIDEr关键指标上得分为127.2%,比主流算法提高了3.5个百分点,其余指标也有不同程度的提高。同时,消融实验验证了算法的有效性,定性分析表明了所提出算法能够生成更准确更详细的图像描述。 展开更多
关键词 图像描述 多尺度全局特征 区域特征 TRANSFORMER
在线阅读 下载PDF
基于跨模态级联扩散模型的图像描述方法
2
作者 陈巧红 郭孟浩 +1 位作者 方贤 孙麒 《浙江大学学报(工学版)》 北大核心 2025年第4期787-794,共8页
现有文本扩散模型方法无法有效根据语义条件控制扩散过程,扩散模型训练过程的收敛较为困难,为此提出基于跨模态级联扩散模型的非自回归图像描述方法.引入跨模态语义对齐模块用于对齐视觉模态和文本模态之间的语义关系,将对齐后的语义特... 现有文本扩散模型方法无法有效根据语义条件控制扩散过程,扩散模型训练过程的收敛较为困难,为此提出基于跨模态级联扩散模型的非自回归图像描述方法.引入跨模态语义对齐模块用于对齐视觉模态和文本模态之间的语义关系,将对齐后的语义特征向量作为后续扩散模型的语义条件.通过设计级联式的扩散模型逐步引入丰富的语义信息,确保生成的图像描述贴近整体语境.增强文本扩散过程中的噪声计划以提升模型对文本信息的敏感性,充分训练模型以增强模型的整体性能.实验结果表明,所提方法能够生成比传统图像描述生成方法更准确和丰富的文本描述.所提方法在各项评价指标上均明显优于其他非自回归文本生成方法,展现了在图像描述任务中使用扩散模型的有效性和潜力. 展开更多
关键词 深度学习 图像描述 扩散模型 多模态编码器 级联结构
在线阅读 下载PDF
A Survey on Enhancing Image Captioning with Advanced Strategies and Techniques
3
作者 Alaa Thobhani Beiji Zou +4 位作者 Xiaoyan Kui Amr Abdussalam Muhammad Asim Sajid Shah Mohammed ELAffendi 《Computer Modeling in Engineering & Sciences》 2025年第3期2247-2280,共34页
Image captioning has seen significant research efforts over the last decade.The goal is to generate meaningful semantic sentences that describe visual content depicted in photographs and are syntactically accurate.Man... Image captioning has seen significant research efforts over the last decade.The goal is to generate meaningful semantic sentences that describe visual content depicted in photographs and are syntactically accurate.Many real-world applications rely on image captioning,such as helping people with visual impairments to see their surroundings.To formulate a coherent and relevant textual description,computer vision techniques are utilized to comprehend the visual content within an image,followed by natural language processing methods.Numerous approaches and models have been developed to deal with this multifaceted problem.Several models prove to be stateof-the-art solutions in this field.This work offers an exclusive perspective emphasizing the most critical strategies and techniques for enhancing image caption generation.Rather than reviewing all previous image captioning work,we analyze various techniques that significantly improve image caption generation and achieve significant performance improvements,including encompassing image captioning with visual attention methods,exploring semantic information types in captions,and employing multi-caption generation techniques.Further,advancements such as neural architecture search,few-shot learning,multi-phase learning,and cross-modal embedding within image caption networks are examined for their transformative effects.The comprehensive quantitative analysis conducted in this study identifies cutting-edgemethodologies and sheds light on their profound impact,driving forward the forefront of image captioning technology. 展开更多
关键词 Image captioning semantic attention multi-caption natural language processing visual attention methods
在线阅读 下载PDF
基于多模态语义特征融合的遥感图像描述生成方法
4
作者 周得伟 刘海砚 +2 位作者 李静 李佳 孔凡铸 《信息工程大学学报》 2025年第4期423-430,437,共9页
利用图像分类等辅助任务的结果作为先验信息可以为遥感图像生成高质量的描述,然而这些方法采用的特征融合方式难以捕捉特征之间的复杂交互关系,无法充分描述遥感图像中的内容。为解决此问题,提出一种基于多模态语义特征融合的遥感图像... 利用图像分类等辅助任务的结果作为先验信息可以为遥感图像生成高质量的描述,然而这些方法采用的特征融合方式难以捕捉特征之间的复杂交互关系,无法充分描述遥感图像中的内容。为解决此问题,提出一种基于多模态语义特征融合的遥感图像描述生成方法。该方法首先利用预训练的ResNet50网络提取图像区域特征;其次,基于多层感知机网络预测图像的语义属性;再次,通过属性引导的交叉注意力子模块和文本引导的交叉注意力子模块,实现图像、属性和文本特征的交互与融合;最后,将融合后的特征输入解码器,生成目标图像的描述。实验结果表明,该方法在各项评价指标上与基线方法相比均有性能提升,能够生成更加准确的描述。 展开更多
关键词 遥感图像描述生成 多标签分类 特征融合 交叉注意力机制
在线阅读 下载PDF
基于Swin Transformer与多尺度特征融合的图像描述方法
5
作者 王子怡 李卫军 +3 位作者 刘雪洋 丁建平 刘世侠 苏易礌 《计算机应用》 北大核心 2025年第10期3154-3160,共7页
基于Transformer的图像描述方法通过多头注意力会在整个输入序列上计算注意力权重,缺乏层次化的特征提取能力,并且两阶段的图像描述方法限制了模型性能。针对上述问题,提出一种基于Swin Transformer与多尺度特征融合的图像描述方法(STM... 基于Transformer的图像描述方法通过多头注意力会在整个输入序列上计算注意力权重,缺乏层次化的特征提取能力,并且两阶段的图像描述方法限制了模型性能。针对上述问题,提出一种基于Swin Transformer与多尺度特征融合的图像描述方法(STMSF)。在编码器中通过Agent Attention保持全局上下文建模能力的同时,提高计算效率;在解码器中提出多尺度交叉注意力(MSCA),融合交叉注意力与深度可分离卷积,在得到多尺度特征的同时更充分地融合多模态特征。实验结果表明,在MSCOCO数据集上与SCD-Net(Semantic-Conditional Diffusion Network)方法相比,STMSF的BLEU4(BiLingual Evaluation Understudy with 4-grams)和CIDEr(Consensus-based Image Description Evaluation)指标分别提升了1.1和5.3个百分点。对比实验和消融实验的结果表明,所提的一阶段STMSF能够有效提高模型性能,生成高质量的图像描述语句。 展开更多
关键词 Swin Transformer 多尺度特征 特征融合 图像描述 深度可分离卷积
在线阅读 下载PDF
基于预训练大模型的无监督图像字幕生成优化
6
作者 李炳楠 丁濛 《北京信息科技大学学报(自然科学版)》 2025年第1期11-19,共9页
图像字幕生成模型普遍依赖高质量的图像-文本对,且泛化能力较差。早期研究通过对比语言-图像预训练(contrastive language-imagepre-training,CLIP)模型的跨模态关联性,尝试利用无监督文本数据生成字幕,减少了对成对数据的依赖。然而,... 图像字幕生成模型普遍依赖高质量的图像-文本对,且泛化能力较差。早期研究通过对比语言-图像预训练(contrastive language-imagepre-training,CLIP)模型的跨模态关联性,尝试利用无监督文本数据生成字幕,减少了对成对数据的依赖。然而,这些方法未能有效缩小CLIP文本与图像嵌入之间的差距,也未充分利用图像和文本的局部特征。为解决上述挑战,提出了一种基于纯文本训练的图像字幕生成框架——FusionCap。结合噪声网络和投影网络策略,有效缩小了文本与图像模态之间的差距,并引入局部特征提取模块,提升了模型对细粒度特征的捕捉能力。实验结果表明,FusionCap模型在字幕生成的准确性和细节描述方面显著优于现有的纯文本训练方法。尤其是在零样本生成场景中,生成的字幕在细节捕捉和语义一致性方面表现出色,验证了其良好的泛化能力和生成效果。 展开更多
关键词 图像字幕生成 多模态 预训练模型 无监督学习算法 深度学习
在线阅读 下载PDF
结合多尺度与多层级聚合的卷轴画图像描述模型
7
作者 乐超洋 胡文瑾 张福军 《现代电子技术》 北大核心 2025年第17期41-47,共7页
针对卷轴画图像的尺度大小不一且具有一定的空间分布特性以及基于Transformer的编码层容易丢失图像关键信息的问题,文中提出一种结合多尺度与多层级聚合的卷轴画图像描述模型(MMA)。在编码阶段,通过引入非对称卷积和多尺度特征模块,可... 针对卷轴画图像的尺度大小不一且具有一定的空间分布特性以及基于Transformer的编码层容易丢失图像关键信息的问题,文中提出一种结合多尺度与多层级聚合的卷轴画图像描述模型(MMA)。在编码阶段,通过引入非对称卷积和多尺度特征模块,可以有效提高卷积层获取空间信息的能力并融合卷轴画图像全局和局部的多尺度上下文信息,从而得到具有丰富语义信息的特征表示。在解码阶段,设计了多层级聚合网络,通过聚合不同编码层的特征实现高层编码层语义信息和低层编码层内容信息的有效利用,从而有效缓解信息丢失的问题。实验结果表明,该模型在卷轴画数据集上取得了不错效果,较NIC模型在BLEU-4、METEOR上分别提高了26.7%、0.9%,并生成准确性更高的描述语句。 展开更多
关键词 图像描述 卷轴画图像 多尺度特征 非对称卷积 多层级聚合解码 TRANSFORMER
在线阅读 下载PDF
基于多级视觉与图文动态交互的图像中文描述方法
8
作者 张军燕 赵一鸣 +1 位作者 林兵 吴允平 《计算机应用》 北大核心 2025年第5期1520-1527,共8页
图像文字描述技术可以帮助计算机更好地理解图像内容,实现跨模态交互。针对图像中文描述任务中存在的图像多粒度特征提取不全面以及图文关联性理解不充分等问题,提出一种基于多级视觉与图文动态交互的图像中文描述方法。首先,在编码器... 图像文字描述技术可以帮助计算机更好地理解图像内容,实现跨模态交互。针对图像中文描述任务中存在的图像多粒度特征提取不全面以及图文关联性理解不充分等问题,提出一种基于多级视觉与图文动态交互的图像中文描述方法。首先,在编码器端提取多级视觉特征,通过图像局部特征提取器的辅助引导模块获取多粒度特征。其次,设计图文交互模块对图文信息的语义关联进行动态关注;同时,设计特征动态融合解码器将带有图文信息动态权重的特征经过闭环动态融合并关注与解码,以保证信息增强且无缺失,从而获得语义关联性的输出。最后,生成语义通顺的图像中文描述语句。使用BLEU-n、Rouge、Meteor、CIDEr指标评估方法的有效性并与8种不同方法进行对比。实验结果显示,所提方法的语义相关性评价指标均有提升。具体而言,与基线模型NIC(Neural Image Caption)相比,所提方法在BLEU-1、BLEU-2、BLEU-3、BLEU-4、Rouge_L、Meteor、CIDEr分别提升了5.62%、7.25%、8.78%、10.85%、14.06%、5.14%、15.16%,表明该方法具有较好的准确性。 展开更多
关键词 图像中文描述 图像多级视觉特征 多粒度 图文交互 动态融合
在线阅读 下载PDF
基于全局与序列混合变分Transformer的多样化图像描述生成方法 被引量:7
9
作者 刘兵 李穗 +1 位作者 刘明明 刘浩 《电子学报》 EI CAS CSCD 北大核心 2024年第4期1305-1314,共10页
多样化图像描述生成已成为图像描述领域研究热点.然而,现有方法忽视了全局和序列隐向量之间的依赖关系,严重限制了图像描述性能的提升.针对该问题,本文提出了基于混合变分Transformer的多样化图像描述生成框架.具体地,首先构建全局与序... 多样化图像描述生成已成为图像描述领域研究热点.然而,现有方法忽视了全局和序列隐向量之间的依赖关系,严重限制了图像描述性能的提升.针对该问题,本文提出了基于混合变分Transformer的多样化图像描述生成框架.具体地,首先构建全局与序列混合条件变分自编码模型,解决全局与序列隐向量之间依赖关系表示的问题.其次,通过最大化条件似然推导混合模型的变分证据下界,解决多样化图像描述目标函数设计问题.最后,无缝融合Transformer和混合变分自编码模型,通过联合优化提升多样化图像描述的泛化性能.在MSCOCO数据集上实验结果表明,与当前最优基准方法相比,在随机生成20和100个描述语句时,多样性指标m-BLEU(mutual overlap-BiLingual Evaluation Understudy)分别提升了4.2%和4.7%,同时准确性指标CIDEr(Consensus-based Image Description Evaluation)分别提升了4.4%和15.2%. 展开更多
关键词 图像理解 图像描述 变分自编码 隐嵌入 多模态学习 生成模型
在线阅读 下载PDF
基于条件变分推断与内省对抗学习的多样化图像描述生成
10
作者 刘兵 李穗 +1 位作者 刘明明 刘浩 《电子学报》 EI CAS CSCD 北大核心 2024年第7期2219-2227,共9页
现有多样化图像描述生成方法受到隐空间表示能力和评价指标制约,很难同时兼顾描述生成的多样性和准确性.为此,本文提出了一种新的多样化图像描述生成模型,该模型由一个条件变分推断编码器和一个生成器组成.编码器利用全局注意力学习每... 现有多样化图像描述生成方法受到隐空间表示能力和评价指标制约,很难同时兼顾描述生成的多样性和准确性.为此,本文提出了一种新的多样化图像描述生成模型,该模型由一个条件变分推断编码器和一个生成器组成.编码器利用全局注意力学习每个单词的隐向量空间,以提升模型对描述多样化的建模能力.生成器根据给定图像和序列隐向量生成多样化的描述语句.同时,引入内省对抗学习的思想,条件变分推断编码器同时作为鉴别器来区分真实描述和生成的描述,赋予模型自我评价生成的描述语句的能力,克服预定义评价指标的局限性.在MSCOCO数据集上的实验表明,与传统方法相比,在随机生成100个描述语句时,多样性指标mBLEU(mutual overlap-BiLingual Evaluation Understudy)提升了1.9%,同时准确性指标CIDEr(Consensus-based Image Description Evaluation)显著提升了7.5%.与典型多模态大模型相比,所提出方法在较小参数量的条件下更适用于生成多样化的陈述性描述语句. 展开更多
关键词 图像描述 变分推断 对抗学习 隐嵌入 多模态学习 生成模型
在线阅读 下载PDF
基于特征融合的多波段图像描述生成方法 被引量:2
11
作者 贺姗 蔺素珍 +1 位作者 王彦博 李大威 《计算机工程》 CAS CSCD 北大核心 2024年第6期236-244,共9页
针对现有图像描述生成方法普遍存在的对夜间场景、目标被遮挡情景和拍摄模糊图像描述效果不佳的问题,提出一种基于特征融合的多波段探测图像描述生成方法。将红外探测成像引入图像描述领域,首先利用多层卷积神经网络(CNN)对可见光图像... 针对现有图像描述生成方法普遍存在的对夜间场景、目标被遮挡情景和拍摄模糊图像描述效果不佳的问题,提出一种基于特征融合的多波段探测图像描述生成方法。将红外探测成像引入图像描述领域,首先利用多层卷积神经网络(CNN)对可见光图像和红外图像分别提取特征;然后根据不同探测波段的互补性,以多头注意力机制为主体设计空间注意力模块,以融合目标波段特征;接着应用通道注意力机制聚合空间域信息,指导生成不同类型的单词;最后在传统加性注意力机制的基础上构建注意力增强模块,计算注意力结果图与查询向量的相关权重系数,消除无关变量的干扰,从而实现图像描述生成。在可见光图像-红外图像描述数据集上进行多组实验,结果表明,该方法能有效融合双波段的语义特征,BLEU4指标、CIDEr指标分别达到58.3%和136.1%,能显著提高图像描述准确度,可以用于安防监控、军事侦察等复杂场景任务。 展开更多
关键词 图像描述 图像融合 多波段图像 自注意力机制 组合注意力
在线阅读 下载PDF
基于事件最大边界的密集视频描述方法
12
作者 陈劭武 胡慧君 刘茂福 《中国科技论文》 CAS 2024年第2期169-177,共9页
针对基于集合预测的密集视频描述方法由于缺乏显式的事件间特征交互且未针对事件间差异训练模型而导致的模型重复预测事件或生成语句雷同问题,提出一种基于事件最大边界的密集视频描述(dense video captioning based on event maximal m... 针对基于集合预测的密集视频描述方法由于缺乏显式的事件间特征交互且未针对事件间差异训练模型而导致的模型重复预测事件或生成语句雷同问题,提出一种基于事件最大边界的密集视频描述(dense video captioning based on event maximal margin,EMM-DVC)方法。事件边界是包含事件间特征相似度、事件在视频中时间位置的距离、生成描述多样性的评分。EMM-DVC通过最大化事件边界,使相似预测结果的距离远且预测结果和实际事件的距离近。另外,EMM-DVC引入事件边界距离损失函数,通过扩大事件边界距离,引导模型关注不同事件。在ActivityNet Captions数据集上的实验证明,EMM-DVC与同类密集视频描述模型相比能生成更具多样性的描述文本,并且与主流密集视频描述模型相比,EMM-DVC在多个指标上达到最优水平。 展开更多
关键词 密集视频描述 多任务学习 端到端模型 集合预测
在线阅读 下载PDF
基于差异化和空间约束的自动图像描述模型
13
作者 姜文晖 陈志亮 +2 位作者 程一波 方玉明 左一帆 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期456-465,共10页
多头注意力机制是图像描述模型的常用方法,该机制通过多分支结构构建关于输入特征的独特属性,以提高特征模型的区分性。然而,不同分支的独立性导致建模存在冗余性。同时,注意力机制会关注于不重要的图像区域,导致描述的文本不够准确。... 多头注意力机制是图像描述模型的常用方法,该机制通过多分支结构构建关于输入特征的独特属性,以提高特征模型的区分性。然而,不同分支的独立性导致建模存在冗余性。同时,注意力机制会关注于不重要的图像区域,导致描述的文本不够准确。针对上述问题,提出一种损失函数作为训练目标的正则化项,以提高多头注意力机制的多样性和准确性。在多样性方面,提出一种多头注意力的差异化正则,鼓励多头注意力机制的不同分支关注于所描述目标的不同部件,使不同分支的建模目标变得简单。同时,不同分支相互融合,最后形成完整且更有区分性的视觉描述。在准确性方面,设计一种空间一致性正则。通过建模多头注意力机制的空间关联,鼓励注意力机制关注的图像区域尽可能集中,从而抑制背景区域的影响,提高注意力机制的准确性。提出差异化正则和空间一致性正则共同作用的方法,最终提升自动图像描述模型的准确性。所提方法在MS COCO数据集上对模型进行验证,并与多种代表性工作进行对比。实验结果表明:所提方法显著地提高了图像描述的准确性。 展开更多
关键词 多头注意力机制 图像描述 差异性 空间约束 模态融合
原文传递
基于图像描述的跨媒体艺术作品智能推荐应用研究
14
作者 刘斌 于晓东 《芜湖职业技术学院学报》 2024年第1期30-34,共5页
基于图像描述与跨模态注意力的诗词匹配模型是用来对诗词和图像进行智能匹配的深度学习模型。模型采用视觉算法特征提取输入图片的特征,然后结合采用BERT模型提取的诗词文本的上下文特征,使用跨模态注意力机制结合softmax函数进行诗词匹... 基于图像描述与跨模态注意力的诗词匹配模型是用来对诗词和图像进行智能匹配的深度学习模型。模型采用视觉算法特征提取输入图片的特征,然后结合采用BERT模型提取的诗词文本的上下文特征,使用跨模态注意力机制结合softmax函数进行诗词匹配,以输出与图像匹配度最高的诗词。实验结果表明,相较于其他基线模型,该模型具有更优的性能。 展开更多
关键词 AOA 图像描述 BERT 跨模态注意力机制 多模态融合
在线阅读 下载PDF
基于改进Transformer的多尺度图像描述生成
15
作者 崔衡 张海涛 +1 位作者 杨剑 杜宝昌 《软件导刊》 2024年第7期160-166,共7页
Transformer模型被广泛应用于图像描述生成任务中,但存在以下问题:(1)依赖复杂神经网络对图像进行预处理;(2)自注意力具有二次计算复杂度;(3)Masked Self-Attention缺少图像引导信息。为此,提出改进Transformer的多尺度图像描述生成模... Transformer模型被广泛应用于图像描述生成任务中,但存在以下问题:(1)依赖复杂神经网络对图像进行预处理;(2)自注意力具有二次计算复杂度;(3)Masked Self-Attention缺少图像引导信息。为此,提出改进Transformer的多尺度图像描述生成模型。首先,将图像划分为多尺度图像块以获取多层次图像特征,并将其通过线性映射作为Transformer的输入,避免了复杂神经网络预处理的步骤,从而提升了模型训练与推理速度;其次,在编码器中使用线性复杂度的记忆注意力,通过可学习的共享记忆单元学习整个数据集的先验知识,挖掘样本间潜在的相关性;最后,在解码器中引入视觉引导注意力,将视觉特征作为辅助信息指导解码器生成与图像内容更为匹配的语义描述。在COCO2014数据集上的测试结果表明,与基础模型相比,改进模型在CIDEr、METEOR、ROUGE和SPICE指标分数方面分别提高了2.6、0.7、0.4、0.7。基于改进Transformer的多尺度图像描述生成模型能生成更加准确的语言描述。 展开更多
关键词 图像描述 Transformer模型 记忆注意力 多尺度图像 自注意力
在线阅读 下载PDF
基于多模态特征融合的新闻故事单元分割 被引量:8
16
作者 刘嘉琦 封化民 闫建鹏 《计算机工程》 CAS CSCD 2012年第24期161-165,共5页
对新闻视频进行结构分析,提出一种基于多模态特征融合的新闻故事单元分割方法。将新闻视频分割成音频流和视频流,选择静音区间为音频候选点,将镜头边界切变点作为视频候选点,做主持人镜头和主题字幕的探测,挑选主持人镜头为候选区间,并... 对新闻视频进行结构分析,提出一种基于多模态特征融合的新闻故事单元分割方法。将新闻视频分割成音频流和视频流,选择静音区间为音频候选点,将镜头边界切变点作为视频候选点,做主持人镜头和主题字幕的探测,挑选主持人镜头为候选区间,并记录主题字幕的起始位置和结束位置,利用时间轴融合音频候选点、视频候选点、主持人镜头和主题字幕,对新闻视频进行故事单元分割。实验结果表明,该方法的查全率为83.18%,查准率为83.92%。 展开更多
关键词 新闻视频 多模态特征 字幕 音频 故事单元分割
在线阅读 下载PDF
基于Transformer的多方面特征编码图像描述生成算法 被引量:4
17
作者 衡红军 范昱辰 王家亮 《计算机工程》 CAS CSCD 北大核心 2023年第2期199-205,共7页
由目标检测算法提取的目标特征在图像描述生成任务中发挥重要作用,但仅使用对图像进行目标检测的特征作为图像描述任务的输入会导致除关键目标信息以外的其余信息获取缺失,且生成的文本描述对图像内目标之间的关系缺乏准确表达。针对上... 由目标检测算法提取的目标特征在图像描述生成任务中发挥重要作用,但仅使用对图像进行目标检测的特征作为图像描述任务的输入会导致除关键目标信息以外的其余信息获取缺失,且生成的文本描述对图像内目标之间的关系缺乏准确表达。针对上述不足,提出用于编码图像内目标特征的目标Transformer编码器,以及用于编码图像内关系特征的转换窗口Transformer编码器,从不同角度对图像内不同方面的信息进行联合编码。通过拼接方法将目标Transformer编码的目标特征与转换窗口Transformer编码的关系特征相融合,达到图像内部关系特征和局部目标特征融合的目的,最终使用Transformer解码器将融合后的编码特征解码生成对应的图像描述。在MS-COCO数据集上进行实验,结果表明,所构建模型性能明显优于基线模型,BLEU-4、METEOR、ROUGE-L、CIDEr指标分别达到38.6%、28.7%、58.2%和127.4%,优于传统图像描述网络模型,能够生成更详细准确的图像描述。 展开更多
关键词 图像描述 转换窗口 多头注意力机制 多模态任务 Transformer编码器
在线阅读 下载PDF
基于多模态特征的视频密集描述生成方法 被引量:1
18
作者 马苗 陈小秋 田卓钰 《中文信息学报》 CSCD 北大核心 2022年第11期156-168,共13页
根据视频内容自动生成文本序列的密集描述生成融合了计算机视觉与自然语言处理技术。现有密集描述生成方法多强调视频中的视觉与运动信息而忽略了其中的音频信息,关注事件的局部信息或简单的事件级上下文信息而忽略了事件间的时序结构... 根据视频内容自动生成文本序列的密集描述生成融合了计算机视觉与自然语言处理技术。现有密集描述生成方法多强调视频中的视觉与运动信息而忽略了其中的音频信息,关注事件的局部信息或简单的事件级上下文信息而忽略了事件间的时序结构和语义关系。为此,该文提出一种基于多模态特征的视频密集描述生成方法。该方法首先在动作提议生成阶段使用Timeception层作为基础模块以更好适应动作片段时间跨度的多样性,其次在动作提议生成和描述生成两阶段均利用音频特征增强提议和描述生成效果,最后使用时序语义关系模块建模事件间的时序结构和语义信息以进一步增强描述生成的准确性。特别地,该文还构建了一个基于学习场景的视频密集描述数据集SDVC以探究该文所提方法在学习场景现实应用中的有效性。在ActivityNet Captions和SDVC数据集上的实验结果表明,动作提议生成AUC值分别提升0.8%和6.7%;使用真实动作提议进行描述生成时,BLEU_3值分别提升1.4%和4.7%,BLEU_4值分别提升0.9%和5.3%;使用生成的动作提议进行描述生成时,SDVC数据集BLEU_3、BLEU_4值分别提升2.3%和2.2%。 展开更多
关键词 密集描述生成 多模态特征 时序结构 语义关系
在线阅读 下载PDF
融合双注意力与多标签的图像中文描述生成方法 被引量:3
19
作者 田枫 孙小强 +3 位作者 刘芳 李婷玉 张蕾 刘志刚 《计算机系统应用》 2021年第7期32-40,共9页
图像描述是目前图像理解领域的研究热点.针对图像中文描述句子质量不高的问题,本文提出融合双注意力与多标签的图像中文描述生成方法.本文方法首先提取输入图像的视觉特征与多标签文本,然后利用多标签文本增强解码器的隐藏状态与视觉特... 图像描述是目前图像理解领域的研究热点.针对图像中文描述句子质量不高的问题,本文提出融合双注意力与多标签的图像中文描述生成方法.本文方法首先提取输入图像的视觉特征与多标签文本,然后利用多标签文本增强解码器的隐藏状态与视觉特征的关联度,根据解码器的隐藏状态对视觉特征分配注意力权重,并将加权后的视觉特征解码为词语,最后将词语按时序输出得到中文描述句子.在图像中文描述数据集Flickr8k-CN、COCOCN上的实验表明,本文提出的模型有效地提升了描述句子质量. 展开更多
关键词 图像描述 图像理解 图像中文描述 注意力机制 图像多标签
在线阅读 下载PDF
一种基于安全帽佩戴检测的图像描述方法研究 被引量:17
20
作者 徐守坤 倪楚涵 +1 位作者 吉晨晨 李宁 《小型微型计算机系统》 CSCD 北大核心 2020年第4期812-819,共8页
安全帽佩戴检测与描述是施工图像理解中涉及施工安全的重要内容.本文提出了一种基于改进YOLOv3算法,使用规则和模板相结合的安全帽佩戴图像描述生成方法.首先采集并制作数据集,利用图像增强扩充数据样本;然后以原始YOLOv3为基础,改进多... 安全帽佩戴检测与描述是施工图像理解中涉及施工安全的重要内容.本文提出了一种基于改进YOLOv3算法,使用规则和模板相结合的安全帽佩戴图像描述生成方法.首先采集并制作数据集,利用图像增强扩充数据样本;然后以原始YOLOv3为基础,改进多尺度预测结构和初始锚框参数,使用K-means算法进行目标框维度聚类;最后在自制的数据集上进行训练与检测,并根据预定义的规则结合语句模板生成描述语句.实验表明该方法在图像描述评价指标上的得分略有提升,同时经人工测评可知,该方法生成的语句在描述佩戴安全帽的人数方面较为准确,表明该方法在处理安全帽佩戴描述生成任务上的有效性. 展开更多
关键词 安全帽佩戴图像描述 YOLOv3 多尺度预测 K-MEANS聚类 规则和模板
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部