期刊文献+
共找到48篇文章
< 1 2 3 >
每页显示 20 50 100
Metacognition Inspired Reflective Chain-of-Thought for Knowledge-Based VQA
1
作者 Zhongfan Sun Kan Guo +1 位作者 Yongli Hu Yong Zhang 《Computers, Materials & Continua》 2026年第4期1909-1933,共25页
Knowledge-based VisualQuestion Answering(VQA)requires the integration of visual information with external knowledge reasoning.Existing approaches typically retrieve information from external corpora and rely on pretra... Knowledge-based VisualQuestion Answering(VQA)requires the integration of visual information with external knowledge reasoning.Existing approaches typically retrieve information from external corpora and rely on pretrained language models for reasoning.However,their performance is often hindered by the limited capabilities of retrievers and the constrained size of knowledge bases.Moreover,relying on image captions to bridge the modal gap between visual and language modalities can lead to the omission of critical visual details.To address these limitations,we propose the Reflective Chain-of-Thought(ReCoT)method,a simple yet effective framework inspired by metacognition theory.ReCoT effectively activates the reasoning capabilities ofMultimodal Large LanguageModels(MLLMs),providing essential visual and knowledge cues required to solve complex visual questions.It simulates a metacognitive reasoning process that encompasses monitoring,reflection,and correction.Specifically,in the initial generation stage,an MLLM produces a preliminary answer that serves as the model’s initial cognitive output.During the reflective reasoning stage,this answer is critically examined to generate a reflective rationale that integrates key visual evidence and relevant knowledge.In the final refinement stage,a smaller language model leverages this rationale to revise the initial prediction,resulting in amore accurate final answer.By harnessing the strengths ofMLLMs in visual and knowledge grounding,ReCoT enables smaller language models to reason effectively without dependence on image captions or external knowledge bases.Experimental results demonstrate that ReCoT achieves substantial performance improvements,outperforming state-of-the-art methods by 2.26%on OK-VQA and 5.8%on A-OKVQA. 展开更多
关键词 Knowledge-based vqa METACOGNITION reflective chain-of-thought answer refinement
在线阅读 下载PDF
PDID:视觉离散化智能问答模型——基于图像像素离散化和图像语义离散化的VQA模型
2
作者 陈页名 张思禹 孙杳如 《计算机科学与应用》 2023年第12期2432-2446,共15页
视觉问答是一项具有挑战性的多模态任务,它连接了计算机视觉和自然语言处理两个领域。在这项任务中,模型需要根据给定的图片和相关问题,有效地提取信息并给出正确答案。然而,由于图像和文本属于不同的模态,存在着严重的语义差异,因此如... 视觉问答是一项具有挑战性的多模态任务,它连接了计算机视觉和自然语言处理两个领域。在这项任务中,模型需要根据给定的图片和相关问题,有效地提取信息并给出正确答案。然而,由于图像和文本属于不同的模态,存在着严重的语义差异,因此如何有效地将不同模态的信息对齐并减少语义差异,是当前视觉问答领域的重点关注问题。本文针对当前视觉问答方法在多模态对齐阶段图像和文本信息颗粒度的巨大差异,提出了基于视觉离散化(PDID: Pixel Discretization and Instance Discretization)的智能问答模型并辅助以模态注意力机制完成跨模态信息和语义对齐。图像以像素为最小单位的特征数据与文本以单词为最小单位的特征数据,它们在数据的信息颗粒度上存在巨大的差异,即语言通过至多数万单词即可完成整个文本语义空间的构建,而图像则是通过亿级的RGB三原色数组构建而成。这说明了直接建模以像素为单位的图像是很难和文本做好对齐的。本文通过了多种图像离散化的方式,一方面通过离散化图像像素,以颜色离散化、强度离散化、纹理离散化、空间离散化四种形式将图像像素完成离散化,在数量级上逼近文本特征的最小基元数量;另一方面通过图像语义特征的软编码,离散化图像深层次的语义特征,将图像的语义特征与文本的单词语义对齐,在语义层面上逼近文本特征的单词语义信息量。除此以外,本文提出了一种新型的视觉关系融合模块,视觉关系融合模块用来捕获同种模态内离散化特征和连续特征的交互信息,为模型提供丰富的视觉特征。本文先使用自注意力方法提取模态内特征之间的相关性,即提取视觉全局关系,再使用通道空间分离注意力进行跨模态结合,为局部引导的全局特征提供更大的表示空间和更多的补充信息。为了验证本方法的有效性,在VQA-v2,COCO-QA,VQA-CP v2数据集上进行了广泛实验,充分验证了该方法在视觉问答任务中的基于离散机制的视觉问答研究有效性。同时也体现了该模型在其他跨模态任务(图像文本匹配、指示表达)中仍有很强的泛化能力。 展开更多
关键词 vqa 像素离散化 语义离散化 自注意力 跨模态融合
在线阅读 下载PDF
WMA:A Multi-Scale Self-Attention Feature Extraction Network Based on Weight Sharing for VQA 被引量:1
3
作者 Yue Li Jin Liu Shengjie Shang 《Journal on Big Data》 2021年第3期111-118,共8页
Visual Question Answering(VQA)has attracted extensive research focus and has become a hot topic in deep learning recently.The development of computer vision and natural language processing technology has contributed t... Visual Question Answering(VQA)has attracted extensive research focus and has become a hot topic in deep learning recently.The development of computer vision and natural language processing technology has contributed to the advancement of this research area.Key solutions to improve the performance of VQA system exist in feature extraction,multimodal fusion,and answer prediction modules.There exists an unsolved issue in the popular VQA image feature extraction module that extracts the fine-grained features from objects of different scale difficultly.In this paper,a novel feature extraction network that combines multi-scale convolution and self-attention branches to solve the above problem is designed.Our approach achieves the state-of-the-art performance of a single model on Pascal VOC 2012,VQA 1.0,and VQA 2.0 datasets. 展开更多
关键词 vqa feature extraction self-attention FINE-GRAINED
在线阅读 下载PDF
融合跨模态Transformer的外部知识型VQA
4
作者 王虞 李明锋 孙海春 《科学技术与工程》 北大核心 2024年第20期8577-8586,共10页
针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型... 针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型借助双向交叉注意力机制提升文本问题、图像、外接知识的语义交互融合能力,用于优化VQA模型在面对外部知识时普遍存在的推理能力不足的问题。结果表明:与基线模型LXMERT相比,在OK VQA数据集上,本文模型整体性能指标overall提升了15.01%。同时,与已有最新模型相比,在OK VQA数据集上,本文模型整体性能指标overall提升了4.46%。可见本文模型在改进外部知识型VQA任务性能方面有所提升。 展开更多
关键词 视觉问答(vqa) 外部知识 跨模态 知识图谱
在线阅读 下载PDF
医学视觉问答中图像与答案一致性验证方法研究
5
作者 从浩 刘利军 杨小兵 《重庆邮电大学学报(自然科学版)》 北大核心 2026年第1期118-127,共10页
针对医学视觉问答(medical visual question answering,Med-VQA)中多模态特征融合不足和图像答案不匹配导致模型准确率不高的问题,构建了图像答案一致性验证(image and answer consistency verification,IACV)模型。在预训练阶段,通过... 针对医学视觉问答(medical visual question answering,Med-VQA)中多模态特征融合不足和图像答案不匹配导致模型准确率不高的问题,构建了图像答案一致性验证(image and answer consistency verification,IACV)模型。在预训练阶段,通过结合多个预训练任务,增强模型的多模态特征提取与融合能力。在微调阶段,利用部位信息对图像进行部位划分,生成答案掩码矩阵,并对最终答案进行一致性验证,从而提升模型准确率。实验结果表明,IACV模型在公共数据集VQA-RAD和SLAKE上的准确率分别达到78.9%和84.6%,显著提高了Med-VQA任务的准确性,为后续的应用提供了更可靠的支持。 展开更多
关键词 医学视觉问答(Med-vqa) 答案掩码矩阵 一致性验证 预训练
在线阅读 下载PDF
Performance vs.Complexity Comparative Analysis of Multimodal Bilinear Pooling Fusion Approaches for Deep Learning-Based Visual Arabic-Question Answering Systems
6
作者 Sarah M.Kamel Mai A.Fadel +1 位作者 Lamiaa Elrefaei Shimaa I.Hassan 《Computer Modeling in Engineering & Sciences》 2025年第4期373-411,共39页
Visual question answering(VQA)is a multimodal task,involving a deep understanding of the image scene and the question’s meaning and capturing the relevant correlations between both modalities to infer the appropriate... Visual question answering(VQA)is a multimodal task,involving a deep understanding of the image scene and the question’s meaning and capturing the relevant correlations between both modalities to infer the appropriate answer.In this paper,we propose a VQA system intended to answer yes/no questions about real-world images,in Arabic.To support a robust VQA system,we work in two directions:(1)Using deep neural networks to semantically represent the given image and question in a fine-grainedmanner,namely ResNet-152 and Gated Recurrent Units(GRU).(2)Studying the role of the utilizedmultimodal bilinear pooling fusion technique in the trade-o.between the model complexity and the overall model performance.Some fusion techniques could significantly increase the model complexity,which seriously limits their applicability for VQA models.So far,there is no evidence of how efficient these multimodal bilinear pooling fusion techniques are for VQA systems dedicated to yes/no questions.Hence,a comparative analysis is conducted between eight bilinear pooling fusion techniques,in terms of their ability to reduce themodel complexity and improve themodel performance in this case of VQA systems.Experiments indicate that these multimodal bilinear pooling fusion techniques have improved the VQA model’s performance,until reaching the best performance of 89.25%.Further,experiments have proven that the number of answers in the developed VQA system is a critical factor that a.ects the effectiveness of these multimodal bilinear pooling techniques in achieving their main objective of reducing the model complexity.The Multimodal Local Perception Bilinear Pooling(MLPB)technique has shown the best balance between the model complexity and its performance,for VQA systems designed to answer yes/no questions. 展开更多
关键词 Arabic-vqa deep learning-based vqa deep multimodal information fusion multimodal representation learning vqa of yes/no questions vqa model complexity vqa model performance performance-complexity trade-off
在线阅读 下载PDF
基于细粒度特征增强的多模态视觉问答研究
7
作者 王志伟 陆振宇 《南京信息工程大学学报》 北大核心 2026年第1期35-47,共13页
现有多模态视觉问答(Visual Question Answering,VQA)模型忽略了图像中局部显著信息与文本中局部基本词之间的细粒度交互作用,图像与文本之间的语义相关性有待提高.为此,本文提出一种基于细粒度特征增强的多模态视觉问答方法.首先,对视... 现有多模态视觉问答(Visual Question Answering,VQA)模型忽略了图像中局部显著信息与文本中局部基本词之间的细粒度交互作用,图像与文本之间的语义相关性有待提高.为此,本文提出一种基于细粒度特征增强的多模态视觉问答方法.首先,对视觉和文本分别增加一种细粒度特征提取方法,以便更全面准确地提取图像和问题的语义特征;然后,为了利用不同层次模态之间的对齐信息,提出一种对齐引导的自注意力模块来对齐单一模态内(视觉或文本)细粒度特征和全局语义特征之间的对应关系,并以统一的方式融合不同层次的单模态信息;最后,在VQA v2.0和VQA-CP v2数据集上进行实验,结果表明,本文所提方法在各项视觉问答评估指标上的表现优于现有的模型. 展开更多
关键词 视觉问答 多模态 细粒度 特征增强 实体对齐 特征融合
在线阅读 下载PDF
用于知识视觉问答的问题增强知识检索网络
8
作者 赵永超 杨振国 《计算机与现代化》 2026年第2期32-38,共7页
基于知识的视觉问答除了图像内容外,还需要借助外部知识来回答问题。目前,许多工作都是通过文本空间范式检索器将所有内容转换到文本空间中进行知识检索,但基于知识的视觉问答中的文本空间范式检索器存在2个主要的局限:1)通过图像到文... 基于知识的视觉问答除了图像内容外,还需要借助外部知识来回答问题。目前,许多工作都是通过文本空间范式检索器将所有内容转换到文本空间中进行知识检索,但基于知识的视觉问答中的文本空间范式检索器存在2个主要的局限:1)通过图像到文本的转换获得的查询可能由于问题的缺失而不准确和冗余;2)查询与支持知识之间的相关性是通过语义相似度来计算的,这可能不足以回答问题。为此,本文提出一种用于知识视觉问答的问题增强知识检索网络,该网络由问题增强查询构建模块和反向推理重排序检索模块组成。更具体地说,问题增强查询构建模块利用交叉注意力机制来定位与问题相关的视觉区域,并构建问题增强查询。此外,反向推理重排序检索模块通过计算以知识为条件的问题生成的可能性,对检索到的知识进行重新排序。在OK-VQA和FVQA数据集上进行的大量实验验证了所提出网络的优异性能。 展开更多
关键词 人工智能 神经网络模型 深度学习 基于外部知识的视觉问答
在线阅读 下载PDF
跨模态自适应特征融合的视觉问答方法
9
作者 陈巧红 项深祥 +1 位作者 方贤 孙麒 《哈尔滨工业大学学报》 北大核心 2025年第4期94-104,共11页
为提高视觉问答(VQA)中跨模态融合与交互的精确度,减少多模态特征信息的丢失,提出了一种新颖的基于跨模态自适应特征融合的视觉问答方法。首先,该方法设计了卷积自注意力单元,包含自注意力层和空洞卷积层,前者用于捕捉全局特征信息,后... 为提高视觉问答(VQA)中跨模态融合与交互的精确度,减少多模态特征信息的丢失,提出了一种新颖的基于跨模态自适应特征融合的视觉问答方法。首先,该方法设计了卷积自注意力单元,包含自注意力层和空洞卷积层,前者用于捕捉全局特征信息,后者用于捕捉视觉对象间的空间关系。其次,通过自适应特征融合层,将全局关系与空间关系进行有效结合,使模型在处理图像特征时能够同时考虑全局关系和视觉对象之间的关联性,从而克服了传统注意力机制忽视空间关系的问题。最后,基于不同模态特征在答案预测中贡献程度的差异,该方法还构建了多模态门控融合模块,根据多模态特征间的重要程度自适应地融合特征,减少多模态信息的丢失,同时不会带来额外的计算资源开销。研究结果表明,该方法在未使用额外数据集预训练的情况下,在VQA2.0的测试-开发集、测试-标准集和GQA数据集上的整体准确率分别达到71.58%、72.00%、58.14%,显著优于传统自注意力方法,该研究成果可为跨模态特征融合领域提供了重要的参考和借鉴。 展开更多
关键词 视觉问答(vqa) 特征融合 多模态 注意力机制 门控机制
在线阅读 下载PDF
基于多语义关联与融合的视觉问答模型
10
作者 周浩 王超 +1 位作者 崔国恒 罗廷金 《计算机应用》 北大核心 2025年第3期739-745,共7页
弥合视觉图像和文本问题之间的语义差异是提高视觉问答(VQA)模型推理准确性的重要方法之一。然而现有的相关模型大多数基于低层图像特征的提取并利用注意力机制推理问题的答案,忽略了高层图像语义特征如关系和属性特征等在视觉推理中的... 弥合视觉图像和文本问题之间的语义差异是提高视觉问答(VQA)模型推理准确性的重要方法之一。然而现有的相关模型大多数基于低层图像特征的提取并利用注意力机制推理问题的答案,忽略了高层图像语义特征如关系和属性特征等在视觉推理中的作用。为解决上述问题,提出一种基于多语义关联与融合的VQA模型以建立问题与图像之间的语义联系。首先,基于场景图生成框架提取图像中的多种语义并把它们进行特征精炼后作为VQA模型的特征输入,从而充分挖掘图像场景中的信息;其次,为提高图像特征的语义价值,设计一个信息过滤器过滤图像特征中的噪声和冗余信息;最后,设计多层注意力融合和推理模块将多种图像语义分别与问题特征进行语义融合,以强化视觉图像重点区域与文本问题之间的语义关联。与BAN(Bilinear Attention Network)和CFR(Coarse-to-Fine Reasoning)模型的对比实验结果表明,所提模型在VQA2.0测试集上的准确率分别提高了2.9和0.4个百分点,在GQA测试集上的准确率分别提高了17.2和0.3个百分点。这表明所提模型能够更好地理解图像场景中的语义并回答组合式视觉问题。 展开更多
关键词 多语义特征融合 视觉问答 场景图 属性注意力 关系注意力
在线阅读 下载PDF
Medical visual question answering enhanced by multimodal feature augmentation and tri-path collaborative attention
11
作者 SUN Haocheng DUAN Yong 《High Technology Letters》 2025年第2期175-183,共9页
Medical visual question answering(MedVQA)faces unique challenges due to the high precision required for images and the specialized nature of the questions.These challenges include insufficient feature extraction capab... Medical visual question answering(MedVQA)faces unique challenges due to the high precision required for images and the specialized nature of the questions.These challenges include insufficient feature extraction capabilities,a lack of textual priors,and incomplete information fusion and interaction.This paper proposes an enhanced bootstrapping language-image pre-training(BLIP)model for MedVQA based on multimodal feature augmentation and triple-path collaborative attention(FCA-BLIP)to address these issues.First,FCA-BLIP employs a unified bootstrap multimodal model architecture that integrates ResNet and bidirectional encoder representations from Transformer(BERT)models to enhance feature extraction capabilities.It enables a more precise analysis of the details in images and questions.Next,the pre-trained BLIP model is used to extract features from image-text sample pairs.The model can understand the semantic relationships and shared information between images and text.Finally,a novel attention structure is developed to fuse the multimodal feature vectors,thereby improving the alignment accuracy between modalities.Experimental results demonstrate that the proposed method performs well in clinical visual question-answering tasks.For the MedVQA task of staging diabetic macular edema in fundus imaging,the proposed method outperforms the existing major models in several performance metrics. 展开更多
关键词 MULTIMODAL deep learning visual question answering(vqa) feature extraction attention mechanism
在线阅读 下载PDF
考虑背景失真的无参考视频质量评价方法 被引量:2
12
作者 朱文佳 张婷 +1 位作者 程茹秋 余烨 《南京师大学报(自然科学版)》 北大核心 2025年第3期102-111,共10页
现实场景下拍摄的视频由于存在各种未知失真类型、缺少参考视频,对此类视频的质量评价是一个十分具有挑战性的任务.近年来,研究人员将人类视觉系统的先验知识融合在质量评价任务中.在此基础上,提出一种考虑背景失真的无参考视频质量评... 现实场景下拍摄的视频由于存在各种未知失真类型、缺少参考视频,对此类视频的质量评价是一个十分具有挑战性的任务.近年来,研究人员将人类视觉系统的先验知识融合在质量评价任务中.在此基础上,提出一种考虑背景失真的无参考视频质量评价方法.该方法在考虑视频内容的同时,显著增强了对视频背景中信息丢失问题的敏感度,在特征提取阶段充分考虑背景特征的提取;随后,通过引入结合门控机制的通道挖掘技术,高效整合高低维特征,使特征通道更加精准地聚焦于背景失真细节;最终,利用时序建模模块构建特征的时间维度模型,并通过线性回归方法生成视频质量的客观量化评分.使用SROCC(spearman rank order correlation coefficient)、PLCC(pearson linear correlation coefficient)和RMSE(root mean squared error)等评价指标在公开数据集KoNViD-1k、LIVE-Qualcomm和CVD2014开展实验,结果表明该方法不仅与人类主观感知具有高度相关性,且预测误差较小,有效提升了视频质量评估的准确性和可靠性,能够更贴近地模拟人类对视频质量的直观评价. 展开更多
关键词 视频质量评价 无参考 背景失真 通道挖掘机制 时序建模
在线阅读 下载PDF
基于交叉模态注意力特征增强的医学视觉问答 被引量:1
13
作者 刘凯 任洪逸 +2 位作者 李蓥 季怡 刘纯平 《计算机工程》 北大核心 2025年第6期49-56,共8页
医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像... 医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像的局部特征所包含的医学信息与跨模态间的交互作用,从而限制了图像内容理解。针对以上问题,提出一种交叉模态注意力特征增强的Med-VQA模型(CMAG-MVQA)。基于U-Net编码有效增强图像局部特征,从交叉模态协同角度提出选择引导注意力方法,为单模态表征引入其他模态的交互信息,同时利用自注意力机制进一步增强选择引导注意力的图像表征。在VQA-RAD医学问答数据集上的消融与对比实验表明,所提方法在Med-VQA任务上有良好的表现,相比于现有同类方法,其在特征表征上性能得到较好改善。 展开更多
关键词 跨模态交互 注意力机制 医学视觉问答 特征融合 特征增强
在线阅读 下载PDF
基于自监督学习与多尺度时空特征融合的视频质量评估
14
作者 于莉 王思拓 +2 位作者 陈亚当 高攀 孙玉宝 《计算机系统应用》 2025年第3期51-61,共11页
面对视频质量评估领域标记数据不足的问题,研究者开始转向自监督学习方法,旨在借助大量未标记数据来学习视频质量评估模型.然而现有自监督学习方法主要聚焦于视频的失真类型和视频内容信息,忽略了视频随时间变化的动态信息和时空特征,... 面对视频质量评估领域标记数据不足的问题,研究者开始转向自监督学习方法,旨在借助大量未标记数据来学习视频质量评估模型.然而现有自监督学习方法主要聚焦于视频的失真类型和视频内容信息,忽略了视频随时间变化的动态信息和时空特征,这导致在复杂动态场景下的评估效果不尽人意.针对上述问题,提出了一种新的自监督学习方法,通过播放速度预测作为预训练的辅助任务,使模型能更好地捕捉视频的动态变化和时空特征,并结合失真类型预测和对比学习,增强模型对视频质量差异的敏感性学习.同时,为了更全面捕捉视频的时空特征,进一步设计了多尺度时空特征提取模块等以加强模型的时空建模能力.实验结果显示,所提方法在LIVE、CSIQ以及LIVE-VQC数据集上,性能显著优于现有的基于自监督学习的方法,在LIVE-VQC数据集上,本方法在PLCC指标上平均提升7.90%,最高提升17.70%.同样,在KoNViD-1k数据集上也展现了相当的竞争力.这些结果表明,本文提出的自监督学习框架有效增强视频质量评估模型的动态特征捕捉能力,并在处理复杂动态视频中显示出独特优势. 展开更多
关键词 视频质量评估 自监督学习 多任务学习 播放速度预测 多尺度
在线阅读 下载PDF
问题引导的空间关系图推理视觉问答模型 被引量:7
15
作者 兰红 张蒲芬 《中国图象图形学报》 CSCD 北大核心 2022年第7期2274-2286,共13页
目的现有视觉问答模型的研究主要从注意力机制和多模态融合角度出发,未能对图像场景中对象之间的语义联系显式建模,且较少突出对象的空间位置关系,导致空间关系推理能力欠佳。对此,本文针对需要空间关系推理的视觉问答问题,提出利用视... 目的现有视觉问答模型的研究主要从注意力机制和多模态融合角度出发,未能对图像场景中对象之间的语义联系显式建模,且较少突出对象的空间位置关系,导致空间关系推理能力欠佳。对此,本文针对需要空间关系推理的视觉问答问题,提出利用视觉对象之间空间关系属性结构化建模图像,构建问题引导的空间关系图推理视觉问答模型。方法利用显著性注意力,用Faster R-CNN(region-based convolutional neural network)提取图像中显著的视觉对象和视觉特征;对图像中的视觉对象及其空间关系结构化建模为空间关系图;利用问题引导的聚焦式注意力进行基于问题的空间关系推理。聚焦式注意力分为节点注意力和边注意力,分别用于发现与问题相关的视觉对象和空间关系;利用节点注意力和边注意力权重构造门控图推理网络,通过门控图推理网络的信息传递机制和控制特征信息的聚合,获得节点的深度交互信息,学习得到具有空间感知的视觉特征表示,达到基于问题的空间关系推理;将具有空间关系感知的图像特征和问题特征进行多模态融合,预测出正确答案。结果模型在VQA(visual question answering)v2数据集上进行训练、验证和测试。实验结果表明,本文模型相比于Prior、Language only、MCB(multimodal compact bilinear)、ReasonNet和Bottom-Up等模型,在各项准确率方面有明显提升。相比于Reason Net模型,本文模型总体的回答准确率提升2.73%,是否问题准确率提升4.41%,计数问题准确率提升5.37%,其他问题准确率提升0.65%。本文还进行了消融实验,验证了方法的有效性。结论提出的问题引导的空间关系图推理视觉问答模型能够较好地将问题文本信息和图像目标区域及对象关系进行匹配,特别是对于需要空间关系推理的问题,模型展现出较强的推理能力。 展开更多
关键词 视觉问答(vqa) 图卷积神经网络(GCN) 注意力机制 空间关系推理 多模态学习
原文传递
图像与视频质量评价综述 被引量:10
16
作者 程茹秋 余烨 +1 位作者 石岱宗 蔡文 《中国图象图形学报》 CSCD 北大核心 2022年第5期1410-1429,共20页
图像/视频的获取及传输过程中,由于物理环境及算法性能的限制,其质量难免会出现无法预估的衰减,导致其在实际场景中的应用受到限制,并对人的视觉体验造成显著影响。因此,作为计算机视觉领域的一项重要任务,图像/视频质量评价应运而生。... 图像/视频的获取及传输过程中,由于物理环境及算法性能的限制,其质量难免会出现无法预估的衰减,导致其在实际场景中的应用受到限制,并对人的视觉体验造成显著影响。因此,作为计算机视觉领域的一项重要任务,图像/视频质量评价应运而生。其目的在于通过构建计算机数学模型来衡量图像/视频中的失真信息以判断其质量的好坏,达到自动预测质量的效果。在城市生活、交通监控以及多媒体直播等多个场景中具有广泛的应用前景。图像/视频质量评价研究取得了长足的发展,为计算机视觉领域中其他任务提供了一定的便利。本文在广泛调研前人研究的基础上,回顾了整个图像/视频质量评价领域的发展历程,分别列举了传统方法和深度学习方法中一些具有里程碑意义的算法和影响力较大的算法,然后从全参考、半参考和无参考3个方面分别对图像/视频质量评价领域的一些文献进行了综述,具体涉及的方法包含基于结构信息、基于人类视觉系统和基于自然图像统计的方法等;在LIVE(laboratory for image&video engineering)、CSIQ(categorical subjective image quality database)、TID2013等公开数据集的基础上,基于SROCC(Spearman rank order correlation coefficient)、PLCC(Pearson linear correlation coefficient)等评价指标,对一些具有代表性算法的性能进行了分析;最后总结当前质量评价领域仍存在的一些挑战与问题,并对其进行了展望。本文旨在为质量评价领域的研究人员提供一个较全面的参考。 展开更多
关键词 图像/视频质量评价(I/vqa) 结构信息 人类视觉系统(HVS) 自然图像统计(NSS) 深度学习
原文传递
基于深度学习的视频质量评价研究综述 被引量:4
17
作者 谭娅娅 孔广黔 《计算机科学与探索》 CSCD 北大核心 2021年第3期423-437,共15页
视频质量评价(VQA)是以人眼的主观质量评估结果为依据,使用算法模型对失真视频进行评估。传统的评估方法难以做到主观评价结果与客观评价结果相一致。基于深度学习的视频质量评价方法无需加入手工特征,通过模型自主学习即可进行评估,对... 视频质量评价(VQA)是以人眼的主观质量评估结果为依据,使用算法模型对失真视频进行评估。传统的评估方法难以做到主观评价结果与客观评价结果相一致。基于深度学习的视频质量评价方法无需加入手工特征,通过模型自主学习即可进行评估,对视频质量的监控和评价有重要意义,已成为计算机视觉领域的研究热点之一。首先对视频质量评价的研究背景和主要研究方法进行介绍;其次从全参考型和无参考型两方面介绍基于深度学习的客观质量评价方法,并且从所用的卷积神经网络模型对无参考型评价方法进行了分类比较;接着介绍视频质量评价算法的相关数据库和评价算法性能指标,并对算法性能进行比较;最后对目前视频质量评价研究存在的问题进行总结,并展望了该领域面临的挑战和未来发展方向。 展开更多
关键词 深度学习 视频质量评价(vqa) 客观评价 无参考 卷积神经网络(CNN)
在线阅读 下载PDF
基于视频质量评价的时域失真测量 被引量:1
18
作者 谭晶晶 殷海兵 《电视技术》 北大核心 2013年第8期86-89,共4页
视频质量评价(VQA)对于视频处理应用有着重要影响。人眼视觉特性的时域掩蔽效应和时域失真波动是视频质量感知评价的关键因子。在已有的视频质量评价研究中,很少有考虑到时域失真波动对视频主观感知质量的影响。改进了传统的时域分析算... 视频质量评价(VQA)对于视频处理应用有着重要影响。人眼视觉特性的时域掩蔽效应和时域失真波动是视频质量感知评价的关键因子。在已有的视频质量评价研究中,很少有考虑到时域失真波动对视频主观感知质量的影响。改进了传统的时域分析算法,并证明了视频质量评价算法中时域失真的有效性。 展开更多
关键词 vqa 时域失真评价 时域失真波动
在线阅读 下载PDF
面向智能交互的图像识别技术综述与展望 被引量:102
19
作者 蒋树强 闵巍庆 王树徽 《计算机研究与发展》 EI CSCD 北大核心 2016年第1期113-122,共10页
视觉在人与人交互以及人与自然界的交互过程中起到非常重要的作用,让终端设备具有智能的视觉识别和交互能力是人工智能和计算机技术的核心挑战和远大目标之一.可以看到,近年来视觉识别技术发展飞速,新的创新技术不断涌现,新的研究问题... 视觉在人与人交互以及人与自然界的交互过程中起到非常重要的作用,让终端设备具有智能的视觉识别和交互能力是人工智能和计算机技术的核心挑战和远大目标之一.可以看到,近年来视觉识别技术发展飞速,新的创新技术不断涌现,新的研究问题不断被提出,面向智能交互的应用呈现出一些新的动态,正在不断刷新人们对此领域的原有认识.从视觉识别、视觉描述和视觉问答3个角度对图像识别技术进行综述,对基于深度学习的图像识别以及场景分类技术进行了具体介绍,对视觉描述和问答技术的最新技术进行了分析和讨论,同时对面向移动终端和机器人的视觉识别和交互应用进行了介绍,最后对该领域的未来研究趋势进行了分析. 展开更多
关键词 图像识别 智能的视觉识别 智能交互 视觉描述 视觉问答 深度学习
在线阅读 下载PDF
视频质量的主客观评估方法研究 被引量:20
20
作者 王新岱 杨付正 《电视技术》 北大核心 2003年第8期81-84,共4页
介绍了目前存在的各种视频质量的主、客观评估方法,并分析了其各自的优缺点和应用环境,最后展望了视频质量评估的研究热点。
关键词 视频质量 视觉系统 质量评估 数字视频压缩技术
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部