期刊文献+
共找到394篇文章
< 1 2 20 >
每页显示 20 50 100
建筑内基于虚拟仿真的跨视域行人监测研究
1
作者 陶振翔 李滢 +3 位作者 黄绪勃 王一森 张平 杨锐 《中国安全科学学报》 北大核心 2025年第5期161-168,共8页
为解决高层建筑楼宇或复杂开放建筑环境中多路视频数据采集成本高、长时间高质量标注难等问题,实现跨视域多路视频数据的生成与行人图像的自动标注,首先,设计虚拟现实场景,模拟行人运动并自动获取标记数据;其次,研究无监督领域自适应方... 为解决高层建筑楼宇或复杂开放建筑环境中多路视频数据采集成本高、长时间高质量标注难等问题,实现跨视域多路视频数据的生成与行人图像的自动标注,首先,设计虚拟现实场景,模拟行人运动并自动获取标记数据;其次,研究无监督领域自适应方法,降低源域数据与目标域数据的特征分布差异,使模型泛化至目标建筑场景;最后,验证模型泛化能力。研究结果表明:构建的虚拟现实场景能有效克服跨视域视频数据采集与高质量标注的困难;无监督领域自适应方法将平均首位命中率从22.02%提升至45.48%;结合源域风格转换、数据增广和目标域伪标签生成,首位命中率提升20%,降低了分布偏差,有助于实现模型在不同建筑场景中的泛化。 展开更多
关键词 建筑场景 虚拟仿真 跨视域 行人运动 自动标注
原文传递
文化出海:中国科幻电影海外演映的海报设计问题与对策
2
作者 徐允 万木春 +1 位作者 许问一 张志鹏 《现代广告》 2025年第11期48-57,共10页
《流浪地球》系列电影的全球传播现象,标志着中国科幻电影已经进入跨文化传播的战略机遇期。本文聚焦中国科幻电影在国际市场推广过程中的海报设计问题,以跨文化传播和视觉修辞学作为研究框架,对比分析中外科幻电影海报设计的视觉语法... 《流浪地球》系列电影的全球传播现象,标志着中国科幻电影已经进入跨文化传播的战略机遇期。本文聚焦中国科幻电影在国际市场推广过程中的海报设计问题,以跨文化传播和视觉修辞学作为研究框架,对比分析中外科幻电影海报设计的视觉语法与审美、图像叙事策略以及文化符号编码逻辑,探讨了当前中国科幻电影海外海报设计存在的文化符号转译失准、视觉语言文化适应性不足、海报设计与目标受众认知图式结构性错位等问题。在此基础上,本文提出了差异化区域(区域分异型视觉)设计策略以及相应的营销策略建构、文化符号创造性转化、基于受众心理的设计路径等应对方案,以期为中国科幻电影更好地“走出去”提供视觉传达设计层面的理论参考与实践指导。 展开更多
关键词 中国科幻电影 海报设计 跨文化传播 视觉修辞 文化符号
在线阅读 下载PDF
国内跨区域治理回顾与展望——基于知网数据库CiteSpace的可视化分析
3
作者 汪振双 柏昊然 赵宁 《大连大学学报》 2025年第4期73-83,共11页
跨区域治理是加快实现区域高质量协调发展新格局的重要途径。本文利用CiteSpace工具以2014—2024年知网数据库中北大核心与中文社会科学引文索引(CSSCI)来源期刊的930篇跨区域治理文献为样本进行知识图谱分析。结果表明,跨区域治理经历... 跨区域治理是加快实现区域高质量协调发展新格局的重要途径。本文利用CiteSpace工具以2014—2024年知网数据库中北大核心与中文社会科学引文索引(CSSCI)来源期刊的930篇跨区域治理文献为样本进行知识图谱分析。结果表明,跨区域治理经历了快速发展期和相对平缓期两个主要阶段;研究主要集中在区域协同与空间治理、环境与生态保护、教育与社会发展三大方面;中国城市规划学会等机构在近年来展现出较为紧密的合作关系;“协同治理”“京津冀”依然是学者们研究的焦点,“数字经济”和“跨界治理”成为近期学者们关注的新热点,其中“黄河流域数字经济驱动下的都市圈发展与共同富裕实现路径研究”或将成为国内未来研究的焦点。未来还需要关注跨区域治理的理论框架完善、实践模式创新、技术手段更新、国际合作拓展,以及绩效评估完善。 展开更多
关键词 跨区域治理 CITESPACE 文献计量 可视化分析 演进趋势
在线阅读 下载PDF
基于跨模态对齐的食谱-图像检索研究综述
4
作者 张贤坤 蒲臻 夏志鸿 《天津科技大学学报》 2025年第5期1-12,共12页
随着全球肥胖问题的日益严重,食物计算作为提升人类健康的重要研究方向,已成为多领域研究的热点。跨模态食谱检索作为食物计算与跨模态检索领域的交叉前沿,具有独特的研究价值。然而,由于食谱与图像之间存在显著语义鸿沟以及在食材种类... 随着全球肥胖问题的日益严重,食物计算作为提升人类健康的重要研究方向,已成为多领域研究的热点。跨模态食谱检索作为食物计算与跨模态检索领域的交叉前沿,具有独特的研究价值。然而,由于食谱与图像之间存在显著语义鸿沟以及在食材种类、烹饪方法和文本描述等方面的复杂性,给跨模态食谱检索任务带来挑战。随着数据集规模的扩大和技术的发展,基于双编码器、生成对抗网络(GAN)、视觉语言预训练模型(VLP)的方法逐渐成为食谱检索领域的主流技术。本文综述了基于跨模态对齐的食谱-图像检索技术的最新进展,分析不同方法的优势与局限性,并对未来的发展方向进行展望。 展开更多
关键词 食物计算 跨模态检索 食谱检索 视觉语言预训练
在线阅读 下载PDF
基于对比学习的跨模态实体链接模型 被引量:1
5
作者 王苑铮 孙文祥 +2 位作者 范意兴 廖华明 郭嘉丰 《计算机研究与发展》 北大核心 2025年第3期662-671,共10页
图文跨模态实体链接是对传统实体链接任务的扩展,其输入为包含实体的图像,目标是将其链接到文本模态的知识库实体上.现有模型通常采用双编码器架构,将图像、文本模态的实体分别编码为向量,利用点乘计算两者的相似度,从而链接到与图像实... 图文跨模态实体链接是对传统实体链接任务的扩展,其输入为包含实体的图像,目标是将其链接到文本模态的知识库实体上.现有模型通常采用双编码器架构,将图像、文本模态的实体分别编码为向量,利用点乘计算两者的相似度,从而链接到与图像实体相似度最高的文本实体.其训练过程通常采用基于Info NCE损失的对比学习任务,即提高一个实体某模态与自身另一模态的向量相似度,降低与其他实体另一模态的向量相似度.然而此模型忽视了图文2个模态内部表示难度的差异:图像模态中的相似实体,通常比文本模态中的相似实体更难以区分,导致外观相似的图像实体很容易链接错误.因此,提出2个新的对比学习任务来提升向量的判别能力.一个是自对比学习,用于提升图像向量之间的区分度;另一个是难负例对比学习,让文本向量更容易区分几个相似的图像向量.在开源数据集Wiki Person上进行实验,在12万规模的实体库上,相比于采用Info NCE损失的最佳基线模型,模型正确率提升了4.5个百分点. 展开更多
关键词 实体链接模型 多模态 跨模态 对比学习 视觉信息
在线阅读 下载PDF
镜鉴与实践:面向“语图混融”的民族口传文学跨媒介创作探赜
6
作者 滕兆媛 《艺术传播研究》 2025年第5期131-144,共14页
跨语言和图像的文艺创作在跨媒介文艺创作中具有基础性和代表性,对“图像”和“语象”之联系的探究也是国内外跨媒介文艺理论及批评的重点之一。当前媒介技术的迅速发展给语象和图像在跨媒介创作中的“混融”即“语图混融”提供了很大... 跨语言和图像的文艺创作在跨媒介文艺创作中具有基础性和代表性,对“图像”和“语象”之联系的探究也是国内外跨媒介文艺理论及批评的重点之一。当前媒介技术的迅速发展给语象和图像在跨媒介创作中的“混融”即“语图混融”提供了很大的空间,也让各种“泛艺术”与语图文本频繁交叉,这要求传统意义上的图像表意研究对此继续深化——于民族口传文学的当代传播而言,这方面的研究尤具突出价值。以《罕力毛与鹿姑娘》的混融创作试验为例,可见出一种独特的叙事和表达方式(或说有效范式):从语言描述到视觉图像的比象(互仿)、从视觉图像到象征符号的淬砺(意叙)、从视觉图像与象征符号到媒介的递归(融合)。这三种模式的转捩与交织,不仅会推进对民族口传文学之意义世界的“语—图”叙事协同,还有利于激发讲述者、文本与解读者之间的互动,从而更好地塑造集体记忆和文化记忆,凸显民族口传文学语境下“符号—媒介—意义”的生产如何折射出跨媒介文艺创作之于人文历史传播的深远意义。 展开更多
关键词 “语图混融” 民族口传文学 跨媒介 创作实践
原文传递
AIGC驱动下两岸客家社区文化元素视觉重构设计研究
7
作者 张松涛 《网印工业》 2025年第7期76-78,共3页
在全球数智化浪潮背景下,传统社区营造面临空间视觉表达趋同的挑战。两岸客家社区在城乡变迁中亟需实现“旧土新生”。以“两岸客家社区营造”为研究核心,聚焦人工智能辅助设计在社区视觉系统构建中的应用价值,构建集“文化挖掘—视觉... 在全球数智化浪潮背景下,传统社区营造面临空间视觉表达趋同的挑战。两岸客家社区在城乡变迁中亟需实现“旧土新生”。以“两岸客家社区营造”为研究核心,聚焦人工智能辅助设计在社区视觉系统构建中的应用价值,构建集“文化挖掘—视觉再生—共创传播”于一体的设计路径,探索社区营造的创新范式。 展开更多
关键词 两岸客家社区 AIGC 文化认同 视觉重构 创新范式
在线阅读 下载PDF
引入全局感知与细节增强的非对称遥感建筑物分割网络
8
作者 徐胜军 刘雨芮 +3 位作者 刘二虎 刘俊 史亚 李小晗 《中国图象图形学报》 北大核心 2025年第8期2866-2883,共18页
目的针对遥感图像分割的区域连续性差、边界消失和尺度变化大等导致建筑物分割精度低的问题,提出一种基于全局感知与细节增强的非对称遥感建筑物分割网络(global perception and detail enhancement asymmetric-UNet,GPDEA-UNet)。方法... 目的针对遥感图像分割的区域连续性差、边界消失和尺度变化大等导致建筑物分割精度低的问题,提出一种基于全局感知与细节增强的非对称遥感建筑物分割网络(global perception and detail enhancement asymmetric-UNet,GPDEA-UNet)。方法在U-Net网络基础上,首先构建了一个基于选择性状态空间的特征编码器模块,以视觉状态空间(visual state space,VSS)作为基础单元,结合动态卷积分解(dynamic convolution decomposition,DCD)捕捉遥感图像中的复杂特征和上下文信息;其次通过引入多尺度双交叉融合注意力模块(multi-scale dual cross-attention,MDCA)解决多尺度编码器特征间的通道与空间依赖性问题,并缩小编解码器特征之间的语义差距;最后设计了一个细节增强解码器模块,使用DCD与级联上采样(cascade upsampling,CU)模块恢复更丰富的语义信息,保留特征细节与语义完整,最终确保分割结果的精确性与细腻度。结果实验在WHU Aerial Imagery Dataset和Massachusetts Building Dataset数据集上与多种方法进行了比较,实验结果表明,所提出的GPDEA-UNet的交并比、精确度、召回率和F1分数在WHU Aerial Imagery Dataset数据集上分别为91.60%、95.36%、95.89%和95.62%,在Massachusetts Building Dataset数据集上分别为72.51%、79.44%、86.81%和82.53%。结论所提出的基于全局感知与细节增强的非对称遥感建筑物分割网络,可以有效提高遥感影像建筑物的分割精度。 展开更多
关键词 遥感图像 建筑物分割 视觉状态空间 动态卷积分解(DCD) 交叉注意力 细节增强
原文传递
CATrans:基于跨尺度注意力Transformer的高分辨率遥感影像土地覆盖语义分割框架
9
作者 陈丽佳 陈宏辉 +3 位作者 谢艳秋 何天友 叶菁 吴林煌 《地球信息科学学报》 北大核心 2025年第7期1624-1637,共14页
【目的】高分辨率遥感影像语义分割通过精准提取地物信息,为城市规划、土地分析利用提供了重要的数据支持。当前分割方法通常将遥感影像划分为标准块,进行多尺度局部分割和层次推理,未充分考虑影像中的上下文先验知识和局部特征交互能力... 【目的】高分辨率遥感影像语义分割通过精准提取地物信息,为城市规划、土地分析利用提供了重要的数据支持。当前分割方法通常将遥感影像划分为标准块,进行多尺度局部分割和层次推理,未充分考虑影像中的上下文先验知识和局部特征交互能力,影响了推理分割质量。【方法】为了解决这一问题,本文提出了一种联合跨尺度注意力和语义视觉Transformer的遥感影像分割框架(Cross-scale Attention Transformer,CATrans),融合跨尺度注意力模块和语义视觉Transformer,提取上下文先验知识增强局部特征表示和分割性能。首先,跨尺度注意力模块通过空间和通道两个维度进行并行特征处理,分析浅层-深层和局部-全局特征之间的依赖关系,提升对遥感影像中不同粒度对象的注意力。其次,语义视觉Transformer通过空间注意力机制捕捉上下文语义信息,建模语义信息之间的依赖关系。【结果】本文在DeepGlobe、Inria Aerial和LoveDA数据集上进行对比实验,结果表明:CATrans的分割性能优于现有的WSDNet(Discrete Wavelet Smooth Network)和ISDNet(Integrating Shallow and Deep Network)等分割算法,分别取得了76.2%、79.2%、54.2%的平均交并比(Mean Intersection over Union,mIoU)和86.5%、87.8%、66.8%的平均F1得分(Mean F1 Score,mF1),推理速度分别达到38.1 FPS、13.2 FPS和95.22 FPS。相较于本文所对比的最佳方法WSDNet,mIoU和mF1在3个数据集中分别提升2.1%、4.0%、5.3%和1.3%、1.8%、5.6%,在每类地物的分割中都具有显著优势。【结论】本方法实现了高效率、高精度的高分辨率遥感影像语义分割。 展开更多
关键词 高分辨率 语义分割 跨尺度注意力 视觉Transformer 上下文先验 空间注意力 语义信息
原文传递
WiFi信号可视化与双流网络融合的手势识别
10
作者 丁昊 袁江琳 +2 位作者 石鸿凌 龚晓龙 孙美静 《无线电工程》 2025年第5期959-965,共7页
手势动作根据信号波动范围可分为对应于人机交互中的基础大尺度动作与富含复杂语义信息的精细小尺度动作。现有WiFi手势识别系统在面对这些不同尺度的动作时,依赖多个独立的网络模型,需多对收发器按照严格限制的位置进行布设。基于WiFi... 手势动作根据信号波动范围可分为对应于人机交互中的基础大尺度动作与富含复杂语义信息的精细小尺度动作。现有WiFi手势识别系统在面对这些不同尺度的动作时,依赖多个独立的网络模型,需多对收发器按照严格限制的位置进行布设。基于WiFi信号可视化技术和双流网络的系统,通过引入跨模态交互模块(Cross-modal Interaction Module, CIM)和谱特征转移(Spectral Feature Transformation, SFT)模块,展现出了对收发设备位置和手势动作尺度的自适应能力,成功应用于单发单收场景。在公开数据集Widar3上进行的实验表明,系统在同样的实验场景下识别准确率高于其他方法。在单发单收场景下,对同时包含大尺度与精细小尺度手势动作的数据集,当WiFi收发器位置固定时,系统平均识别准确率达到94.85%;在收发器位置不固定的情况下,平均识别准确率仍能达到91.26%。 展开更多
关键词 WiFi信号可视化 双流网络 手势识别 跨模态交互 谱特征转移
在线阅读 下载PDF
数字媒体艺术跨媒介传播的视觉设计优化策略 被引量:2
11
作者 刘玥 《鞋类工艺与设计》 2025年第9期57-59,共3页
本文聚焦于数字媒体艺术跨媒介传播的特点,对数字媒体艺术跨媒介传播的特点、现状和问题进行了分析,并提出了数字媒体艺术跨媒介传播视觉设计的优化策略,然后展望了数字媒体艺术跨媒介传播视觉设计的未来发展趋势,以期提升数字媒体艺术... 本文聚焦于数字媒体艺术跨媒介传播的特点,对数字媒体艺术跨媒介传播的特点、现状和问题进行了分析,并提出了数字媒体艺术跨媒介传播视觉设计的优化策略,然后展望了数字媒体艺术跨媒介传播视觉设计的未来发展趋势,以期提升数字媒体艺术跨媒介传播的视效,增强其传播力和影响力,促进数字媒体艺术的创新发展。 展开更多
关键词 数字媒体艺术 跨媒介传播 视觉设计
在线阅读 下载PDF
DINO-MSRA:用于无人机与卫星影像跨视角图像检索定位的新型网络架构
12
作者 平一凡 卢俊 +4 位作者 郭海涛 侯青峰 朱坤 桑泽豪 刘彤 《地球信息科学学报》 北大核心 2025年第7期1608-1623,共16页
【目的】跨视角图像地理定位是指通过将待查询影像与不同视角且具备精确位置信息的参考影像进行匹配从而推断其地理位置的一门技术。该技术已经广泛应用于无人机导航、目标定位等现实任务中。当前基于深度学习的无人机-卫星跨视角图像... 【目的】跨视角图像地理定位是指通过将待查询影像与不同视角且具备精确位置信息的参考影像进行匹配从而推断其地理位置的一门技术。该技术已经广泛应用于无人机导航、目标定位等现实任务中。当前基于深度学习的无人机-卫星跨视角图像检索定位方法大多依赖监督学习,但高质量标注样本的稀缺导致监督学习模型的泛化能力受限。同时,由于现有方法对空间布局特征的建模缺失,使得跨视角影像间的显著域差异难以弥补。【方法】针对上述问题,本文提出了一个基于无人机-卫星影像的跨视角图像检索定位新架构——DINO-MSRA,该架构首先利用经Conv-LoRA微调后的Dinov2大模型作为特征编码器,旨在利用较少的参数量增强模型的特征提取能力。其次,设计了一个基于Mamba模块的空间关系感知特征聚合器(MSRA)用于聚合图像特征,通过将空间配置特征嵌入到全局描述符中,为跨视角匹配定位任务带来了显著的性能增益。最后,采用InfoNCE损失函数对模型进行训练。【结果】本文在Univerisity-1652和SUES-200数据集上进行了大量对比实验和消融实验,实验结果表明,当分别面向无人机定位任务和无人机导航任务时,本文方法在Univeirity-1652数据集上的R@1精度达到95.14%、97.29%,相比于目前最优算法CAMP分别提升0.68%、1.14%;在SUES-200数据集上150 m高度的R@1精度分别达到97.2%、98.75%,相较于CAMP提升1.8%、2.5%,并且所需参数量也明显少于现有算法,仅为Sample4Geo的19.2%;【结论】DINO-MSRA在跨视角图像匹配方面优于目前最先进的方法,实现了更高的精度,更快的推理速度,证明了其在具有挑战性的场景中的鲁棒性和实际应用潜力。 展开更多
关键词 跨视角图像定位 视觉基础模型 微调 特征聚合 无人机影像 卫星影像
原文传递
传统与现代的“视域融合”:论我国民族音乐的跨文化传播 被引量:2
13
作者 赖鹏玉 《教育教学研究前沿》 2025年第5期8-10,共3页
本研究旨在进行传统地方剧种赣剧和现代红色民族歌剧跨文化传播的理论机制研究,探索如何为我国民族音乐的对外传播提供一套有效的理论框架和实践指南,以提升其在国际上的影响力和传播效果。本文认为,我国民族音乐对外输出应当体现“视... 本研究旨在进行传统地方剧种赣剧和现代红色民族歌剧跨文化传播的理论机制研究,探索如何为我国民族音乐的对外传播提供一套有效的理论框架和实践指南,以提升其在国际上的影响力和传播效果。本文认为,我国民族音乐对外输出应当体现“视域融合”的审美观念,在对外传播过程中保留我国本土文化特色的同时,更加贴近当代观众的审美偏好,从而在对外传播中实现文化间的有效沟通和审美体验的传递。 展开更多
关键词 传统与现代 “视域融合” 跨文化传播
在线阅读 下载PDF
基于对比学习的声源定位引导视听分割模型
14
作者 黄文湖 赵邢 +2 位作者 谢亮 梁浩然 梁荣华 《浙江大学学报(工学版)》 北大核心 2025年第9期1803-1813,共11页
针对视听分割任务中背景噪声阻碍有效信息交互和物体辨别的问题,提出基于对比学习的声源定位引导视听分割模型(SSL2AVS).采用从定位到分割的两阶段策略,通过声源定位引导视觉特征优化,从而减少背景噪声干扰,使模型适用于复杂场景中的视... 针对视听分割任务中背景噪声阻碍有效信息交互和物体辨别的问题,提出基于对比学习的声源定位引导视听分割模型(SSL2AVS).采用从定位到分割的两阶段策略,通过声源定位引导视觉特征优化,从而减少背景噪声干扰,使模型适用于复杂场景中的视听分割.在分割前引入目标定位模块,利用对比学习方法对齐视听模态并生成声源热力图,实现发声物体粗定位;引入特征增强模块,构建多尺度特征金字塔网络,利用定位结果动态地加权融合浅层空间细节特征与深层语义特征,在引导增强目标物体视觉特征的同时抑制背景噪声.2个模块协同作用,增强物体的视觉表示,使模型专注于物体辨识.为了优化定位结果,提出辅助定位损失函数,促使模型关注与音频特征匹配的图像区域.实验结果表明,模型在MS3数据集上的mIoU为62.15,高于基线AVSegFormer模型. 展开更多
关键词 视听分割 跨模态交互 声源定位 对比学习 特征增强
在线阅读 下载PDF
跨模态双向注意力的视听双主导语音增强方法 被引量:1
15
作者 郭飞扬 张天骐 +1 位作者 沈夕文 高逸飞 《信号处理》 北大核心 2025年第9期1513-1524,共12页
针对视听多模态语音增强中音频模态占据主导地位,视频模态无法充分发挥辅助作用问题,提出一种音视频双主导支路协同增强的编解码器结构。在编码层,视频主导支路为强化视频模态的辅助效能,采用随机维度音频掩码模拟低信噪比条件下的音频... 针对视听多模态语音增强中音频模态占据主导地位,视频模态无法充分发挥辅助作用问题,提出一种音视频双主导支路协同增强的编解码器结构。在编码层,视频主导支路为强化视频模态的辅助效能,采用随机维度音频掩码模拟低信噪比条件下的音频特征缺失,利用视频特征指导缺失音频特征的预测与重构。中间层采用跨模态双向交叉注意力机制建模视听模态的动态互补关系。解码层通过可学习的动态权重因子整合双支路特征,实现跨模态信息的高效融合。实验验证在GRID数据集上展开,结果表明所提方法有效提升低信噪比场景的语音增强性能。在语音感知质量评估(Perceptual Evaluation of Speech Quality,PESQ)和短时客观可懂度(Short-Time Objective Intelligibility,STOI)两项核心指标上分别实现0.123~0.156和1.78%~2.21%的提升,较现有主流模型在客观评估中均展现出优势。消融实验进一步证实双向注意力结构与视频引导掩码机制的有效性,证明该方法能够突破传统单模态主导的交互范式,实现跨模态特征的协同增强与鲁棒表征。 展开更多
关键词 视听语音增强 特征融合 掩码预测 交叉注意力
在线阅读 下载PDF
基于交叉模态注意力特征增强的医学视觉问答
16
作者 刘凯 任洪逸 +2 位作者 李蓥 季怡 刘纯平 《计算机工程》 北大核心 2025年第6期49-56,共8页
医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像... 医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像的局部特征所包含的医学信息与跨模态间的交互作用,从而限制了图像内容理解。针对以上问题,提出一种交叉模态注意力特征增强的Med-VQA模型(CMAG-MVQA)。基于U-Net编码有效增强图像局部特征,从交叉模态协同角度提出选择引导注意力方法,为单模态表征引入其他模态的交互信息,同时利用自注意力机制进一步增强选择引导注意力的图像表征。在VQA-RAD医学问答数据集上的消融与对比实验表明,所提方法在Med-VQA任务上有良好的表现,相比于现有同类方法,其在特征表征上性能得到较好改善。 展开更多
关键词 跨模态交互 注意力机制 医学视觉问答 特征融合 特征增强
在线阅读 下载PDF
抗战宣传中木刻版画民族精神的另类视觉表达与情感传播
17
作者 张彪 《深圳大学学报(人文社会科学版)》 北大核心 2025年第3期151-160,共10页
抗战时期的木刻版画以其独特的视觉符号和社会功能成为传播民族精神的重要媒介。凭借黑白对比的强烈视觉冲击、简便易行的制作工艺以及低成本的传播特性,这一艺术形式在战时条件下被广泛应用,通过城乡传播路径的协同作用连接知识阶层与... 抗战时期的木刻版画以其独特的视觉符号和社会功能成为传播民族精神的重要媒介。凭借黑白对比的强烈视觉冲击、简便易行的制作工艺以及低成本的传播特性,这一艺术形式在战时条件下被广泛应用,通过城乡传播路径的协同作用连接知识阶层与基层民众。木刻版画的情感传播机制构建了从愤怒到同情再到爱国的情感递进结构,推动了个体情绪向社会认同的转化,并进一步实现了民族精神的塑造与社会动员。其符号体系通过具象与抽象的多重表达层次,结合英雄人物与普通民众的形象塑造,实现了艺术表现与社会功能的有机结合。在传播模式上,木刻版画通过报刊连载、展览活动和公共张贴等形式,在城市和乡村中展现出传播策略的差异化与适应性。城市传播注重思想深度和艺术表现力,而乡村传播则通过直观易懂的视觉语言实现了广泛动员,构建了全民抗战的叙事体系。 展开更多
关键词 抗战时期 木刻版画 民族精神 情感传播 视觉符号 跨文化传播
原文传递
基于视觉传达设计的品牌塑造与传播策略 被引量:2
18
作者 金艳 《上海包装》 2025年第3期167-169,共3页
视觉传达设计在品牌塑造与传播策略中发挥着至关重要的作用。阐述了品牌塑造的重要性,强调其作为品牌与消费者沟通桥梁的功能;从标志设计、色彩搭配、图形图像运用等方面,分析了品牌视觉形象的塑造方法;探讨了基于视觉传达设计的品牌传... 视觉传达设计在品牌塑造与传播策略中发挥着至关重要的作用。阐述了品牌塑造的重要性,强调其作为品牌与消费者沟通桥梁的功能;从标志设计、色彩搭配、图形图像运用等方面,分析了品牌视觉形象的塑造方法;探讨了基于视觉传达设计的品牌传播策略,包括产品包装与展示、社交媒体和跨界合作,以期为品牌发展注入新活力。 展开更多
关键词 品牌塑造 品牌传播 视觉传达设计 跨界合作
在线阅读 下载PDF
基于深度跨域中介模块的英文翻译
19
作者 黄笑菡 程时伟 张纪林 《计算机工程与设计》 北大核心 2025年第9期2502-2508,共7页
为促进文本域与视觉域之间的语义关联,提高英文翻译的准确性,提出一种基于深度跨域中介模块(deep crossdomain intermediary module,DCIM)的英文翻译方法,区别于传统的联合空间学习方法,DCIM作为中介模块指导图像中感兴趣区域与源词之... 为促进文本域与视觉域之间的语义关联,提高英文翻译的准确性,提出一种基于深度跨域中介模块(deep crossdomain intermediary module,DCIM)的英文翻译方法,区别于传统的联合空间学习方法,DCIM作为中介模块指导图像中感兴趣区域与源词之间的交互。通过强化文本编码器和视觉编码器提取的表征之间的语义关联,使视觉表征在语义上得到增强并演化为跨域表征。通过双重注意力解码器,利用两种独立的注意力机制分别处理文本和跨域表征的上下文,预测目标词汇。实验结果表明,集成DCIM的模型在两种英文翻译任务中基于Meteor和Ribes指标取得了最佳翻译准确性和鲁棒性。 展开更多
关键词 深度跨域中介模块 英文翻译 双重注意力解码器 文本域 视觉域 神经网络 自然语言处理
在线阅读 下载PDF
融合多模态知识与有监督检索的视觉问答模型
20
作者 葛依琳 孙海春 袁得嵛 《计算机科学与探索》 北大核心 2025年第8期2203-2218,共16页
视觉问答任务旨在通过理解图像内容回答问题,具有广泛的应用前景。然而,传统模型仍存在以下问题:依赖基础视觉特征,难以充分捕捉图像中的复杂信息,在图像语义理解和外部知识融合上存在不足;引入的外部知识常伴随噪声,影响检索和答案生... 视觉问答任务旨在通过理解图像内容回答问题,具有广泛的应用前景。然而,传统模型仍存在以下问题:依赖基础视觉特征,难以充分捕捉图像中的复杂信息,在图像语义理解和外部知识融合上存在不足;引入的外部知识常伴随噪声,影响检索和答案生成的准确性;缺乏有效的监督机制,有益知识难以得到充分利用,从而降低整体问答性能。针对以上问题,提出了一种融合多模态知识与有监督检索的视觉问答模型。该模型由多模态特征提取、基于多模态语义推理的知识检索和基于BLIP的阅读推理模块构成。其中,多模态特征提取模块通过融合图像语义特征、图像基础视觉特征、问题语义特征及知识特征,实现对“问题-图像”的全面理解。基于多模态语义推理的知识检索模块采用多层注意力机制,实现对“问题-图像”相关知识的精准检索。BLIP阅读推理模块则利用预训练的BLIP模型进行答案推理,提升答案生成的准确性。此外,结合有监督训练优化检索过程,减少噪声干扰。实验在OKVQA、FVQA和VQA2.0等多个基准数据集上均表现优异,通过消融实验进一步验证了模型中各组件的有效性。为融合知识的视觉问答领域提供了新的解决方案,展示了多模态知识融合与有监督检索在提升视觉问答模型性能方面的潜力。 展开更多
关键词 视觉问答 知识检索 跨模态 外部知识
在线阅读 下载PDF
上一页 1 2 20 下一页 到第
使用帮助 返回顶部