期刊文献+
共找到469篇文章
< 1 2 24 >
每页显示 20 50 100
数字人文视角下空间表达的新路径
1
作者 庄良 叶超 《热带地理》 北大核心 2026年第1期98-109,共12页
可视化分析技术作为数字人文研究的核心方法,可以将计算模型与人文数据深度匹配,构建起跨学科研究的桥梁。数字人文视角下空间表达的技术内核在于运用图形化映射机制,将体现文本意义、地理场所、关系联接的多源异构数据转化为具备认知... 可视化分析技术作为数字人文研究的核心方法,可以将计算模型与人文数据深度匹配,构建起跨学科研究的桥梁。数字人文视角下空间表达的技术内核在于运用图形化映射机制,将体现文本意义、地理场所、关系联接的多源异构数据转化为具备认知适配性的视觉表征,从而突破传统人文研究的分析局限。基于人文地理学的空间转向,当代数字人文的空间表达主要形成了文本可视化、地理可视化、关系可视化三大支柱,分别对应空间生产理论中关于概念空间、经验空间与生活空间的三元辩证关系。在数字人文范式下,可视化技术不仅革新了释义、情境、结构的空间化方法,更通过人机协同的交互式探索机制,推动形成了数据驱动与人文阐释相结合的创新模式。文章系统解析了典型可视化技术的设计原则与实现路径,并揭示其在数字人文前沿领域中的方法论价值。空间表达的新路径是对地理学三元空间的数字化转译,旨在构建多维人文空间解释框架以便型塑空间融合的研究新范式。在此过程中必须同时警惕技术工具主义与视觉中心主义,进而为数字人文的范式转型与学科建设提供积极参考。 展开更多
关键词 数字化 人文科学 文本可视化 地理可视化 关系可视化
在线阅读 下载PDF
海外敦煌医学多模态研究与中医药文化国际传播
2
作者 张曼玉 王明强 《南京中医药大学学报(社会科学版)》 2026年第1期24-32,共9页
基于跨文化传播与多模态研究框架,系统梳理19世纪末以来海外敦煌医学研究的整体脉络,涵盖欧美、东亚、东南亚及大洋洲等多地学术成果,剖析其地域特征与贡献。发现海外敦煌医学研究呈现三大特征:其一,以文献形态考辨、文本训释、图像视... 基于跨文化传播与多模态研究框架,系统梳理19世纪末以来海外敦煌医学研究的整体脉络,涵盖欧美、东亚、东南亚及大洋洲等多地学术成果,剖析其地域特征与贡献。发现海外敦煌医学研究呈现三大特征:其一,以文献形态考辨、文本训释、图像视觉研究为核心,形成多模态交织互证研究路径;其二,依托多学科交叉协作模式;其三,彰显东西方医学的文明对话特质。海外敦煌医学多模态研究推动中医药文化国际传播在内容、路径与视野方面实现三重进阶,为中医药文化国际传播提供了建构中医药文化多维阐释体系,深化中医药文化价值共鸣、情感认同及重塑中医药话语体系与国际形象的启示,既可为中医药的全球表达提供思路,也可为传统医学的全球共享与国际传播提供实践指引。 展开更多
关键词 敦煌医学 多模态 文献形态 文本内容 图像视觉 中医药文化 国际传播
在线阅读 下载PDF
符号互文、数据重组与拟像再现——Sora影像叙事的修辞学建构及其审美逻辑 被引量:3
3
作者 张伟 《云南社会科学》 北大核心 2025年第1期162-170,共9页
视觉修辞作为一种认识论的理论属性为考察Sora的先锋艺术实践提供了契机,也使得从宏观、整体性立场审视Sora成为可能。“图—文”关系作为视觉修辞符号层级的审美实践成为Sora文生视频的修辞参照,Sora对语言文本指令的修正与丰富架构了... 视觉修辞作为一种认识论的理论属性为考察Sora的先锋艺术实践提供了契机,也使得从宏观、整体性立场审视Sora成为可能。“图—文”关系作为视觉修辞符号层级的审美实践成为Sora文生视频的修辞参照,Sora对语言文本指令的修正与丰富架构了影像叙事的时空框架,使得由之形成的影像更具“故事性”。Sora对庞大视觉数据的学习与处理铺垫了其影像生成的深层路径,对视觉数据元素的提取与重组及其形成的互文关系成为其视觉叙事的另一修辞表征。“真实感”作为视觉修辞的内在意指为审视Sora的“形象”构建提供了理论合法性,一定程度上也揭示了Sora社会影响力的成因。符号表征、文本构建与传播效应是视觉修辞切入Sora影像叙事的三个视点,它在深度揭示人工智能视觉生产审美本质的同时,也加持了人们审视人类视觉表征场域这一非人化行动者的理性立场。 展开更多
关键词 视觉修辞 SORA “图—文”关系 互文 拟像
在线阅读 下载PDF
绘本视角下的《动画分镜头设计》课程教学策略研究——以马鞍山职业技术学院动漫专业为例 被引量:2
4
作者 任莹莹 刘颖 《安徽冶金科技职业学院学报》 2025年第1期65-68,共4页
本研究通过案例分析和教学实践,探索绘本资源在动画分镜头设计教学中的应用价值。绘本与动画分镜头在叙事逻辑、视觉语言构建及情感表达机制上具有显著共性,基于高职院校学情特点通过“视觉修辞迁移”“绘本项目贯穿式教学”方法将绘本... 本研究通过案例分析和教学实践,探索绘本资源在动画分镜头设计教学中的应用价值。绘本与动画分镜头在叙事逻辑、视觉语言构建及情感表达机制上具有显著共性,基于高职院校学情特点通过“视觉修辞迁移”“绘本项目贯穿式教学”方法将绘本作为动画分镜头设计教学的载体,有效解决高职专业动画分镜头教学的难题,同时该模式能提升学生的艺术感知力和创意表现能力。 展开更多
关键词 绘本 动画分镜头设计 教学策略 图文叙事
在线阅读 下载PDF
基于DBNet与SVTR的轮胎压印字符识别方法
5
作者 康朝海 蔡成颖 +1 位作者 孙行衍 任伟建 《自动化与仪表》 2025年第9期89-93,98,共6页
为解决汽车智能制造行业高效读取轮胎胎面信息的问题,针对轮胎压印字符识别研究存在的难点,构建了一种基于DBNet与SVTR的压印字符识别模型。首先改进梯度Hough变换和极坐标转换将胎面弯曲文本展平;然后利用模板匹配依据相对位移定位ROI... 为解决汽车智能制造行业高效读取轮胎胎面信息的问题,针对轮胎压印字符识别研究存在的难点,构建了一种基于DBNet与SVTR的压印字符识别模型。首先改进梯度Hough变换和极坐标转换将胎面弯曲文本展平;然后利用模板匹配依据相对位移定位ROI区域;最后基于DBNet检测字符、SVTR识别字符。实验表明,所提方法的检测Hmean达97.24%,识别准确率达99.22%,能有效解决轮胎压印字符识别的实际应用问题。 展开更多
关键词 轮胎压印字符 DBNet SVTR 字符识别
在线阅读 下载PDF
基于文本-视觉和信息熵最小化的对比学习模型
6
作者 蔡晓东 董丽芳 +1 位作者 黄业洋 周丽 《华南理工大学学报(自然科学版)》 北大核心 2025年第3期50-56,共7页
当前的无监督对比学习方法主要依赖纯文本信息来构建句子嵌入,在全面理解句子所表达的深层含义时存在局限性。同时,传统的对比学习方法过于注重最大化文本正实例之间的互信息,忽视了句子嵌入中潜在的噪声干扰。为了既能保留文本中的有... 当前的无监督对比学习方法主要依赖纯文本信息来构建句子嵌入,在全面理解句子所表达的深层含义时存在局限性。同时,传统的对比学习方法过于注重最大化文本正实例之间的互信息,忽视了句子嵌入中潜在的噪声干扰。为了既能保留文本中的有用信息,又能有效地剔除文本嵌入中的噪声干扰,该文提出了一种基于文本-视觉和信息熵最小化的对比学习模型。首先,将文本与对应的视觉信息在对比学习的框架下进行深度融合,共同映射到一个统一的地面空间,并确保它们的表示在该空间中保持一致,从而克服了仅依赖纯文本信息进行句子嵌入学习的限制,使得对比学习过程更加全面且精确;然后,遵循信息最小化原则,在最大化文本正实例间互信息的同时,基于信息熵最小化对文本正实例进行重构。在标准语义文本相似度(STS)任务上的实验结果表明,所提出的模型在Spearman相关系数评价指标上取得了显著提升,相较于现有先进方法具有显著的优势,同时也证明了该模型的有效性。 展开更多
关键词 无监督对比学习 互信息 文本-视觉 信息熵最小化 语义文本相似度
在线阅读 下载PDF
多粒度文本感知分层特征交互的视觉定位方法
7
作者 才华 冉越 +3 位作者 付强 李军龑 张晨洁 孙俊喜 《电子与信息学报》 北大核心 2025年第11期4594-4605,共12页
现有视觉定位方法在文本引导目标定位和特征融合方面存在显著不足,主要表现为未能充分利用文本信息,并且整体性能过于依赖特征提取后的融合过程。针对这一问题,该文提出一种多粒度文本感知分层特征交互的视觉定位方法。该方法在图像分... 现有视觉定位方法在文本引导目标定位和特征融合方面存在显著不足,主要表现为未能充分利用文本信息,并且整体性能过于依赖特征提取后的融合过程。针对这一问题,该文提出一种多粒度文本感知分层特征交互的视觉定位方法。该方法在图像分支中引入分层特征交互模块,利用文本信息增强与文本相关的图像特征;多粒度文本感知模块深入挖掘文本语义内容,生成具有空间和语义增强的加权文本。在此基础上,采用基于哈达玛积的初步融合策略融合加权文本和图像,为跨模态特征融合提供更为精细的图像表示。利用Transformer编码器进行跨模态特征融合,通过多层感知机回归定位坐标。实验结果表明,该文方法在5个经典视觉定位数据集上均取得了显著的精度提升,成功解决了传统方法过度依赖特征融合模块而导致的性能瓶颈问题。 展开更多
关键词 视觉定位 多粒度 文本感知 分层特征交互 自适应文本加权 哈达玛积
在线阅读 下载PDF
基于深度跨域中介模块的英文翻译
8
作者 黄笑菡 程时伟 张纪林 《计算机工程与设计》 北大核心 2025年第9期2502-2508,共7页
为促进文本域与视觉域之间的语义关联,提高英文翻译的准确性,提出一种基于深度跨域中介模块(deep crossdomain intermediary module,DCIM)的英文翻译方法,区别于传统的联合空间学习方法,DCIM作为中介模块指导图像中感兴趣区域与源词之... 为促进文本域与视觉域之间的语义关联,提高英文翻译的准确性,提出一种基于深度跨域中介模块(deep crossdomain intermediary module,DCIM)的英文翻译方法,区别于传统的联合空间学习方法,DCIM作为中介模块指导图像中感兴趣区域与源词之间的交互。通过强化文本编码器和视觉编码器提取的表征之间的语义关联,使视觉表征在语义上得到增强并演化为跨域表征。通过双重注意力解码器,利用两种独立的注意力机制分别处理文本和跨域表征的上下文,预测目标词汇。实验结果表明,集成DCIM的模型在两种英文翻译任务中基于Meteor和Ribes指标取得了最佳翻译准确性和鲁棒性。 展开更多
关键词 深度跨域中介模块 英文翻译 双重注意力解码器 文本域 视觉域 神经网络 自然语言处理
在线阅读 下载PDF
视觉传达设计中的文字设计研究
9
作者 成怡 《上海包装》 2025年第4期183-185,共3页
作为视觉传达设计的核心元素之一,文字不仅承担着信息传递的功能,更是塑造设计整体形象和氛围的关键。阐述了文字在视觉传达设计中的作用,分析了视觉传达设计中的文字要素,探讨了视觉传达设计中的文字设计方法,以期为品牌传播和文化交... 作为视觉传达设计的核心元素之一,文字不仅承担着信息传递的功能,更是塑造设计整体形象和氛围的关键。阐述了文字在视觉传达设计中的作用,分析了视觉传达设计中的文字要素,探讨了视觉传达设计中的文字设计方法,以期为品牌传播和文化交流提供有力支持。 展开更多
关键词 视觉传达设计 文字设计 信息传达
在线阅读 下载PDF
幕墙媒体立面特性对文字显示影响研究
10
作者 何荥 吴广远 +1 位作者 任宣霖 鲍文浩 《照明工程学报》 2025年第6期70-78,共9页
近年来,媒体立面凭借其直观的信息传递和强烈视觉冲击力,深刻改变城市夜间形象的同时,成为城市景观照明中重要元素,并被广泛用于广告及信息传播。但由于媒体立面建筑结构及照明设置限制,部分显示文字存在辨识困难的问题,影响了信息传递... 近年来,媒体立面凭借其直观的信息传递和强烈视觉冲击力,深刻改变城市夜间形象的同时,成为城市景观照明中重要元素,并被广泛用于广告及信息传播。但由于媒体立面建筑结构及照明设置限制,部分显示文字存在辨识困难的问题,影响了信息传递效果。为此,了解媒体立面特性对文字显示的影响,对媒体立面设置运营与管理具有重要的意义。因此,本研究通过对媒体立面类型、结构特性、照明设置及照明参数调研分析,获取典型媒体立面形式。在此基础上,设置开展媒体立面文字易读性及主观舒适度评价实验,获取典型媒体立面特性、亮度对文字显示影响评价。结果显示,500 m以上的视看距离可以较好辨识出文字,视距越远,文字越容易辨识且视觉感知越舒适,亮度对比度越大越容易辨识。用于文字呈现的光源灯带大于12条则能满足基本的辨识要求,相同灯带间隔下,竖向光源布局显示效果优于横向光源布局。 展开更多
关键词 媒体立面 幕墙建筑 文字辨识 视觉舒适度 视距
在线阅读 下载PDF
提要式书目的人物信息挖掘 被引量:1
11
作者 卢子言 肖卓 +1 位作者 颜欣杰 徐健 《图书馆论坛》 北大核心 2025年第2期10-21,共12页
古籍提要是对其内容、著者、版本、评价等方面的简要介绍。目前对提要式书目的研究聚焦于少量提要书籍的定性分析,得到的信息有限。对此,文章首先采用文本挖掘等方法,抽取各类书目中的人物基本信息,分析高频人物的特征;其次,从提要人物... 古籍提要是对其内容、著者、版本、评价等方面的简要介绍。目前对提要式书目的研究聚焦于少量提要书籍的定性分析,得到的信息有限。对此,文章首先采用文本挖掘等方法,抽取各类书目中的人物基本信息,分析高频人物的特征;其次,从提要人物评价视角切入,剖析人物整体评价和人物写作风格评价信息;然后基于学术流派对评价进行对比,分析不同文学流派的评价。研究发现:高频文献作者往往具有高科名、广泛学术影响力、朝代分布相对集中三类显著特征;提要撰写者最倾向于关注文献作者的个人喜好、教育经历和擅长领域;提要撰写者倾向于从文学作品主要构成角度来描述人物的写作风格,《四库全书》涉及的朝代跨度最广,提要书目中的评价情感以正向和中性为主,特别是清朝、周朝和民国时期的评价更偏向正向;提要撰写者对各学术流派的评价以中性为主,对于宋明理学流派,多本提要书目的撰写者均有提及,评价较客观和正面,相较之下,对明代七子派的评价大多源于四库馆臣,评价明显更为苛刻。这些人物信息不仅多角度地展现了人物特征和人物评价的特点,还揭示了古籍提要书目中存在的人文特征和社会规律,为古籍和历史人物研究提供了新的分析视角。 展开更多
关键词 古籍提要 文本挖掘 可视化
在线阅读 下载PDF
多模态文本视觉大模型机器人地形感知算法研究 被引量:1
12
作者 孙浩 谢滔 +5 位作者 何龙 郭文忠 虞永方 吴其军 王建伟 东辉 《图学学报》 北大核心 2025年第3期558-567,共10页
为提升机器人在动态复杂环境下对地形的智能感知能力,提出了一种基于多模态文本视觉大模型信息融合地形分割算法,集成了SLIC图像数据预处理、CLIP和SAM掩码生成模块、Dice系数后处理。首先,对原始输入图像进行SLIC预处理,得到图像分割子... 为提升机器人在动态复杂环境下对地形的智能感知能力,提出了一种基于多模态文本视觉大模型信息融合地形分割算法,集成了SLIC图像数据预处理、CLIP和SAM掩码生成模块、Dice系数后处理。首先,对原始输入图像进行SLIC预处理,得到图像分割子块,通过增加提示点提高后续掩码质量,可显著提高地形分类准确度。然后,通过文本-图像预训练大模型CLIP,将输入视觉图像和预设地形文本信息进行匹配,并借助其可解释性和零次学习,生成各地形提示点集合。由SAM大模型接受上述集合生成带有语义标签的掩码数据,并通过Dice系数后处理筛选可用掩码。以Cityscapes数据集为地形分割样本,验证了该算法相较于监督和无监督学习框架下主流分割算法的优越性,在无需标记数据的情况下,实现了76.58%的有效掩码生成率,IoU达到90.14%。针对四足机器人地形感知任务,添加U-net编/解码器网络量化验证模块。以生成掩码作为数据集,构建轻量化地形分割模型,部署在四足机器人的边缘计算设备,并在真实环境中开展地形分割实验。实验结果表明,2种掩码优化方法分别使模型MIo U提升了2.36%和2.56%,最终轻量化模型MIoU达到96.34%,地形分割精度可靠,该算法有效指导了机器人快速地从起点安全行进到目标地,并有效避开草地等非几何障碍物。 展开更多
关键词 深度学习 文本视觉大模型 足式机器人 地形感知 计算机视觉
在线阅读 下载PDF
日本画家富冈铁斋《东坡笠屐图》的中国范式与创新意趣
13
作者 衣若芬 《三苏学刊》 2025年第3期390-399,共10页
画家富冈铁斋被誉为日本最后的文人画家,他自青年时期开始学习绘画便兼顾日本和中国的美术技法。由于相隔八百年后,与苏东坡同日生,富冈铁斋热衷于收集苏东坡的相关文物、书籍和图像。他晚年绘制了大量苏东坡题材的作品,其中之一就是《... 画家富冈铁斋被誉为日本最后的文人画家,他自青年时期开始学习绘画便兼顾日本和中国的美术技法。由于相隔八百年后,与苏东坡同日生,富冈铁斋热衷于收集苏东坡的相关文物、书籍和图像。他晚年绘制了大量苏东坡题材的作品,其中之一就是《东坡笠屐图》。《东坡笠屐图》描述谪居海南岛的苏东坡一日出门遇雨,向农家借木屐和斗笠穿戴而归,引起妇人小孩笑看、小狗狂吠的故事。文章选取六件富冈铁斋的《东坡笠屐图》,考察其图像范式的中国根源以及富冈铁斋独创的造型风格所构设的知识场景与艺术趣味。 展开更多
关键词 《东坡笠屐图》 富冈铁斋 图像范式 创新意趣 文图学
在线阅读 下载PDF
PromptVis:面向文本生成图片的提示词的交互式可视分析方法 被引量:2
14
作者 卢裕弘 封颖超杰 +4 位作者 朱琳 周海怡 朱航 喻晨昊 陈为 《计算机辅助设计与图形学学报》 北大核心 2025年第4期688-696,共9页
高效地使用提示词实现文本到图片的生成是当前大模型的一个研究热点.针对现有工作在提示词工程方面的不足,提出一种面向文本生成图片的提示词的交互式可视分析方法——PromptVis,帮助用户评估并迭代改进提示词,以提升图片质量.首先对用... 高效地使用提示词实现文本到图片的生成是当前大模型的一个研究热点.针对现有工作在提示词工程方面的不足,提出一种面向文本生成图片的提示词的交互式可视分析方法——PromptVis,帮助用户评估并迭代改进提示词,以提升图片质量.首先对用户输入的提示词语句进行成分解析,并提供改进提示词的建议,如推荐相关的提示词;然后将用户输入与系统推荐的提示词集合进行聚类呈现,并支持用户交互探索;第三,从多个维度自动评估文本提示词和生成的图片,为用户修改提示词提供参考;第四,根据推荐的提示词对现有图片进行局部调整,支持用户预览提示词的修改效果.通过用户对比实验,从提示词创作效率分析和实用性问卷评估2个角度,证明了所提方法在辅助用户进行提示词创作上的实用性与有效性. 展开更多
关键词 文本生成图片 提示词工程 提示词可视化
在线阅读 下载PDF
故障诊断领域智能化算法研究热点与趋势的文本挖掘可视化分析 被引量:1
15
作者 管辉强 盛武 《太原师范学院学报(自然科学版)》 2025年第1期30-39,共10页
针对故障诊断智能化算法应用的发展过程、研究现状、研究热点、未来发展趋势进行分析.为此检索中国知网和Web of Science(WOS)核心数据集近十年有效文献,引用中国知网文献5490篇,WOS核心数据集文献3629篇,利用CiteSpace软件进行描述性... 针对故障诊断智能化算法应用的发展过程、研究现状、研究热点、未来发展趋势进行分析.为此检索中国知网和Web of Science(WOS)核心数据集近十年有效文献,引用中国知网文献5490篇,WOS核心数据集文献3629篇,利用CiteSpace软件进行描述性分析与探索性分析,并绘制相关网络图谱,分别进行文本挖掘可视化.发现在故障识别诊断方面可关注深度学习、迁移学习等新兴热门技术,进一步可关注原始信号处理方法和故障异常事前预测. 展开更多
关键词 故障诊断 智能化 CITESPACE 文本挖掘可视化
在线阅读 下载PDF
基于文本可视化的中美药品监管科学政策演化对比分析
16
作者 焦祖芳 李军 +1 位作者 兰娅菲 茅宁莹 《中国新药杂志》 北大核心 2025年第13期1359-1367,共9页
本文对中美药品监管科学政策进行可视化分析,对比分析中美政策演变过程及政策关注点的变化,为中国药品监管科学政策发展提供参考。在美国FDA、中国国家药品监督管理局等数据库检索建库至2023年的中美药品监管科学相关政策文件,采用Goose... 本文对中美药品监管科学政策进行可视化分析,对比分析中美政策演变过程及政策关注点的变化,为中国药品监管科学政策发展提供参考。在美国FDA、中国国家药品监督管理局等数据库检索建库至2023年的中美药品监管科学相关政策文件,采用Gooseeker,AntConc和Excel等工具对中美政策文件的年发文量、关键词频等进行文本可视化研究。研究发现,中国药品监管科学政策数量增速迅猛,但存在官方定义缺失、顶层政策设计不够完善、前沿领域政策内容较为宏观、国际化起步较晚以及中药关注度有所下降等问题。为了促进我国药品监管科学政策科学发展,应尽快明确药品监管科学官方定义,发布更多关注监管科学顶层设计的政策,聚焦更为前沿和全面的重点领域,构建中药监管科学政策发展新范式,加快我国药品监管科学政策国际化步伐。 展开更多
关键词 监管科学 政策演变 中美对比 文本可视化
原文传递
药症方关联的中医药古籍交互可视分析方法
17
作者 吴泓嘉 张弛 +2 位作者 张宏鑫 陈为 夏佳志 《计算机辅助设计与图形学学报》 北大核心 2025年第8期1439-1452,共14页
中医药古代典籍承载了中医基础理论、药理知识和实践经验,具有很高的研究价值.传统的中医药古籍信息提取、过滤与简单的可视化方法未能充分地挖掘中医药理论知识内容及其相关性.针对该问题,与领域专家紧密合作,提出药症方关联的中医药... 中医药古代典籍承载了中医基础理论、药理知识和实践经验,具有很高的研究价值.传统的中医药古籍信息提取、过滤与简单的可视化方法未能充分地挖掘中医药理论知识内容及其相关性.针对该问题,与领域专家紧密合作,提出药症方关联的中医药古籍交互可视分析方法.基于《四库全书》语料预训练BERT模型,设计了一个中医药知识图谱构建与处理方法;基于中药的“君臣佐使”原理,提供了药方主症相关性计算方法;采用创新的知识图谱药方布局,支持从中医整体观和辨证论治理论,以药、症、方3个角度探查中医理论知识的关联性.与传统方法相比,该方法能更好地帮助专家从中医药古籍数据中进行高效率地探索、理解和推断.通过对比实验,所提BERTsiku-BiLSTM-CRF模型在命名实体识别任务上的精确率、召回率及F_(1)值分别达到90.57%,93.53%,91.99%;所提BERTsiku-PCNN模型在关系抽取任务上的精确率、召回率及F_(1)值分别为93.29%,75.14%,80.40%,结果均优于其他参比模型,证明了所提模型的有效性.通过2个《本草纲目》应用案例的研究,验证了交互可视分析系统的实用性,并在访谈中获得了领域专家的积极反馈. 展开更多
关键词 知识图谱 中医药 古文处理 人文可视化
在线阅读 下载PDF
基于多模态特征增强的场景文本视觉问答
18
作者 崔瑞雪 王旭智 +2 位作者 万旺根 孙学涛 张振 《工业控制计算机》 2025年第6期12-14,共3页
基于文本的视觉问答(TextVQA)通过阅读给定图像中的文本来回答与文本相关的问题。传统的视觉问答方法只关注图像中的视觉物体而忽略了图像中的文本信息,在回答有关图像文本的问题时效果会大大降低。为了更加充分地利用图像中的多模态信... 基于文本的视觉问答(TextVQA)通过阅读给定图像中的文本来回答与文本相关的问题。传统的视觉问答方法只关注图像中的视觉物体而忽略了图像中的文本信息,在回答有关图像文本的问题时效果会大大降低。为了更加充分地利用图像中的多模态信息,增强模型对场景的理解和推理能力,在SSBaseline模型的基础上使用了CLIP模型来丰富图像和OCR文本特征,并通过增加注意力模块来增强不同模态信息的融合。最后在TextVQA和ST-VQA数据集上的实验结果表明,所提方法有效提升了模型的推理能力。 展开更多
关键词 文本视觉问答 文本识别 多模态特征融合
在线阅读 下载PDF
利用BERT嵌入的视觉文本融合生成对抗网络
19
作者 李珍 毋涛 《计算机技术与发展》 2025年第6期131-136,共6页
针对文本生成图像任务中多阶段生成器之间语义纠缠以及生成图像与文本描述不一致、图像细节模糊等问题,提出了利用BERT文本嵌入的视觉文本融合生成对抗网络(BVT-GAN)模型。首先,利用BERT模型在NLP任务中的优秀文本编码与强泛化能力深度... 针对文本生成图像任务中多阶段生成器之间语义纠缠以及生成图像与文本描述不一致、图像细节模糊等问题,提出了利用BERT文本嵌入的视觉文本融合生成对抗网络(BVT-GAN)模型。首先,利用BERT模型在NLP任务中的优秀文本编码与强泛化能力深度匹配文本语义。然后,增加门机制注意力模块,衡量每个单词特征对于图像区域的贡献程度来分配权重。最后,使用视觉文本融合模块(VFTBlock),将多粒度文本信息通过并行仿射变换与视觉特征进行融合,生成纹理更加丰富、目标物体边缘更加清晰的图像。实验结果表明,相比于基准模型AttnGAN,在CUB和COCO数据集上该模型的IS性能提升了10.3%和19.4%,FID指标分别降低了8.17和3.77。同以往方法相比,该模型在视觉保真度和与输入文本描述的对齐方面具有显著的优势。 展开更多
关键词 文本生成图 生成对抗网络 BERT嵌入 视觉文本融合 门控注意力
在线阅读 下载PDF
基于深度学习的交叉残差连接网络应用于语音分离 被引量:2
20
作者 褚俊佟 魏爽 《上海师范大学学报(自然科学版中英文)》 2025年第2期229-237,共9页
在多模态语音分离领域,传统的特征融合方法往往采用简单的维度对齐拼接方式,而三模态的拼接仅在相邻模态之间建立联系,未能实现首尾特征的直接关联,导致多模态信息不能被充分利用.为了克服这一限制,本文提出一种基于交叉-残差连接的音... 在多模态语音分离领域,传统的特征融合方法往往采用简单的维度对齐拼接方式,而三模态的拼接仅在相邻模态之间建立联系,未能实现首尾特征的直接关联,导致多模态信息不能被充分利用.为了克服这一限制,本文提出一种基于交叉-残差连接的音视频与文本融合方法,以实现音频、视频和文本特征的深度融合,从而改善语音分离效果.该方法在任意两个模态之间建立联系,通过交叉连接,与其他所有模态共享信息,并利用残差连接将原始输入特征与处理中的特征表示相结合,既保留了各模态特征原始的完整性,也充分利用了模态间的相关性,使每一模态都能有效学习到其他模态的信息,提高了融合特征的稳健性.实验结果表明,相较于传统的基于特征拼接的音视频或音视频-文本语音分离方法,本方法在源失真比(SDR)和客观语音质量评估(PESQ)等关键指标上均获得显著提升,证明了该方法的优势. 展开更多
关键词 多模态语音分离 音视频特征 文本特征 特征融合 交叉-残差连接
在线阅读 下载PDF
上一页 1 2 24 下一页 到第
使用帮助 返回顶部