-
题名多维度跨模态协同的无参考点云质量评价
- 1
-
-
作者
翟晋赫
张滢雪
司占军
-
机构
天津科技大学人工智能学院
-
出处
《印刷与数字媒体技术研究》
北大核心
2025年第5期101-110,194,共11页
-
文摘
针对现有点云质量评价方法出现的多维度视觉特征融合不充分、跨模态语义对齐不足等问题,本研究提出了一种融合多维度视觉特征与文本语义的无参考点云质量评价框架TriCMA-PCQA。首先,设计了三分支结构,从点云投影图像和点云模型中分别提取纹理、深度和几何3个维度互补的视觉特征,构建多维度质量表征;随后,设计了多维度特征协同注意力机制,实现纹理-深度-几何特征的跨维度交互,增强视觉特征的判别能力与语义表达力;其次,引入文本模态的语义引导,通过可学习的动态文本提示生成质量描述特征,在共同语义空间中对齐文本语义特征与多维度视觉特征,增强模型对人类主观感知机制的模拟能力;最后,在EMD损失基础上融合分位数损失、对比损失及排序损失共同构建混合损失函数,自适应平衡多任务训练目标。实验结果表明,TriCMA-PCQA在SJTU-PCQA和LS-PCQA数据集上性能优于现有方法,与主观质量具有良好的相关性,可为三维内容生成与处理提供可靠的量化评价工具。
-
关键词
无参考点云质量评价
多维度协同注意力
视觉-文本跨模态对齐
混合损失
-
Keywords
No-reference point cloud quality assessment
Multidimensional collaborative attention
vision-text crossmodal alignment
Hybrid loss
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于视觉–文本关系对齐的跨模态视频片段检索
被引量:10
- 2
-
-
作者
陈卓
杜昊
吴雨菲
徐童
陈恩红
-
机构
中国科学技术大学大数据分析与应用安徽省重点实验室
-
出处
《中国科学:信息科学》
CSCD
北大核心
2020年第6期862-876,共15页
-
基金
国家重点研发计划(批准号:2018YFB1004300)
国家自然科学基金(批准号:61703386,U1605251)资助项目。
-
文摘
近年来,视频数据资源的日益丰富催生了一系列对于视频片段精细检索的需求.在这样的背景下,对于跨模态视频片段检索的研究逐渐兴起,其旨在根据输入的查询文本,输出一段视频中符合文本描述的片段.现有的研究工作主要关注于查询文本与视频片段的全局或局部的特征表达,而忽略了查询文本与视频片段中所蕴含的语义关系在跨模态检索中的匹配.例如,给定查询文本"一个人在打篮球"时,现有检索系统将根据整个查询文本和的视频的特征,或者关注于文本与视频中所表现的实体(如"人","篮球")来计算合适的视频片段,而缺乏对于"人打篮球"这类语义关系的考虑.因此,它们将难以辨别语义关系上的不同,从而限制了检索质量的提升.为了解决这个问题,本文提出跨模态关系对齐的图卷积框架CrossGraphAlign,通过分别构建文本关系图(textural relationship graph)与视觉关系图(visual relationship graph)来建模查询文本与视频片段中的语义关系,再通过跨模态对齐的图卷积网络来评估文本关系与视觉关系的相似度,从而帮助构建更加精准的视频片段检索系统.在公开的跨模态视频片段检索数据集TACoS和ActivityNet Captions上的实验结果表明,本文提出的方法可以有效地利用语义关系来提升跨模态视频片段检索的召回率.
-
关键词
关系对齐
语言关系
视觉关系
图卷积网络
跨模态视频片段检索
-
Keywords
relationship alignment
textual relationship
visual relationship
graph convolutional network
crossmodal video moment retrieval
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-