-
题名基于旋转不变深度层次聚类网络的点云分析
被引量:5
- 1
-
-
作者
李冠彬
张锐斐
陈超
林倞
-
机构
中山大学计算机学院
-
出处
《软件学报》
EI
CSCD
北大核心
2022年第11期4356-4378,共23页
-
基金
国家自然科学基金(61976250,61702565)
广东省基础与应用基础研究基金(2020B1515020048)。
-
文摘
由于解决了三维点云的排列不变性问题,基于三维点云的深度学习方法在计算机三维视觉领域中取得了重大的突破,人们逐渐倾向于使用三维点云来描述物体并基于神经网络结构来提取点云的特征.然而,现有的方法依然无法解决旋转不变性问题,使得目前的模型鲁棒性较差;同时,神经网络结构的设计过于启发式,没有合理利用三维点云的几何结构与分布特性,导致网络结构的表达能力有待提升.鉴于此,提出了一种具有良好兼容性的严格旋转不变性表达以及深度层次类簇网络,试图从理论与实践两个层面解决上述问题.在点云识别、部件分割、语义分割这3个经典任务上进行了旋转鲁棒性对比实验,均取得了最优的效果.
-
关键词
三维点云
旋转不变性
层次类簇网络
点云分类
点云语义分割
-
Keywords
3D point cloud
rotation invariance
hierarchical cluster network
point cloud classification
point cloud semantic segmentation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名语义关系引导的面部动作单元分析
被引量:3
- 2
-
-
作者
李冠彬
张锐斐
朱鑫
林倞
-
机构
中山大学计算机学院
人工智能与数字经济广东省实验室(广州)
-
出处
《软件学报》
EI
CSCD
北大核心
2023年第6期2922-2941,共20页
-
基金
国家自然科学基金(61976250,U1811463)
广东省基础与应用基础研究基金(2020B1515020048)。
-
文摘
面部动作单元分析旨在识别人脸图像每个面部动作单元的状态,可以应用于测谎,自动驾驶和智能医疗等场景.近年来,随着深度学习在计算机视觉领域的普及,面部动作单元分析逐渐成为人们关注的热点.面部动作单元分析可以分为面部动作单元检测和面部动作单元强度预测两个不同的任务,然而现有的主流算法通常只针对其中一个问题.更重要的是,这些方法通常只专注于设计更复杂的特征提取模型,却忽略了面部动作单元之间的语义相关性.面部动作单元之间往往存在着很强的相互关系,有效利用这些语义知识进行学习和推理是面部动作单元分析任务的关键.因此,通过分析不同人脸面部行为中面部动作单元之间的共生性和互斥性构建了基于面部动作单元关系的知识图谱,并基于此提出基于语义关系的表征学习算法(semantic relationship embedded representation learning,SRERL).在现有公开的面部动作单元检测数据集(BP4D、DISFA)和面部动作单元强度预测数据集(FERA2015、DISFA)上,SRERL算法均超越现有最优的算法.更进一步地,在BP4D+数据集上进行泛化性能测试和在BP4D数据集上进行遮挡测试,同样取得当前最优的性能.
-
关键词
面部动作单元分析
深度学习
计算机视觉
-
Keywords
facial action unit analysis
deep learning
computer vision
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名语言结构引导的可解释视频语义描述
被引量:1
- 3
-
-
作者
李冠彬
张锐斐
刘梦梦
刘劲
林倞
-
机构
中山大学计算机学院
人工智能与数字经济广东省实验室(广州)
-
出处
《软件学报》
EI
CSCD
北大核心
2023年第12期5905-5920,共16页
-
基金
国家自然科学基金(61976250,U1811463)
广东省基础与应用基础研究基金(2020B1515020048)。
-
文摘
视频描述技术旨在为视频自动生成包含丰富内容的文字描述,近年来吸引了广泛的研究兴趣.一个准确而精细的视频描述生成方法,不仅需要对视频有全局上的理解,更离不开具体显著目标的局部空间和时序特征.如何建模一个更优的视频特征表达,一直是视频描述工作的研究重点和难点.另一方面,大多数现有工作都将句子视为一个链状结构,并将视频描述任务视为一个生成单词序列的过程,而忽略了句子的语义结构,这使得算法难以应对和优化复杂的句子描述及长句子中易引起的逻辑错误.为了解决上述问题,提出一种新颖的语言结构引导的可解释视频语义描述生成方法,通过设计一个基于注意力的结构化小管定位机制,充分考虑局部对象信息和句子语义结构.结合句子的语法分析树,所提方法能够自适应地加入具有文本内容的相应时空特征,进一步提升视频描述的生成效果.在主流的视频描述任务基准数据集MSVD和MSR-VTT上的实验结果表明,所提出方法在大多数评价指标上都达到了最先进的水平.
-
关键词
视频描述
编码器-解码器架构
小管
注意力机制
依存分析
-
Keywords
video captioning
encoder-decoder framework
tubelet
attention machanism
dependency parsing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名大语言模型下的视频问答方法综述
- 4
-
-
作者
谢君琳
张锐斐
李冠彬
-
机构
香港中文大学(深圳)理工学院
-
出处
《中国图象图形学报》
2025年第12期3760-3781,共22页
-
基金
国家自然科学基金项目(62322608)。
-
文摘
大语言模型在自然语言处理领域取得显著进展,展现出卓越的语言理解和生成能力。然而,尽管这些模型在文本处理方面表现出色,但在应对复杂多模态任务时,尤其在视频问答领域局限性逐渐显现。视频作为一种动态的视觉模态,具有显著的时序依赖性和跨模态信息融合的复杂性,对模型的时序信息处理能力和计算效率提出更高的要求。本文系统回顾基于大语言模型的视频问答模型的研究进展,详细分析非实时视频问答模型与实时视频问答模型的技术特点、优势及其在不同应用场景中的表现。同时,探讨了现有研究中常用的数据集及其评测标准,并总结了当前技术面临的挑战与瓶颈。在此基础上,对未来视频问答模型的发展方向进行前瞻性展望,旨在推动多模态人工智能的进一步发展与应用。
-
关键词
大语言模型(LLMs)
视频问答(Video
QA)
多模态信息融合
时序信息处理
视频理解
-
Keywords
large language models(LLMs)
video question answering(Video QA)
multimodal information fusion
temporal information processing
video understanding
-
分类号
TP183
[自动化与计算机技术]
TP391
[自动化与计算机技术—控制理论与控制工程]
-