目的从单个RGB图像进行联合手物姿态估计极具挑战性,当手与物体交互时,经常会发生严重的遮挡。现有的手物特征提取网络通常使用特征金字塔网络(feature pyramid network,FPN)融合多尺度特征,然而,基于FPN的方法存在通道信息丢失的问题...目的从单个RGB图像进行联合手物姿态估计极具挑战性,当手与物体交互时,经常会发生严重的遮挡。现有的手物特征提取网络通常使用特征金字塔网络(feature pyramid network,FPN)融合多尺度特征,然而,基于FPN的方法存在通道信息丢失的问题。为此,提出手物特征增强互补模型(hand-object feature enhancement complementary,HOFEC)。方法1)针对通道信息丢失问题,设计基于通道注意力引导的特征金字塔网络(channel attention guided feature pyramid network,CAG-FPN),将通道注意力机制引入FPN,使得模型在融合多尺度特征过程中更好地关注输入数据中不同通道之间的关系和重要性,并结合基于局部共享的双流网络ResNet-50(50-layer residual network)共同构建手物特征提取网络,提高模型的特征提取能力。2)针对手物交互时相互遮挡问题,设计空间注意力模块,分别增强手物特征,同时提取手物遮挡区域信息,并进一步设计交叉注意力模块,进行手物特征互补,从而充分利用手部区域和物体区域遮挡信息,实现特征增强与互补。3)通过手部解码器与物体解码器分别恢复手部姿态与物体姿态。结果在HO3D和Dex-ycb数据集上与SOTA(state of the art)模型相比,本文方法在手部姿态估计任务与物体姿态估计任务上均取得有竞争力的效果。在HO3D数据集上与10种模型进行比较,手部姿态估计指标PAMPJPE(Procrustes aligned mean per joint position error)与PAMPVPE(Procrustes aligned mean per vertex position error)均比次优的HandOccNet(hand occlusion network)方法提高0.1 mm,物体姿态估计指标ADD-0.1D(average distance of 0.1 diameter)比次优的HFL-Net(harmonious feature learning network)方法提高2.1%;在Dex-ycb数据集上,与7种模型进行比较,手部姿态估计指标MPJPE(mean per joint position error)与PAMPJPE分别比次优的HFL-Net提高0.2 mm和0.1 mm,物体姿态估计指标ADD-0.1D比次优的HFL-Net提高6.4%。结论本文提出的HOFEC模型能够在手物交互场景下同时准确地估计手部姿态与物体姿态。本文方法代码网址:https://github.com/rookiiiie/HOFEC。展开更多
文摘目的从单个RGB图像进行联合手物姿态估计极具挑战性,当手与物体交互时,经常会发生严重的遮挡。现有的手物特征提取网络通常使用特征金字塔网络(feature pyramid network,FPN)融合多尺度特征,然而,基于FPN的方法存在通道信息丢失的问题。为此,提出手物特征增强互补模型(hand-object feature enhancement complementary,HOFEC)。方法1)针对通道信息丢失问题,设计基于通道注意力引导的特征金字塔网络(channel attention guided feature pyramid network,CAG-FPN),将通道注意力机制引入FPN,使得模型在融合多尺度特征过程中更好地关注输入数据中不同通道之间的关系和重要性,并结合基于局部共享的双流网络ResNet-50(50-layer residual network)共同构建手物特征提取网络,提高模型的特征提取能力。2)针对手物交互时相互遮挡问题,设计空间注意力模块,分别增强手物特征,同时提取手物遮挡区域信息,并进一步设计交叉注意力模块,进行手物特征互补,从而充分利用手部区域和物体区域遮挡信息,实现特征增强与互补。3)通过手部解码器与物体解码器分别恢复手部姿态与物体姿态。结果在HO3D和Dex-ycb数据集上与SOTA(state of the art)模型相比,本文方法在手部姿态估计任务与物体姿态估计任务上均取得有竞争力的效果。在HO3D数据集上与10种模型进行比较,手部姿态估计指标PAMPJPE(Procrustes aligned mean per joint position error)与PAMPVPE(Procrustes aligned mean per vertex position error)均比次优的HandOccNet(hand occlusion network)方法提高0.1 mm,物体姿态估计指标ADD-0.1D(average distance of 0.1 diameter)比次优的HFL-Net(harmonious feature learning network)方法提高2.1%;在Dex-ycb数据集上,与7种模型进行比较,手部姿态估计指标MPJPE(mean per joint position error)与PAMPJPE分别比次优的HFL-Net提高0.2 mm和0.1 mm,物体姿态估计指标ADD-0.1D比次优的HFL-Net提高6.4%。结论本文提出的HOFEC模型能够在手物交互场景下同时准确地估计手部姿态与物体姿态。本文方法代码网址:https://github.com/rookiiiie/HOFEC。