基于掩码提示和注意力的手部姿态估计

Hand pose estimation based on mask prompts and attention

下载PDF

导出

摘要手部姿态估计是计算机视觉的重要研究方向,传统方法易受复杂背景干扰,而深度学习方法虽具抗干扰能力,但在多手场景和细节识别方面仍存不足。因此,提出一种基于掩码提示和注意力机制的手部姿态估计方法HMCA(Hand Mask Prompts and Attention)。首先,利用目标检测和语义分割生成手部掩码图,从而屏蔽背景噪声并提供先验信息;其次,设计并行注意力模块(PAB)与多路残差模块(MRB),以提取多尺度特征,从而提高复杂手势识别能力,降低计算复杂度,并防止梯度消失;再次,利用掩码图引导模型关注手部区域,从而解决多手和遮挡问题;最后,在回归损失中加入惩罚项,从而约束关键点预测并加快模型收敛。实验结果表明,该方法在单手、多手和遮挡场景下均优于其他方法,在不同阈值下的曲线面积均值(AUC)和平均关节点位置误差(MPJPE)方面均取得最佳性能。在RHD(Rendered Handpose Dataset)上,该方法在不同阈值下的AUC为93.22%,MPJPE为2.15;在CMU Panoptic数据集上,该方法在不同阈值下的AUC为91.38%,手部关节点平均误差为2.06。 Hand pose estimation is an important research direction in computer vision.Traditional methods are susceptible to complex background interference,while deep learning methods,despite being more robust,still face difficulties in multi-hand scenarios and fine-grained detail recognition.Therefore,a hand pose estimation method based on mask prompts and attention mechanisms,named HMCA(Hand Mask Prompts and Attention),was proposed.Firstly,hand mask maps,generated via object detection and semantic segmentation,were used to suppress background noise and provide prior information.Secondly,a Parallel Attention Block(PAB)and a Multi-path Residual Block(MRB)were designed to extract multi-scale features,thereby enhancing complex hand pose recognition ability,reducing computational complexity,and preventing gradient vanishing.Thirdly,the hand mask maps were utilized to guide the model to focus on hand regions,thereby addressing issues such as multi-hand and occlusion.Finally,a penalty term was incorporated into the regression loss to constrain keypoint prediction and accelerate model convergence.Experimental results show that the proposed method outperforms other methods with best performance on both the Area Under the Curve(AUC)and the Mean Per Joint Position Error(MPJPE)under varying thresholds in single-hand,multi-hand,and occlusion scenarios.On the RHD(Rendered Handpose Dataset),an AUC of 93.22%and a MPJPE of 2.15 are achieved under varying thresholds;on the CMU Panoptic dataset,an AUC of 91.38%and a mean hand keypoint error of 2.06 are reported under varying thresholds.

作者任建华曹佳惠贾迪 REN Jianhua;CAO Jiahui;JIA Di(School of Electronic and Information Engineering,Liaoning Technical University,Huludao Liaoning 125105,China;Ordos Research Institute,Liaoning Technical University,Ordos Inner Mongolia 017004,China)

机构地区辽宁工程技术大学电子与信息工程学院辽宁工程技术大学鄂尔多斯研究院

出处《计算机应用》北大核心 2025年第12期4012-4020,共9页 journal of Computer Applications

基金国家自然科学基金资助项目(61601213) 辽宁工程技术大学鄂尔多斯研究院校地科技合作培育项目(YJY-XD-2023-003)。

关键词手部姿态估计掩码提示注意力机制卷积神经网络语义分割 hand pose estimation mask prompt attention mechanism Convolutional Neural Network(CNN) semantic segmentation

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1付智凯,李文新,罗新奎.基于视觉的动态手势识别技术综述[J].计算机测量与控制,2025,33(1):9-19. 被引量：5
2赵鸿图,李豪,梁梦华.复杂背景下多特征结合的深度学习手势识别[J].电子测量技术,2023,46(23):77-84. 被引量：5
3贾迪,李宇扬,安彤,赵金源.融合多尺度特征的复杂手势姿态估计网络[J].中国图象图形学报,2023,28(9):2887-2898. 被引量：5
4王燕,南佩奇.MFFNet:多级特征融合图像语义分割网络[J].计算机科学与探索,2024,18(3):707-717. 被引量：6
5祁欣,袁非牛,史劲亭,王贵黔.多层次特征融合网络的语义分割算法[J].计算机科学与探索,2023,17(4):922-932. 被引量：5
6曹忠锐,谢文军,王冬,钮立超,王婷玉,刘晓平.基于视角统一的手姿态估计优化方法[J].计算机应用研究,2025,42(1):293-299. 被引量：2
7陈征,李晋江.基于多尺度特征融合的双分支手部姿态估计算法[J].计算机工程与设计,2024,45(10):3059-3065. 被引量：1

二级参考文献23

1徐玥,周辉.简单背景下基于OpenCV的静态手势识别[J].计算机科学,2022,49(S02):393-398. 被引量：8
2许宏科,秦严严,陈会茹.一种基于改进Canny的边缘检测算法[J].红外技术,2014,36(3):210-214. 被引量：162
3赵芳,周旺辉,陈岳涛,彭红春.改进的Canny算子在裂缝检测中的应用[J].电子测量技术,2018,41(20):107-111. 被引量：36
4王龙,刘辉,王彬,李鹏举.结合肤色模型和卷积神经网络的手势识别方法[J].计算机工程与应用,2017,53(6):209-214. 被引量：44
5谢铮桂.基于改进的卷积神经网络的手势识别的研究[J].计算机应用与软件,2019,36(3):192-195. 被引量：14
6鲍文霞,解栋文,朱明,梁栋.结合聚合通道特征和双树复小波变换的手势识别[J].中国图象图形学报,2019,24(7):1067-1075. 被引量：11
7张宏源,袁家政,刘宏哲,原春锋,王雪峤,邓智方.基于伪三维卷积神经网络的手势姿态估计[J].计算机应用研究,2020,37(4):1230-1233. 被引量：4
8马利,金珊杉,牛斌.基于改进PointNet网络的三维手姿估计方法[J].计算机应用研究,2020,37(10):3188-3192. 被引量：7
9柏丽银,彭亚雄,陆安江,余圣新,张旭.复杂背景下基于卷积神经网络的手势识别[J].计算机工程与设计,2020,41(11):3199-3203. 被引量：7
10王银,陈云龙,孙前来.复杂背景下的手势识别[J].中国图象图形学报,2021,26(4):815-827. 被引量：13

共引文献22

1李晓峰,张银慧,李子阳,张文泉.基于多模态深度学习的实时交互系统设计[J].机械设计,2024,41(S02):200-204. 被引量：6
2刘娟,王颖,胡敏,黄忠.融合全局增强-局部注意特征的表情识别网络[J].计算机科学与探索,2024,18(9):2487-2500. 被引量：5
3牛亮,张孟璐,陈炳华,姜舒,陆璐琦,徐晓,牛强.面向类别不平衡的胎儿心脏超声图像分割算法[J].计算机工程与应用,2024,60(21):236-243.
4王杰,蒋伏松.融合多尺度MLP和边缘细化的遥感影像建筑物提取[J].计算机工程与应用,2024,60(23):198-208.
5杨军.基于人工智能的通信服务网络独立语义特征抽取算法[J].自动化与仪器仪表,2024(10):52-55. 被引量：2
6曹国华,刘福迪,马国庆,刘丽.基于肤色模型的动态手势分割与识别方法研究[J].电子测量技术,2024,47(22):144-151.
7罗金群.融合目标检测与图卷积的VR手势交互及虚拟仿真实验研究[J].自动化与仪器仪表,2025(1):281-285. 被引量：1
8郭诗月,党建武,王阳萍,雍玖.结合注意力机制和多尺度特征融合的三维手部姿态估计[J].计算机应用,2025,45(4):1293-1299.
9陈金令,赵成明,李洁.GMFNet:全局多尺度和多级别的特征融合语义分割网络[J].计算机应用与软件,2025,42(4):311-318. 被引量：1
10罗敏,曹路,利建铖,何锡权,刘广武,温晋瑜,黄秀清.青光眼检测视盘与视杯分割在深度学习中的研究综述[J].计算机工程与应用,2025,61(9):61-79.

1段宏伟,郇甜甜,白彦辉.扩充关系型激光点云数据库语义精准标注方法[J].激光杂志,2025,46(9):202-207.
2冯松林,邓琳,赵丹,何文飞,张涛.小儿单纯性硬膜外血肿保守治疗的疗效分析及血肿吸收预测模型构建[J].临床外科杂志,2025,33(11):1143-1147.
3王之昌.关于电解质水溶液的混合过剩Gibbs自由能[J].科学通报,1981(6):383-383.
4马欢欢,李伟娜,何仙,郭秀亚,郄学敏.ILC2、miR-15b、KL-6在早产儿支气管肺发育不良中的变化及意义[J].分子诊断与治疗杂志,2025,17(11):2117-2120.
5佳莉娟,王慧娟,朱娜,方亚琼,张环环.外周血PLR联合MNC/LEU比值、LDH/ADA比值检测对结核性胸腔积液的诊断价值[J].分子诊断与治疗杂志,2025,17(11):2136-2138.
6张文兴,张林林,刘文婧,王建国.多表示域适应的滚动轴承故障诊断方法研究[J].机械设计与制造,2025(12):258-262.
7韩虹宇,褚佳琪,赵永秀,陈刚.肝素结合蛋白联合血清PCT、CRP检测对急诊老年脓毒症患者病情和预后的评估价值[J].西部医学,2025,37(12):1859-1862.
8黄浩浩.教科书式结局对结直肠癌患者新辅助化疗合并外科手术治疗预后预测价值研究[J].中国医药指南,2025,23(32):122-125.
9王乐,刘珍,王见容,陈晓梅.超声弹性成像联合经阴道二维超声检查对高危孕妇早产的预测价值[J].吉林医学,2025,46(12):2970-2973.
10孙海东,段宏,王嵩岭.基于改进CNN和RIME-SVM的小样本艾萨炉喷枪故障识别方法[J].中国有色冶金,2025,54(6):39-51.

计算机应用

2025年第12期

浏览历史

内容加载中请稍等...

基于掩码提示和注意力的手部姿态估计

参考文献7

二级参考文献23

共引文献22

相关作者

相关机构

相关主题

浏览历史