期刊文献+
共找到82篇文章
< 1 2 5 >
每页显示 20 50 100
Facial Video Semantic Coding for Semantic Communication
1
作者 Du Qiyuan Duan Yiping Tao Xiaoming 《China Communications》 2025年第6期83-100,共18页
Multimedia semantic communication has been receiving increasing attention due to its significant enhancement of communication efficiency.Semantic coding,which is oriented towards extracting and encoding the key semant... Multimedia semantic communication has been receiving increasing attention due to its significant enhancement of communication efficiency.Semantic coding,which is oriented towards extracting and encoding the key semantics of video for transmission,is a key aspect in the framework of multimedia semantic communication.In this paper,we propose a facial video semantic coding method with low bitrate based on the temporal continuity of video semantics.At the sender’s end,we selectively transmit facial keypoints and deformation information,allocating distinct bitrates to different keypoints across frames.Compressive techniques involving sampling and quantization are employed to reduce the bitrate while retaining facial key semantic information.At the receiver’s end,a GAN-based generative network is utilized for reconstruction,effectively mitigating block artifacts and buffering problems present in traditional codec algorithms under low bitrates.The performance of the proposed approach is validated on multiple datasets,such as VoxCeleb and TalkingHead-1kH,employing metrics such as LPIPS,DISTS,and AKD for assessment.Experimental results demonstrate significant advantages over traditional codec methods,achieving up to approximately 10-fold bitrate reduction in prolonged,stable head pose scenarios across diverse conversational video settings. 展开更多
关键词 facial video semantic coding semantic communications talking head video compression
在线阅读 下载PDF
Pulse rate estimation based on facial videos:an evaluation and optimization of the classical methods using both self-constructed and public datasets 被引量:1
2
作者 Chao-Yong Wu Jian-Xin Chen +3 位作者 Yu Chen Ai-Ping Chen Lu Zhou Xu Wang 《Traditional Medicine Research》 2024年第1期14-22,共9页
Pulse rate is one of the important characteristics of traditional Chinese medicine pulse diagnosis,and it is of great significance for determining the nature of cold and heat in diseases.The prediction of pulse rate b... Pulse rate is one of the important characteristics of traditional Chinese medicine pulse diagnosis,and it is of great significance for determining the nature of cold and heat in diseases.The prediction of pulse rate based on facial video is an exciting research field for getting palpation information by observation diagnosis.However,most studies focus on optimizing the algorithm based on a small sample of participants without systematically investigating multiple influencing factors.A total of 209 participants and 2,435 facial videos,based on our self-constructed Multi-Scene Sign Dataset and the public datasets,were used to perform a multi-level and multi-factor comprehensive comparison.The effects of different datasets,blood volume pulse signal extraction algorithms,region of interests,time windows,color spaces,pulse rate calculation methods,and video recording scenes were analyzed.Furthermore,we proposed a blood volume pulse signal quality optimization strategy based on the inverse Fourier transform and an improvement strategy for pulse rate estimation based on signal-to-noise ratio threshold sliding.We found that the effects of video estimation of pulse rate in the Multi-Scene Sign Dataset and Pulse Rate Detection Dataset were better than in other datasets.Compared with Fast independent component analysis and Single Channel algorithms,chrominance-based method and plane-orthogonal-to-skin algorithms have a more vital anti-interference ability and higher robustness.The performances of the five-organs fusion area and the full-face area were better than that of single sub-regions,and the fewer motion artifacts and better lighting can improve the precision of pulse rate estimation. 展开更多
关键词 pulse rate heart rate PHOTOPLETHYSMOGRAPHY observation and pulse diagnosis facial videos
暂未订购
Emotion Amplification of Facial Videos Using a Fine-Tuned StyleGAN
3
作者 Yukun Xu Justin N.M.Pinkney +2 位作者 Yong-Liang Yang Tianjia Shao Kun Zhou 《Computational Visual Media》 2025年第3期587-601,共15页
The ability to exhibit appropriate emotions is crucial for the expressiveness and attractiveness of facial videos.However,it is difficult to control the level of emotion,even for experienced actors and amateur podcast... The ability to exhibit appropriate emotions is crucial for the expressiveness and attractiveness of facial videos.However,it is difficult to control the level of emotion,even for experienced actors and amateur podcasters on social networks.In this study,we aim to solve the novel problem of semantically amplifying the emotions of a facial video.This poses new challenges for effectively editing a sequence of video frames in terms of face semantics,emotion adaptiveness,and temporal coherence.Our approach is based on semantic face editing in the disentangled latent space of a state-of-the-art StyleGAN model.We presented a new face dataset with diverse emotions to fine-tune the pre-trained StyleGAN and improve the expressiveness of its original emotion-biased latent space.An emotion-editing subspace was constructed to allow adaptive emotion amplification while preserving other facial attributes.We further propose an effective stitching-tuning technique to ensure temporally coherent video frames.Our work results in plausible emotion amplification for a wide range of facial videos.Qualitative and quantitative evaluations demonstrated the advantages of our method over other baseline methods.The proposed dataset and research code will be made publicly available. 展开更多
关键词 emotion amplification facial video semantic editing
原文传递
Deepfake Video Detection Employing Human Facial Features
4
作者 Daniel Schilling Weiss Nguyen Desmond T. Ademiluyi 《Journal of Computer and Communications》 2023年第12期1-13,共13页
Deepfake technology can be used to replace people’s faces in videos or pictures to show them saying or doing things they never said or did. Deepfake media are often used to extort, defame, and manipulate public opini... Deepfake technology can be used to replace people’s faces in videos or pictures to show them saying or doing things they never said or did. Deepfake media are often used to extort, defame, and manipulate public opinion. However, despite deepfake technology’s risks, current deepfake detection methods lack generalization and are inconsistent when applied to unknown videos, i.e., videos on which they have not been trained. The purpose of this study is to develop a generalizable deepfake detection model by training convoluted neural networks (CNNs) to classify human facial features in videos. The study formulated the research questions: “How effectively does the developed model provide reliable generalizations?” A CNN model was trained to distinguish between real and fake videos using the facial features of human subjects in videos. The model was trained, validated, and tested using the FaceForensiq++ dataset, which contains more than 500,000 frames and subsets of the DFDC dataset, totaling more than 22,000 videos. The study demonstrated high generalizability, as the accuracy of the unknown dataset was only marginally (about 1%) lower than that of the known dataset. The findings of this study indicate that detection systems can be more generalizable, lighter, and faster by focusing on just a small region (the human face) of an entire video. 展开更多
关键词 Artificial Intelligence Convoluted Neural Networks Deepfake GANs GENERALIZATION Deep Learning facial Features video Frames
暂未订购
基于面部视频的非接触式血氧饱和度估计方法
5
作者 齐林 高启赫 +1 位作者 关舒月 李永春 《东北大学学报(自然科学版)》 北大核心 2026年第1期42-51,共10页
针对远程光电容积描记法(rPPG)在非接触式血氧饱和度(SpO2)测量中存在的时空特征建模不足以及复杂场景下鲁棒性差的挑战,提出了一种趋势感知时空融合网络(trend-aware spatio-temporal fusion network,TAST-Net).该网络通过一个创新的... 针对远程光电容积描记法(rPPG)在非接触式血氧饱和度(SpO2)测量中存在的时空特征建模不足以及复杂场景下鲁棒性差的挑战,提出了一种趋势感知时空融合网络(trend-aware spatio-temporal fusion network,TAST-Net).该网络通过一个创新的双路融合架构,将3D卷积神经网络(3D CNN)分支提取的局部生理特征与ViViT(video vision transformer)分支捕捉的全局时空依赖进行协同融合.为增强模型对信号动态变化的敏感性,设计了一种结合均方误差与皮尔逊相关性损失的加权组合损失函数.在2个公开数据集上的实验结果表明,TAST-Net表现出优秀的性能:在PURE(pulse rate estimation)数据集上均方根误差(e_(RMS))为0.53%,平均绝对误差(e_(MA))为0.37%,皮尔逊相关系数(R)为0.96;在更具挑战性的VIPL-HR(visual information processing and learning-heart rate)数据集上,e_(RMS)为0.84%,e_(MA)为0.57%,R为0.82,其综合性能优于其他对比方法.研究结果表明,TAST-Net为从面部视频中实现准确、稳健的SpO_(2)估计提供了一个有效的方案,并验证了融合局部与全局特征策略在rPPG信号处理中的有效性. 展开更多
关键词 远程光电容积描记法 深度学习 非接触 血氧饱和度估计 面部视频
在线阅读 下载PDF
全局-局部特征融合驱动的抑郁症筛查方法研究
6
作者 张嗣勇 邱杰凡 +3 位作者 赵祥云 肖克江 陈晓甫 毛科技 《电子与信息学报》 北大核心 2026年第1期321-334,共14页
目前,基于机器视觉的抑郁症识别筛查的方法往往忽略脸部的局部特征,在实际应用中一旦脸部被部分遮挡,会严重影响筛查的准确性,甚至无法进行有效筛查。为此,该文提出一种边缘视觉的抑郁症筛查方法,该方法通过构建一个全局-局部融合注意... 目前,基于机器视觉的抑郁症识别筛查的方法往往忽略脸部的局部特征,在实际应用中一旦脸部被部分遮挡,会严重影响筛查的准确性,甚至无法进行有效筛查。为此,该文提出一种边缘视觉的抑郁症筛查方法,该方法通过构建一个全局-局部融合注意力网络同步识别被筛查对象的面部表情和眼部局部特征。为了提高对眼部局部特征的提取能力,该文在网络中引入卷积注意力模块,强化对眼动轨迹特征的捕捉能力。实验结果表明,该方法在抑郁症识别上表现优异,在自建数据集上(包含脸部遮挡情况)的精确率、召回率、F1分数分别达0.76,0.78和0.77,较最新方法召回率提升10.76%,在AVEC2013和AVEC2014数据集上,平均绝对误差(MAE)分别低至5.74和5.79,较最新方法提升3.53%和1.2%。此外,通过可视化分析直观展现了模型对面部不同区域的关注度,进一步验证了方法的有效性和合理性。该方法部署于边缘设备后,单帧平均处理时延不超过56.14ms,为抑郁症筛查提供了新方案。 展开更多
关键词 抑郁症筛查 短序窗口划分 全局-局部特征融合 人脸图像 边缘视觉
在线阅读 下载PDF
Non-Contact Method of Heart Rate Measurement Based on Facial Tracking 被引量:2
7
作者 Ruqiang Huang Weihua Su +1 位作者 Shiyue Zhang Wei Qin 《Journal of Computer and Communications》 2019年第5期17-28,共12页
Image photoplethysmography can realize low-cost and easy-to-operate non-contact heart rate detection from the facial video, and effectively overcome the limitations of traditional contact method in daily vital sign mo... Image photoplethysmography can realize low-cost and easy-to-operate non-contact heart rate detection from the facial video, and effectively overcome the limitations of traditional contact method in daily vital sign monitoring. However, it is hard to obtain more accurate heart rate detection values under the conditions of subject’s facial movement, weak ambient light intensity and long detection distance, etc. In this article, a non-contact heart rate detection method based on face tracking is proposed, which can effectively improve the accuracy of non-contact heart rate detection method in practical application. The corner tracker algorithm is used to track the human face to reduce the motion artifact caused by the movement of the subject’s face and enhance the use value of the signal. And the maximum ratio combining algorithm is used to weight the pixel space pulse wave signal in the facial region of interest to improve the pulse wave extraction accuracy. We analyzed the facial images collected under different experimental distances and action states. This proposed method significantly reduces the error rate compared with the independent component analysis method. After theoretical analysis and experimental verification, this method effectively reduces the error rate under different experimental variables and has good consistency with the heart rate value collected by the medical physiological vest. This method will help to improve the accuracy of non-contact heart rate detection in complex environments. 展开更多
关键词 HEART Rate Non-Contacting MAXIMUM RATIO COMBINING facial video
暂未订购
基于密集卷积生成对抗网络与关键帧的说话人脸视频生成优化算法 被引量:3
8
作者 季渊 虞雅淇 《吉林大学学报(工学版)》 北大核心 2025年第3期986-992,共7页
为了提高说话人脸生成视频的真实感和自然度,更准确地反映说话人的语音内容和面部表情,提出了基于密集卷积生成对抗网络与关键帧的说话人脸视频生成优化算法。采用边界框回归法修正人脸的候选窗,基于关键帧比对人脸特征,获取说话人脸信... 为了提高说话人脸生成视频的真实感和自然度,更准确地反映说话人的语音内容和面部表情,提出了基于密集卷积生成对抗网络与关键帧的说话人脸视频生成优化算法。采用边界框回归法修正人脸的候选窗,基于关键帧比对人脸特征,获取说话人脸信息。通过验证集搜索出最优的超参量集合,建立标准正态分布的随机特征矢量,计算判别器内部参量,生成说话人脸视频。使用判别网络的目标函数,修正先验信息,选取符合真实的修复结果,实现说话人脸视频生成优化。实验证明:本文算法的检测召回率高于96%,SSIM、PNSR和LMD指标分别为0.99、34.7 dB和2.2 pixel,视频真实性为74.1%,具有较好的视频生成效果。 展开更多
关键词 密集卷积生成对抗网络 关键帧 说话人脸视频生成 编码速率 先验损失
原文传递
以情促学:教师面部表情对视频学习的促进作用 被引量:1
9
作者 乔沛桦 匡子翌 王福兴 《心理科学进展》 北大核心 2025年第4期690-703,共14页
教师的面部表情(积极、消极、中性)作为社会线索,可以展现出教师的情绪状态,在视频学习中起着重要的作用。目前研究主要从多媒体学习的认知−情感−社会理论、准社会互动理论、情绪感染理论以及认知负荷理论的角度来解释面部表情对视频学... 教师的面部表情(积极、消极、中性)作为社会线索,可以展现出教师的情绪状态,在视频学习中起着重要的作用。目前研究主要从多媒体学习的认知−情感−社会理论、准社会互动理论、情绪感染理论以及认知负荷理论的角度来解释面部表情对视频学习的影响。汇总已有研究发现,教师的面部表情可以提高学习效果(d保持=0.53;d迁移=0.41);增加学习者注视学习内容(d注视学习内容时间=0.26)和教师面部(d注视教师面部时间=0.30)的时间;提高学习动机(d学习动机=0.90)、准社会互动(d准社会互动=0.23)、情绪唤醒度(d唤醒度=0.84)和感知积极情绪(d积极情绪=0.55),但对认知负荷的影响较微弱(d认知负荷=−0.17)。未来研究仍需要从实验设计、调节变量以及内部机制等方面进一步考察教师面部表情在视频学习中的作用。 展开更多
关键词 面部表情 教师 视频学习 多媒体学习
在线阅读 下载PDF
基于面部动作不一致的压缩深度伪造视频检测方法 被引量:2
10
作者 王玉梅 胡娟 +3 位作者 武晓帅 肖靖 陈雁翔 廖鑫 《重庆邮电大学学报(自然科学版)》 北大核心 2025年第3期445-452,共8页
为准确高效地识别社交网络中的压缩深度伪造视频,通过借鉴表情识别领域的知识,基于对人脸面部动作的分析,挖掘伪造视频中五官区域不规则的运动,提出了一种基于面部动作不一致的压缩深度伪造视频检测方法。鉴于人物的面部运动时,低维的... 为准确高效地识别社交网络中的压缩深度伪造视频,通过借鉴表情识别领域的知识,基于对人脸面部动作的分析,挖掘伪造视频中五官区域不规则的运动,提出了一种基于面部动作不一致的压缩深度伪造视频检测方法。鉴于人物的面部运动时,低维的角度特征能直接反应五官区域的运动。从人脸视频中提取精确的面部特征点,通过对五官区域建模从而构建五官角度特征,并从运动和速度2种模式对角度特征进行分析,用长短期记忆网络捕获五官区域的不规则运动。实验结果表明,所提出的检测方法能够有效辨别压缩视频的真假,且对不同的压缩因子具有较好的鲁棒性。 展开更多
关键词 社交网络压缩视频 压缩深度伪造视频 深度伪造视频检测 面部动作不一致性
在线阅读 下载PDF
教学视频中教师面部表情一致性对学习者学习的影响 被引量:1
11
作者 黄雪玫 童梦洁 +2 位作者 王君杰 吴长城 皮忠玲 《现代教育技术》 2025年第8期127-136,共10页
教学视频凭借易获取性、双通道呈现的特点,已成为在线学习的主要形式。教师面部表情被认为是设计教学视频需考虑的重要因素,而以往研究虽然探讨了教师一致的面部表情对学习者学习的影响,但缺乏对教师交替变化的面部表情如何影响视频学... 教学视频凭借易获取性、双通道呈现的特点,已成为在线学习的主要形式。教师面部表情被认为是设计教学视频需考虑的重要因素,而以往研究虽然探讨了教师一致的面部表情对学习者学习的影响,但缺乏对教师交替变化的面部表情如何影响视频学习的研究。对此,文章设计了教师情绪效价感知、学习效果、注意分配、注意波动四个指标,通过单因素两水平被试内眼动实验,探究了教学视频中教师面部表情一致性对学习者学习的影响,结果显示:观看教师面部表情一致积极的教学视频后,学习者感知到了教师更多的积极情绪、学习效果更好、对学习内容区投入的总注视时间更多而对教师区投入的总注视时间更少;在视频学习的前期,教师面部表情一致性均不会影响学习者对学习内容区和教师区投入的注视时间,但在视频学习的后期,学习者在观看教师面部表情发生变化的视频时会比观看教师面部表情一致积极的教学视频时对学习内容区投入更少时间、对教师区投入更多时间。文章的研究揭示了教师面部表情动态变化对在线学习效果的影响机制,为在线教学视频设计提供了重要依据,所得研究结论可为提升远程教育质量、优化教师视频录制策略提供参考,也给教学实践带来了重要启示。 展开更多
关键词 教学视频 面部表情 学习效果 眼动追踪
在线阅读 下载PDF
融合面部外观与生理表征的作业人员疲劳判别
12
作者 颜文琴 郑秀娟 +4 位作者 殷中平 张学刚 贾明 刘伯相 涂海燕 《电子测量与仪器学报》 北大核心 2025年第10期12-21,共10页
在工业生产中,长时间和高强度的作业易导致人员疲劳,从而增加安全事故的风险。已有研究表明,接触式生理特征能有效表征疲劳状态,但在工业环境中采用接触式设备获取生理信号进行疲劳判别会干扰正常作业。因此,基于监控视频的疲劳判别成... 在工业生产中,长时间和高强度的作业易导致人员疲劳,从而增加安全事故的风险。已有研究表明,接触式生理特征能有效表征疲劳状态,但在工业环境中采用接触式设备获取生理信号进行疲劳判别会干扰正常作业。因此,基于监控视频的疲劳判别成为更实际的选择,然而现有方法主要关注嘴部和眼部特征,未能全面反映疲劳状态。为此,提出了基于视频的融合面部外观与生理表征的无干扰式疲劳判别方法,通过双支路网络模型实现对作业人员疲劳判别。首先,在视频中定位面部感兴趣区域并进行子区域划分,通过提取皮肤反射光变化获取视频隐含的生理表征信息,进而构建生理时空图。接着,搭建双支路三维卷积网络分别提取面部外观和生理表征特征。最后,将两者特征融合并输入全连接层,以映射最终的疲劳判别结果。通过模拟工业生产任务获取的疲劳数据集验证了所提方法的性能。实验结果表明,基于视频的融合面部外观与生理表征的疲劳判别准确率达到88%,相较于现有技术具有更高的准确性和更强的现场适用性。 展开更多
关键词 疲劳检测 视频 面部外观 生理时空图 无干扰
原文传递
轨道交通视频监控联网共享平台方案研究 被引量:6
13
作者 林建平 《铁路通信信号工程技术》 2025年第2期98-103,共6页
城市轨道交通线网规模不断扩大,公安视频监控与运营视频监控分开建设的弊端凸显,系统不能共享,造成资源浪费,平台之间对接难、网络复杂、不易扩容。从轨道交通视频监控系统服务对象以及使用功能着手,分析得出轨道交通具备深度融合的条件... 城市轨道交通线网规模不断扩大,公安视频监控与运营视频监控分开建设的弊端凸显,系统不能共享,造成资源浪费,平台之间对接难、网络复杂、不易扩容。从轨道交通视频监控系统服务对象以及使用功能着手,分析得出轨道交通具备深度融合的条件,通过建设轨道交通视频监控联网共享平台的方案,构建线网、线路两级平台,将公安分局、派出所以及线网运营指挥中心作为联网共享平台用户,车站警务室、线路运营调度作为线路平台用户,实现公安与运营深度共享视频监控系统,简化网络结构,减少平台对接次数;同时,共享平台的方案为构建运营和公安相对独立的人脸分析比对系统创造条件,实现各自的人脸数据应用功能。 展开更多
关键词 视频监控 联网共享平台 视频专网 人脸识别 智慧地铁
在线阅读 下载PDF
基于深度学习的人脸动画驱动方法综述 被引量:1
14
作者 刘龙 李浩生 +3 位作者 张梦璇 杜莹 常雅淇 张文博 《西安电子科技大学学报》 北大核心 2025年第2期57-84,共28页
人脸动画技术旨在通过输入源数据(如音频或视频)动态驱动静态人脸图像,以产生逼真的动画效果。深度学习技术的发展极大地推动了人脸动画技术的进步,深度学习模型能够学习并捕捉面部特征与运动规律,通过自动化驱动过程实现具有真实性与... 人脸动画技术旨在通过输入源数据(如音频或视频)动态驱动静态人脸图像,以产生逼真的动画效果。深度学习技术的发展极大地推动了人脸动画技术的进步,深度学习模型能够学习并捕捉面部特征与运动规律,通过自动化驱动过程实现具有真实性与个性化表达的人脸动画。目前,基于深度学习的人脸动画领域已有大量研究成果,但现有的综述多聚焦于特定技术或单一模态的驱动源,文中系统地综述了基于深度学习的人脸动画驱动技术,分别按照音视频驱动面部动画的流程总结研究现状。首先,介绍了从输入源数据提取面部特征的一般步骤;其次,深入分析了特征提取与动画合成的关键技术,并对比不同深度学习网络架构在各步骤的优劣;最后,总结不同架构下的动画生成方法并比较异同。此外,还列举了人脸动画方法常用的数据集及评价指标,总结了领域内现存挑战,进一步阐述了未来工作的发展趋势并做出一些展望,旨在为研究人员提供深度学习在人脸动画领域应用的更全面视角。 展开更多
关键词 人脸动画 深度学习 音视频驱动 虚拟人 研究综述
在线阅读 下载PDF
面向视频侦查应用的人脸年龄转换技术
15
作者 孙吏功 王辰灏 +1 位作者 冯嘉琪 杨洪臣 《计算机仿真》 2025年第7期21-27,共7页
在公安机关开展侦查活动时,会有将视频中人脸年龄进行转换的需求。然而当前人脸年龄转换技术仅适用于单张人脸图像处理。因此提出了一种基于生成对抗网络(GAN)的视频人脸年龄转换技术,通过年龄转换技术协助公安机关在侦查工作中迅速识... 在公安机关开展侦查活动时,会有将视频中人脸年龄进行转换的需求。然而当前人脸年龄转换技术仅适用于单张人脸图像处理。因此提出了一种基于生成对抗网络(GAN)的视频人脸年龄转换技术,通过年龄转换技术协助公安机关在侦查工作中迅速识别和追踪犯罪嫌疑人从而破获案件,将这一技术扩展至视频侦查领域。首先对视频预处理,接着采用生成对抗网络进行年龄转换,最终通过逆向处理将年龄转换后的人脸图像整合成高质量人像视频。在大量人像测试集和视频人像样本上进行比较试验。实验结果表明,提出的人脸年龄转换技术在高度复杂的应用场景中展现了出色的年龄转换效果,适用于侦查应用。 展开更多
关键词 视频侦查 人脸年龄转换 对抗神经网络 视频图像处理
在线阅读 下载PDF
音频驱动的说话人面部视频生成与鉴别综述
16
作者 乐铮 胡永婷 徐勇 《计算机研究与发展》 北大核心 2025年第10期2523-2544,共22页
随着人工智能生成模型和深度伪造的迅速兴起,利用各种方法生成人脸说话视频的技术日益成熟,其中音频驱动的说话人面部视频生成方法因其生成效果的逼真自然而备受瞩目.该类方法利用音频作为驱动源,结合图片或视频素材,用以合成与输入音... 随着人工智能生成模型和深度伪造的迅速兴起,利用各种方法生成人脸说话视频的技术日益成熟,其中音频驱动的说话人面部视频生成方法因其生成效果的逼真自然而备受瞩目.该类方法利用音频作为驱动源,结合图片或视频素材,用以合成与输入音频口型同步的目标角色讲话视频.目前,相应的技术已经被广泛应用于虚拟主播、游戏动漫、影视剧制作等内容创作领域,并展现出广阔的发展前景.然而,这些技术的潜在负面影响也日益显现,若被不当利用或滥用,极有可能触发严重的政治和经济后果.背景下,针对面部伪造视频的鉴别研究应运而生,主要通过分析单视频帧的真实性或视频帧序列的时空一致性来评估视频的真实性.首先,依据时间脉络及基础模型的发展轨迹,系统性地剖析了音频驱动面部视频生成任务的经典算法与最新研究成果.其次,详尽列举了该任务领域内常用的数据集及评估标准,并从多个维度出发,对这些数据集与标准进行了全面深入的对比分析.紧接着,针对伪造面部视频鉴别任务,对鉴别技术所针对的对象(即单帧或多帧)进行了细致的分类与归纳,同时,也对其常用的数据集及评估标准进行了系统的总结与梳理.最后,展望了该研究领域面临的挑战与未来的发展方向,旨在为后续的相关研究提供有价值的参考与坚实的支撑. 展开更多
关键词 深度学习 深度伪造 音频驱动 说话人面部视频生成 伪造脸部视频鉴别
在线阅读 下载PDF
结合图像篡改检测的人脸光照一致性增强方法
17
作者 何云飞 祝慧荣 +1 位作者 金鑫 张艺浩 《北京电子科技学院学报》 2025年第4期92-102,共11页
为了提升视频聊天中人物与背景的光照一致性,提出了一种通过环境光估计和光照迁移进行人脸重打光的方法。该方法通过使用Diffusionlight从一张低动态范围(LDR)背景中提取HDR环境光图,并用DECA构建人脸3D模型,再将提取的环境光与3D渲染... 为了提升视频聊天中人物与背景的光照一致性,提出了一种通过环境光估计和光照迁移进行人脸重打光的方法。该方法通过使用Diffusionlight从一张低动态范围(LDR)背景中提取HDR环境光图,并用DECA构建人脸3D模型,再将提取的环境光与3D渲染器混合,能够实现较为自然的重光照效果。同时设计了一种基于边缘保持滤波器的光照迁移算法以满足实时的要求,并且将作为参考的重新光照图和人脸进行混合以替换目标图上的光照层。该方法的图像处理时间约为0.7秒,在Trufor图像篡改检测中得分表现良好,符合物理一致性且真实可信。 展开更多
关键词 视频会议重光照 光照估计 人脸光照迁移 图像篡改检测(TruFor)
在线阅读 下载PDF
基于人物识别的智慧视频监控研究
18
作者 邵艳玲 《移动信息》 2025年第1期277-279,共3页
文中结合人物识别技术、监控摄像头设置、实时监测系统、定期优化与更新以及建立人物识别模型等关键措施,提出了一套完整的智慧视频监控方案,为各类场所的安全管理提供了更加智能、高效的解决方案,具有重要的应用价值。
关键词 智慧视频 机房监控 人物识别 人脸识别
在线阅读 下载PDF
中国面部表情视频系统的初步建立 被引量:39
19
作者 杜经纶 姚志剑 +3 位作者 谢世平 史家波 曹燕翔 滕皋军 《中国心理卫生杂志》 CSSCI CSCD 北大核心 2007年第5期333-337,共5页
目的:建立本土化的中国面部表情视频系统(chinese facial expression video system,CFEVS)以增加情绪研究的取材范围。方法:录制强度分为三等级的喜悦、悲伤、惊奇、恐惧、愤怒、厌恶及中性(无表情及咀嚼动作两种)等面部表情视频片段,... 目的:建立本土化的中国面部表情视频系统(chinese facial expression video system,CFEVS)以增加情绪研究的取材范围。方法:录制强度分为三等级的喜悦、悲伤、惊奇、恐惧、愤怒、厌恶及中性(无表情及咀嚼动作两种)等面部表情视频片段,经两轮粗选后,请50名中国大学生对剩余视频片段的表情类型、愉悦度、唤醒度及表演者的长相进行自我报告式评定。将表情类型、愉悦度、唤醒度一致性高且表情类型与愉悦度相一致的片段纳入CFEVS,做分布分析,同时分析评测者性别、表演者长相对愉悦度、唤醒度分值的影响。结果:纳入CFEVS的喜悦表情男18女43共61个,悲伤表情男23女28共51个,无表情中性男13女17共31个,咀嚼中性男7女17共24个。散点图显示CFEVS在愉悦度及唤醒度上分布较为广泛。方差分析表明评测者性别及表演者长相对视频片段的愉悦度、唤醒度的影响与其表情类型有关。结论:本研究初步建立了一个拥有喜悦、悲伤及中性表情的CFEVS,并发现评测者的性别及表演者的长相可影响实验结果。 展开更多
关键词 面部表情 情绪 中国面部表情视频系统 实验室研究 CFEVS 动态刺激材料
在线阅读 下载PDF
基于Kanade-Lucas-Tomasi算法的人脸特征点跟踪方法 被引量:24
20
作者 段鸿 程义民 +1 位作者 王以孝 蔡尚书 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2004年第3期279-283,共5页
与传统的在人面部画上标识点的特征点跟踪方法不同 ,KLT(Kanade Lucas Tomasi)算法可以从未加标识点的正面人像视频系列中通过特征纹理信息直接获取面部某些特征点的位移 在KLT算法中加入了基于人脸统计信息的经验约束 。
关键词 计算机图形学 人脸特征 特征点跟踪方法 Kanade-Lucas-Tomasi算法 虚拟人 视频跟踪 视频分析
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部