期刊文献+
共找到576篇文章
< 1 2 29 >
每页显示 20 50 100
Web-based mixed reality video fusion with remote rendering
1
作者 Qiang ZHOU Zhong ZHOU 《Virtual Reality & Intelligent Hardware》 2023年第2期188-199,共12页
Background Mixed reality(MR)video fusion systems merge video imagery with 3D scenes to make the scene more realistic and help users understand the video content and temporal–spatial correlation between them,reducing ... Background Mixed reality(MR)video fusion systems merge video imagery with 3D scenes to make the scene more realistic and help users understand the video content and temporal–spatial correlation between them,reducing the user′s cognitive load.MR video fusion are used in various applications;however,video fusion systems require powerful client machines because video streaming delivery,stitching,and rendering are computationally intensive.Moreover,huge bandwidth usage is another critical factor that affects the scalability of video-fusion systems.Methods Our framework proposes a fusion method for dynamically projecting video images into 3D models as textures.Results Several experiments on different metrics demonstrate the effectiveness of the proposed framework.Conclusions The framework proposed in this study can overcome client limitations by utilizing remote rendering.Furthermore,the framework we built is based on browsers.Therefore,the user can test the MR video fusion system with a laptop or tablet without installing any additional plug-ins or application programs. 展开更多
关键词 Mixed reality video fusion WebRTC Remote rendering
在线阅读 下载PDF
Interactive System for Video Summarization Based on Multimodal Fusion 被引量:1
2
作者 Zheng Li Xiaobing Du +2 位作者 Cuixia Ma Yanfeng Li Hongan Wang 《Journal of Beijing Institute of Technology》 EI CAS 2019年第1期27-34,共8页
Biography videos based on life performances of prominent figures in history aim to describe great mens' life.In this paper,a novel interactive video summarization for biography video based on multimodal fusion is ... Biography videos based on life performances of prominent figures in history aim to describe great mens' life.In this paper,a novel interactive video summarization for biography video based on multimodal fusion is proposed,which is a novel approach of visualizing the specific features for biography video and interacting with video content by taking advantage of the ability of multimodality.In general,a story of movie progresses by dialogues of characters and the subtitles are produced with the basis on the dialogues which contains all the information related to the movie.In this paper,JGibbsLDA is applied to extract key words from subtitles because the biography video consists of different aspects to depict the characters' whole life.In terms of fusing keywords and key-frames,affinity propagation is adopted to calculate the similarity between each key-frame cluster and keywords.Through the method mentioned above,a video summarization is presented based on multimodal fusion which describes video content more completely.In order to reduce the time spent on searching the interest video content and get the relationship between main characters,a kind of map is adopted to visualize video content and interact with video summarization.An experiment is conducted to evaluate video summarization and the results demonstrate that this system can formally facilitate the exploration of video content while improving interaction and finding events of interest efficiently. 展开更多
关键词 video VISUALIZATION INTERACTION MULTIMODAL fusion video SUMMARIZATION
在线阅读 下载PDF
基于时间信息建模和特征融合的多模态藏酋猴行为识别
3
作者 薛维刚 谭迎春 +4 位作者 施小刚 程跃红 张晋东 李德生 宁纪锋 《计算机工程与应用》 北大核心 2026年第5期230-241,共12页
在野外环境中,准确识别藏酋猴的行为对于保护濒危物种、维护生态平衡以及研究人类进化具有重要意义。然而,与人类行为识别方法的广泛研究相比,由于野生藏酋猴数据难以获取,目前大多数研究主要集中在实验室环境中,野外环境下的研究较少... 在野外环境中,准确识别藏酋猴的行为对于保护濒危物种、维护生态平衡以及研究人类进化具有重要意义。然而,与人类行为识别方法的广泛研究相比,由于野生藏酋猴数据难以获取,目前大多数研究主要集中在实验室环境中,野外环境下的研究较少。基于ILA行为识别模型,结合藏酋猴行为特点,提出了一种用于藏酋猴行为识别的方法,通过增强时间信息建模能力、融合图像和视频特征以及充分利用文本模态信息,实现野外环境下藏酋猴的行为识别。由于藏酋猴的行为变化迅速,具有高度的动态特征,因此采用ATM(arithmetic temporal module),通过对视频帧特征进行基本算术运算捕捉时间线索,增强模型对时间信息建模的能力。由于藏酋猴的行为具有复杂性和相似性,且其行为发生的背景与行为本身有着密切关系,因此设计特征融合机制,有效整合帧级图像特征和视频全局特征,提升模型对视觉特征的表达能力。设计适当的文本提示模板,充分发挥文本模态信息的作用,有效利用大规模视觉-语言预训练模型的先验知识提高模型对视频内容的理解能力,从而进一步提高野外环境下藏酋猴行为识别的准确性和鲁棒性。在LoTE-Animal数据集的藏酋猴数据集上进行的实验结果表明,所提模型在ViT-B/16架构上的Top-1正确率上达到了80.00%,相较于标准ILA模型提高了10.20个百分点,并显著优于现有代表性的行为识别模型,同时消融实验验证了所提改进模块的有效性。所提方法为野外环境下藏酋猴的行为识别提供了一种有效的解决方案。 展开更多
关键词 行为识别 多模态学习 藏酋猴 时间建模 图像视频特征融合
在线阅读 下载PDF
基于Morlet小波与跨层注意力网络的血氧估计方法
4
作者 杨玉婷 于炯 +1 位作者 褚征 冯新龙 《微电子学与计算机》 2026年第2期161-171,共11页
在基于视频的脉搏血氧饱和度监测中,现有基于深度学习的方法未充分考虑光谱通道的表征权重和时域依赖的动态扩展问题,针对这些问题,提出基于Morlet小波和跨层注意力特征融合网络的方法。首先,通过Morlet小波对输入信号进行滤波重建,利... 在基于视频的脉搏血氧饱和度监测中,现有基于深度学习的方法未充分考虑光谱通道的表征权重和时域依赖的动态扩展问题,针对这些问题,提出基于Morlet小波和跨层注意力特征融合网络的方法。首先,通过Morlet小波对输入信号进行滤波重建,利用小波变换的时频局部化特性,设计高低频阈值滤波策略去除运动伪影和环境光噪声,并提取与脉搏血氧饱和度相关的关键频率成分。其次,将滤波重建后的RGB时间序列输入到三通道并行的跨层融合注意力网络,以捕捉通道间的加权表征,并通过跨层注意力机制提取长距离时序依赖特征,从而提升脉搏血氧饱和度监测准确性。实验在MTHS指尖视频数据集和BIDMC传统PPG信号数据集上进行验证,并与Residual FCN、ConvNeXt V2、WTConv和ResNet18等经典模型进行对比。最后,消融实验进一步验证了提出的方法各模块的有效性,验证了Morlet小波滤波和跨层融合注意力网络对脉搏血氧饱和度预测性能的显著贡献。结果表明:所提方法的MAE和RMSE分别达到1.04%和1.32%,取得了最优表现;所提方法在脉搏血氧饱和度监测方面具有显著优势,提供了一种提升远程健康监测准确性的有效方案。 展开更多
关键词 血氧饱和度 Morlet小波算子 点积注意力 跨层融合 指尖视频
在线阅读 下载PDF
全局-局部特征融合驱动的抑郁症筛查方法研究
5
作者 张嗣勇 邱杰凡 +3 位作者 赵祥云 肖克江 陈晓甫 毛科技 《电子与信息学报》 北大核心 2026年第1期321-334,共14页
目前,基于机器视觉的抑郁症识别筛查的方法往往忽略脸部的局部特征,在实际应用中一旦脸部被部分遮挡,会严重影响筛查的准确性,甚至无法进行有效筛查。为此,该文提出一种边缘视觉的抑郁症筛查方法,该方法通过构建一个全局-局部融合注意... 目前,基于机器视觉的抑郁症识别筛查的方法往往忽略脸部的局部特征,在实际应用中一旦脸部被部分遮挡,会严重影响筛查的准确性,甚至无法进行有效筛查。为此,该文提出一种边缘视觉的抑郁症筛查方法,该方法通过构建一个全局-局部融合注意力网络同步识别被筛查对象的面部表情和眼部局部特征。为了提高对眼部局部特征的提取能力,该文在网络中引入卷积注意力模块,强化对眼动轨迹特征的捕捉能力。实验结果表明,该方法在抑郁症识别上表现优异,在自建数据集上(包含脸部遮挡情况)的精确率、召回率、F1分数分别达0.76,0.78和0.77,较最新方法召回率提升10.76%,在AVEC2013和AVEC2014数据集上,平均绝对误差(MAE)分别低至5.74和5.79,较最新方法提升3.53%和1.2%。此外,通过可视化分析直观展现了模型对面部不同区域的关注度,进一步验证了方法的有效性和合理性。该方法部署于边缘设备后,单帧平均处理时延不超过56.14ms,为抑郁症筛查提供了新方案。 展开更多
关键词 抑郁症筛查 短序窗口划分 全局-局部特征融合 人脸图像 边缘视觉
在线阅读 下载PDF
基于数字孪生与视频融合的航道表面流态实时监测方法研究
6
作者 闵小飞 韩越 +1 位作者 李明伟 王宇田 《水运工程》 2026年第1期217-226,共10页
针对航道表面流态实时监测中存在的多源信息融合困难、视频几何畸变校正精度不足以及三维场景动态映射不准确等关键技术难题,开展基于数字孪生与视频融合的实时监测方法研究。通过开发全景实时视频监控耦合技术,解决了异构设备数据兼容... 针对航道表面流态实时监测中存在的多源信息融合困难、视频几何畸变校正精度不足以及三维场景动态映射不准确等关键技术难题,开展基于数字孪生与视频融合的实时监测方法研究。通过开发全景实时视频监控耦合技术,解决了异构设备数据兼容性问题,视频流接入延迟降低至0.5 s以内;通过开发表面流态监控视频的智能融合算法,实现监控画面与三维场景的像素级匹配误差小于0.1 px。在长江三峡航道开展表面流态智能感知系统的现场实测,实现急流、回流等典型流态的自动识别准确率达95.3%,流速测量误差控制在±0.05 m/s以内。结果表明,所提出的智能融合算法与系统架构显著提升航道流态监测的实时性与准确性,能够为复杂水文条件下的通航安全管理提供可靠的技术支撑。 展开更多
关键词 数字孪生 视频融合 流态监测 几何校正
在线阅读 下载PDF
监控视频流与三维场景自动快速融合方法
7
作者 刘松 王荟奥 +3 位作者 胡伟路 杨恒 王凯 熊嘉诚 《科技创新与应用》 2026年第5期148-151,共4页
针对当前国内视频监控系统存在的多协议异构性、空间信息缺失及计算资源瓶颈等问题,该研究提出一种基于网页视频流解析与三维材质系统的自动化融合方法。该方法创新性地构建分布式视频处理架构,通过协议适配层实现多源视频流(包括RTSP与... 针对当前国内视频监控系统存在的多协议异构性、空间信息缺失及计算资源瓶颈等问题,该研究提出一种基于网页视频流解析与三维材质系统的自动化融合方法。该方法创新性地构建分布式视频处理架构,通过协议适配层实现多源视频流(包括RTSP与GB/T 28181等)的统一解析,将计算密集型的视频解码任务卸载至边缘节点处理,有效降低主服务器30%以上的负载压力。关键技术突破包括,开发动态帧截取-纹理转换机制,实现视频帧到三维纹理的实时映射;建立基于传感器数据的空间配准模型,通过融合摄像头位姿参数与三维精细模型,降低投影误差。实验表明,相较传统投影方式,该方法在视频流处理中视频流可操作性、清晰度、融合时间与投影效果都有明显改善,为智慧城市、应急指挥等场景提供可靠的实时三维可视化解决方案。 展开更多
关键词 视频流 三维场景 视频投影 视频融合 自动视角
在线阅读 下载PDF
一种基于YOLOv8模型的高速公路异常事件智能分析系统研究
8
作者 柯威曳 苏吉才 +1 位作者 齐腾涛 王国相 《电子技术应用》 2026年第2期39-44,共6页
基于视频分析的事件检测系统已经在许多领域获得了成功,但是在高速公路异常事件检测领域仍旧存在漏检、误报、精度不足等问题。为了处理上述问题,针对YOLOv8进行改进,使用人工智能视频分析技术,提出一种全新的Highway-YOLOv8模型,构建... 基于视频分析的事件检测系统已经在许多领域获得了成功,但是在高速公路异常事件检测领域仍旧存在漏检、误报、精度不足等问题。为了处理上述问题,针对YOLOv8进行改进,使用人工智能视频分析技术,提出一种全新的Highway-YOLOv8模型,构建可用于高速公路异常事件检测的智能视频分析系统。首先,设计了一个全新深层通道交互空间的注意力机制(Deep Channel-by-Space Attention Mechanism),模型利用通道和空间交互信息,有效提升模型的视野感知能力;其次,由于卷积深层中容易丢失小物体信息,设计多阶段跨越融合机制(MultiStage Fusion Mechanism),提升模型的小物体检测能力;最后,采用先进的Wise-IoU损失函数替换了原有的YOLOv8损失函数,有效提升了模型的收敛速度和检测精度。实验结果表明,Highway-YOLOv8在高速公路的异常数据集上相较于原来的YOLOv8,在所有类别上mAP平均提升了2%,在车辆等一些单类别上的mAP上的提升最高达到5%,不仅显著提升了目标检测的精度,还有效减少了漏检与误检现象。 展开更多
关键词 视频分析 YOLOv8 注意力机制 多阶段融合
在线阅读 下载PDF
基于多任务学习的眼科视频特征融合与多维画像
9
作者 杜剑彤 管泽礼 薛哲 《计算机科学》 北大核心 2026年第3期383-391,共9页
针对社交网络眼科视频存在的视觉特征区分度低、文本描述口语化严重以及多模态语义异构等挑战,提出了一种基于多任务学习的眼科视频特征融合与多维画像构建方法(OVP),从非结构化的视频流与文本流中挖掘具有医学语义价值的多维特征,以实... 针对社交网络眼科视频存在的视觉特征区分度低、文本描述口语化严重以及多模态语义异构等挑战,提出了一种基于多任务学习的眼科视频特征融合与多维画像构建方法(OVP),从非结构化的视频流与文本流中挖掘具有医学语义价值的多维特征,以实现对眼科视频的精准表征。利用预训练深度残差网络提取视频关键帧的高维视觉表征,捕捉眼科图像特有的细粒度特征;提出基于眼科知识图谱的眼科视频文本特征提取方法,通过检索并融合外部实体注解与关联知识,有效弥补了社交媒体文本专业语义稀疏的问题,并结合BERT模型提取富含领域知识的文本特征;在此基础上,设计跨模态注意力融合机制,动态计算视觉与文本特征的交互权重,实现了图像信息与医学语义的深度对齐。构建多任务联合优化与眼科多维画像,协同训练视频疾病分类、传播热度预测与内容质量评估3个子任务,利用任务间的共享信息提升泛化能力。在真实眼科视频数据集上进行实验,实验结果表明,OVP方法在眼科视频疾病分类准确率、热度预测及质量评估性能上均显著优于现有基线方法,验证了该方法在复杂眼科视频特征融合与多维度画像构建方面的有效性。 展开更多
关键词 眼科视频画像 多任务学习 多模态融合 知识图谱 深度学习
在线阅读 下载PDF
视频识别技术在化工防火监督系统中的应用
10
作者 余伟 《化工管理》 2026年第1期81-84,共4页
随着化工行业的快速发展,防火监督系统的智能化和高效化成为保障生产安全的关键。为提升化工防火监督的智能化水平实现火情的早期识别与预警,文章探讨视频识别技术在化工防火监督系统中的应用,分析化工生产火灾风险及传统人工巡检的局限... 随着化工行业的快速发展,防火监督系统的智能化和高效化成为保障生产安全的关键。为提升化工防火监督的智能化水平实现火情的早期识别与预警,文章探讨视频识别技术在化工防火监督系统中的应用,分析化工生产火灾风险及传统人工巡检的局限性,阐述视频识别技术的关键构成,包括高清摄像头技术、基于卷积神经网络(CNN)的智能图像识别技术及大数据分析技术,并针对烟雾、火焰特征提出多维度识别方法及多模态信息融合的综合识别模型。系统测试结果表明,该系统在火源实时监测、定位及辅助决策等功能中表现出较高精度,检测准确率高,且能通过GIS技术规划救火路径、动态模拟火势蔓延,为化工领域构建智能化防火监督体系提供了技术参考与实践依据。 展开更多
关键词 视频识别 深度学习 火灾预警 多模态融合 化工安全
在线阅读 下载PDF
Action Recognition in Surveillance Videos with Combined Deep Network Models
11
作者 ZHANG Diankai ZHAO Rui-Wei +3 位作者 SHEN Lin CHEN Shaoxiang SUN Zhenfeng JIANG Yu-Gang 《ZTE Communications》 2016年第B12期54-60,共7页
Action recognition is an important topic in computer vision. Recently, deep learning technologies have been successfully used in lots of applications including video data for sloving recognition problems. However, mos... Action recognition is an important topic in computer vision. Recently, deep learning technologies have been successfully used in lots of applications including video data for sloving recognition problems. However, most existing deep learning based recognition frameworks are not optimized for action in the surveillance videos. In this paper, we propose a novel method to deal with the recognition of different types of actions in outdoor surveillance videos. The proposed method first introduces motion compensation to improve the detection of human target. Then, it uses three different types of deep models with single and sequenced images as inputs for the recognition of different types of actions. Finally, predictions from different models are fused with a linear model. Experimental results show that the proposed method works well on the real surveillance videos. 展开更多
关键词 action recognition deep network models model fusion surveillance video
在线阅读 下载PDF
Semantic-Based Video Retrieval Survey 被引量:1
12
作者 Shaimaa Toriah Mohamed Toriah Atef Zaki Ghalwash Aliaa A. A. Youssif 《Journal of Computer and Communications》 2018年第8期28-44,共17页
There is a tremendous growth of digital data due to the stunning progress of digital devices which facilitates capturing them. Digital data include image, text, and video. Video represents a rich source of information... There is a tremendous growth of digital data due to the stunning progress of digital devices which facilitates capturing them. Digital data include image, text, and video. Video represents a rich source of information. Thus, there is an urgent need to retrieve, organize, and automate videos. Video retrieval is a vital process in multimedia applications such as video search engines, digital museums, and video-on-demand broadcasting. In this paper, the different approaches of video retrieval are outlined and briefly categorized. Moreover, the different methods that bridge the semantic gap in video retrieval are discussed in more details. 展开更多
关键词 SEMANTIC video RETRIEVAL CONCEPT Detectors CONTEXT Based CONCEPT fusion SEMANTIC GAP
在线阅读 下载PDF
Multiple Feature Fusion in Convolutional Neural Networks for Action Recognition 被引量:5
13
作者 LI Hongyang CHEN Jun HU Ruimin 《Wuhan University Journal of Natural Sciences》 CAS CSCD 2017年第1期73-78,共6页
Action recognition is important for understanding the human behaviors in the video,and the video representation is the basis for action recognition.This paper provides a new video representation based on convolution n... Action recognition is important for understanding the human behaviors in the video,and the video representation is the basis for action recognition.This paper provides a new video representation based on convolution neural networks(CNN).For capturing human motion information in one CNN,we take both the optical flow maps and gray images as input,and combine multiple convolutional features by max pooling across frames.In another CNN,we input single color frame to capture context information.Finally,we take the top full connected layer vectors as video representation and train the classifiers by linear support vector machine.The experimental results show that the representation which integrates the optical flow maps and gray images obtains more discriminative properties than those which depend on only one element.On the most challenging data sets HMDB51 and UCF101,this video representation obtains competitive performance. 展开更多
关键词 action recognition video deep-learned representa-tion convolutional neural network feature fusion
原文传递
基于视频流数据的塔吊动态危险空间入侵监测研究
14
作者 赵平 刘飞 +1 位作者 刘倩 刘钊 《工业安全与环保》 2025年第6期66-69,共4页
为解决塔吊作业中人员进入吊装危险区域难以及时有效识别的问题,提出一种塔吊多维动态空间融合监控视频流数据下的危险区域人员入侵智能监测方法。首先构建BIM模型+视频流的底层数据,将塔吊作业区BIM多维空间模型与高视角监控视频流数... 为解决塔吊作业中人员进入吊装危险区域难以及时有效识别的问题,提出一种塔吊多维动态空间融合监控视频流数据下的危险区域人员入侵智能监测方法。首先构建BIM模型+视频流的底层数据,将塔吊作业区BIM多维空间模型与高视角监控视频流数据进行融合;然后接入开源的YOLOv5目标检测与定位算法,持续获取吊钩和人员在监控摄像机视场内的像素坐标序列,以吊钩垂直投影点为基准结合视频标定设立虚拟多维塔吊动态危险区域电子围栏,运用坐标转换技术将获取的人员轨迹坐标和围栏坐标统一转化为三维局部世界坐标;最后将以上数据同步映射于同一BIM模型中,通过判别算法实现人员入侵动态危险区域的实时有效判断。实例结果表明,该方法有效、可行,可以为塔吊作业的安全管理提供新的视角。 展开更多
关键词 视频融合 多维动态空间 YOLOv5 位置映射 入侵监测
在线阅读 下载PDF
多模态交叉注意力融合的视频动作识别
15
作者 龚安 赵宗泽 张贵临 《信息技术》 2025年第6期70-75,80,共7页
3D卷积网络作为视频动作识别的主流网络,其存在处理长时序序列能力较弱以及现有研究中过度依赖光流特征的问题。针对以上问题,提出了多模态交叉注意力融合的视频动作识别网络模型。LSTM网络作为主干网络应对3D卷积网络无法处理长时序序... 3D卷积网络作为视频动作识别的主流网络,其存在处理长时序序列能力较弱以及现有研究中过度依赖光流特征的问题。针对以上问题,提出了多模态交叉注意力融合的视频动作识别网络模型。LSTM网络作为主干网络应对3D卷积网络无法处理长时序序列的问题,提出可插拔式多模态融合概念,分别融合图像特征、光流特征、语义分割特征,通过交叉注意力机制对多模态特征进行关联建模提升多模态特征相关性的提取能力,以应对过度依赖光流的问题。实验表明,该模型在UCF101数据集准确率达到93.6%,HMDB51数据集准确率达到62.8%,相比于其他视频动作识别算法具有较好的识别准确率与性能。 展开更多
关键词 计算机科学与技术 交叉注意力机制 多模态融合 视频动作识别
在线阅读 下载PDF
基于关键帧的频域多特征融合的Deepfake视频检测
16
作者 王金伟 张玫瑰 +2 位作者 张家伟 罗向阳 马宾 《应用科学学报》 北大核心 2025年第3期451-462,共12页
现有的Deepfake视频检测方法为节约计算资源,避免数据冗余,大多随机选取视频的多帧或部分段作为检测对象,因而会降低检测对象的表征能力以及限制检测的性能。此外,现有算法在单一数据集上的检测效果良好,但在跨数据集检测时性能下降严重... 现有的Deepfake视频检测方法为节约计算资源,避免数据冗余,大多随机选取视频的多帧或部分段作为检测对象,因而会降低检测对象的表征能力以及限制检测的性能。此外,现有算法在单一数据集上的检测效果良好,但在跨数据集检测时性能下降严重,泛化能力有待进一步提升。为此,提出了一种基于关键帧的频域多特征融合的Deepfake视频检测算法。利用频域的均方误差提取关键帧作为检测对象,并将频域学习主帧的伪影特征和关键帧间的时间不一致性进行融合后输入到全连接层中,从而获得最终的检测结果。实验结果表明,所提算法在跨数据集检测任务中的性能优于现有算法,具有较强的泛化性。 展开更多
关键词 Deepfake视频检测 关键帧 频域 多特征融合
在线阅读 下载PDF
基于特征差异学习的弱监督视频异常检测算法
17
作者 唐俊 张印 +1 位作者 王科 鲍文霞 《华中科技大学学报(自然科学版)》 北大核心 2025年第5期171-177,共7页
针对现有基于多示例学习的弱监督视频异常检测算法主要侧重于学习异常示例的判别特征,而忽略了正常模式的指导信息这一问题,提出一种基于特征差异学习的视频异常检测算法.首先,构建了多尺度时间特征融合网络,提取多种时间跨度下的局部... 针对现有基于多示例学习的弱监督视频异常检测算法主要侧重于学习异常示例的判别特征,而忽略了正常模式的指导信息这一问题,提出一种基于特征差异学习的视频异常检测算法.首先,构建了多尺度时间特征融合网络,提取多种时间跨度下的局部时间依赖信息,并利用局部时间信息辅助注意力机制捕获视频片段的全局时间依赖性;然后,设计了由特征差异约束的排序损失,利用异常与正常在特征层面的关联性,将异常片段的选择定义为与正常之间的差异程度,提高选取异常片段的准确度;最后,利用排序损失和分类损失对整个网络模型进行训练.实验结果表明:所提算法在UCF-Crime和XD-Violence数据集上分别取得了86.40%和84.26%的精度,有效提升了视频异常检测性能. 展开更多
关键词 视频异常检测 多示例学习 多尺度特征融合 交叉注意力机制 特征差异学习
原文传递
水利工程视频孪生关键技术研究与应用 被引量:2
18
作者 刚轶金 夏巍 +3 位作者 孟丽萍 尚毅梓 李虎 陈虹旭 《工程建设与设计》 2025年第5期6-8,共3页
视频孪生是将视频与数字孪生融合的技术体系,是对数字孪生的实时实景升级。将视频孪生技术用在水利工程中,能提升水利工程的建设效率和管理水平,赋能国家水利工程建设和保证水利基础设施的安全,实现较好的经济效益、社会效益和生态效益... 视频孪生是将视频与数字孪生融合的技术体系,是对数字孪生的实时实景升级。将视频孪生技术用在水利工程中,能提升水利工程的建设效率和管理水平,赋能国家水利工程建设和保证水利基础设施的安全,实现较好的经济效益、社会效益和生态效益。论文提出了一种基于视频孪生技术的水利工程数字化管理平台,核心技术为三维地理信息引擎,通过整合云计算、大数据、人工智能、遥感、数字仿真等先进技术,实现流域全要素的数字映射与实时动态监控。该平台以视频孪生为核心,融合“3DGIS+BIM+Video”技术,能够将大规模实时监控视频与地理信息进行时空统一,从而解决了传统监控视频位置不明确、画面分散不直观等问题,提升了水利工程现场态势的精准掌控与直观管理。论文所提出的水利工程视频孪生技术架构不仅提升了水利工程的监测精度与管理效率,也为水利行业的数字化、智能化转型提供了重要支撑。 展开更多
关键词 视频孪生 虚实融合 知识图谱
在线阅读 下载PDF
一种监控视频与三维空间信息动态精准融合方法
19
作者 承达瑜 武择鹏 +1 位作者 朱秀丽 侯东阳 《测绘科学》 北大核心 2025年第7期83-94,共12页
针对当前三维场景下监控视频与空间信息融合动态性差、精度低的问题,基于直接线性变换与图像动态匹配原理,提出一种监控视频与三维空间信息动态融合的方法。通过设置预设帧构建监控视频初始图像与三维空间的映射关系,并依据视频图像平... 针对当前三维场景下监控视频与空间信息融合动态性差、精度低的问题,基于直接线性变换与图像动态匹配原理,提出一种监控视频与三维空间信息动态融合的方法。通过设置预设帧构建监控视频初始图像与三维空间的映射关系,并依据视频图像平移、俯仰和缩放的值建立图像索引;在实时监控时,采用加速鲁棒特征算法进行图像匹配,获取控制点;针对监控图像变化时三维空间映射控制点个数不足的情况,提出了大、小尺度场景映射策略;采用直接线性变换算法,实现了三维空间信息与监控视频的动态融合。为了验证方法的正确性,以海康威视球形摄像机为采集设备,选取某高校平坦地面和坡地的区域进行实验验证与方法对比。结果表明,该方法在相机任意平移、俯仰和缩放的状态下能够实现动态精准的融合三维空间信息,误差在13个像素以内,满足实际应用场景。 展开更多
关键词 PTZ相机 视频融合 直接线性变换 改进SURF算法 动态映射策略
原文传递
上一页 1 2 29 下一页 到第
使用帮助 返回顶部