期刊文献+
共找到246篇文章
< 1 2 13 >
每页显示 20 50 100
Iterative geolocation based on cross-view image registration(IGCIR)for long-range targets
1
作者 Fangchao ZHAI Qinghua ZENG +1 位作者 Jie LI Ziqi JIN 《Chinese Journal of Aeronautics》 2025年第7期479-492,共14页
The geolocation of ground targets by airborne image sensors is an important task for unmanned aerial vehicles or surveillance aircraft.This paper proposes an Iterative Geolocation based on Cross-view Image Registratio... The geolocation of ground targets by airborne image sensors is an important task for unmanned aerial vehicles or surveillance aircraft.This paper proposes an Iterative Geolocation based on Cross-view Image Registration(IGCIR)that can provide real-time target location results with high precision.The proposed method has two key features.First,a cross-view image registration process is introduced,including a projective transformation and a two-stage multi-sensor registration.This process utilizes both gradient information and phase information of cross-view images.This allows the registration process to reach a good balance between matching precision and computational efficiency.By matching the airborne camera view to the preloaded digital map,the geolocation accuracy can reach the accuracy level of the digital map for any ground target appearing in the airborne camera view.Second,the proposed method uses the registration results to perform an iteration process,which compensates for the bias of the strap-down initial navigation module online.Although it is challenging to provide cross-view registration results with high frequency,such an iteration process allows the method to generate real-time,highly accurate location results.The effectiveness of the proposed IGCIR method is verified by a series of flying-test experiments.The results show that the location accuracy of the method can reach 4.18 m(at 10 km standoff distance). 展开更多
关键词 Aviation remote sensing Bias estimation cross-view image registration Digital map GEOLOCATION
原文传递
Target localization based on cross-view matching between UAV and satellite 被引量:4
2
作者 Kan REN Lei DING +2 位作者 Minjie WAN Guohua GU Qian CHEN 《Chinese Journal of Aeronautics》 SCIE EI CAS CSCD 2022年第9期333-341,共9页
Matching remote sensing images taken by an unmanned aerial vehicle(UAV) with satellite remote sensing images with geolocation information. Thus, the specific geographic location of the target object captured by the UA... Matching remote sensing images taken by an unmanned aerial vehicle(UAV) with satellite remote sensing images with geolocation information. Thus, the specific geographic location of the target object captured by the UAV is determined. Its main challenge is the considerable differences in the visual content of remote sensing images acquired by satellites and UAVs, such as dramatic changes in viewpoint, unknown orientations, etc. Much of the previous work has focused on image matching of homologous data. To overcome the difficulties caused by the difference between these two data modes and maintain robustness in visual positioning, a quality-aware template matching method based on scale-adaptive deep convolutional features is proposed by deeply mining their common features. The template size feature map and the reference image feature map are first obtained. The two feature maps obtained are used to measure the similarity. Finally, a heat map representing the probability of matching is generated to determine the best match in the reference image. The method is applied to the latest UAV-based geolocation dataset(University-1652 dataset) and the real-scene campus data we collected with UAVs. The experimental results demonstrate the effectiveness and superiority of the method. 展开更多
关键词 cross-view image matching SATELLITE Target localization Template matching Unmanned Aerial Vehicle(UAV)
原文传递
A Cross-View Model for Tourism Demand Forecasting with Artificial Intelligence Method
3
作者 Siming Han Yanhui Guo +2 位作者 Han Cao Qian Feng Yifei Li 《国际计算机前沿大会会议论文集》 2017年第1期144-146,共3页
Forecasting always plays a vital role in modern economic and industrial fields,and tourism demand forecasting is an important part of intelligent tourism.This paper proposes a simple method for data modeling and a com... Forecasting always plays a vital role in modern economic and industrial fields,and tourism demand forecasting is an important part of intelligent tourism.This paper proposes a simple method for data modeling and a combined cross-view model,which is easy to implement but very effective.The method presented in this paper is commonly used for BPNN and SVR algorithms.A real tourism data set of Small Wild Goose Pagoda is used to verify the feasibility of the proposed method,with the analysis of the impact of year,season,and week on tourism demand forecasting.Comparative experiments suggest that the proposed model shows better accuracy than contrast methods. 展开更多
关键词 cross-view BPNN SVR ARIMA
在线阅读 下载PDF
A guided approach for cross-view geolocalization estimation with land cover semantic segmentation
4
作者 Nathan A.Z.Xavier Elcio H.Shiguemori +1 位作者 Marcos R.O.A.Maximo Mubarak Shah 《Biomimetic Intelligence & Robotics》 2025年第2期79-94,共16页
Geolocalization is a crucial process that leverages environmental information and contextual data to accurately identify a position.In particular,cross-view geolocalization utilizes images from various perspectives,su... Geolocalization is a crucial process that leverages environmental information and contextual data to accurately identify a position.In particular,cross-view geolocalization utilizes images from various perspectives,such as satellite and ground-level images,which are relevant for applications like robotics navigation and autonomous navigation.In this research,we propose a methodology that integrates cross-view geolocalization estimation with a land cover semantic segmentation map.Our solution demonstrates comparable performance to state-of-the-art methods,exhibiting enhanced stability and consistency regardless of the street view location or the dataset used.Additionally,our method generates a focused discrete probability distribution that acts as a heatmap.This heatmap effectively filters out incorrect and unlikely regions,enhancing the reliability of our estimations.Code is available at https://github.com/nathanxavier/CVSegGuide. 展开更多
关键词 cross-view geolocalization Semantic segmentation Satellite and ground image fusion Simultaneous localization and mapping(SLAM)
原文传递
3D hypothesis clustering for cross-view matching in multiperson motion capture 被引量:1
5
作者 Miaopeng Li Zimeng Zhou Xinguo Liu 《Computational Visual Media》 CSCD 2020年第2期147-156,共10页
We present a multiview method for markerless motion capture of multiple people. The main challenge in this problem is to determine crossview correspondences for the 2 D joints in the presence of noise. We propose a 3 ... We present a multiview method for markerless motion capture of multiple people. The main challenge in this problem is to determine crossview correspondences for the 2 D joints in the presence of noise. We propose a 3 D hypothesis clustering technique to solve this problem. The core idea is to transform joint matching in 2 D space into a clustering problem in a 3 D hypothesis space. In this way, evidence from photometric appearance, multiview geometry, and bone length can be integrated to solve the clustering problem efficiently and robustly. Each cluster encodes a set of matched 2 D joints for the same person across different views, from which the 3 D joints can be effectively inferred. We then assemble the inferred 3 D joints to form full-body skeletons for all persons in a bottom–up way. Our experiments demonstrate the robustness of our approach even in challenging cases with heavy occlusion,closely interacting people, and few cameras. We have evaluated our method on many datasets, and our results show that it has significantly lower estimation errors than many state-of-the-art methods. 展开更多
关键词 multi-person motion capture cross-view matching CLUSTERING human pose estimation
原文传递
跨模态不一致感知下双视角交互融合的多模态情感分析
6
作者 卜韵阳 齐彬廷 卜凡亮 《计算机科学》 北大核心 2026年第1期187-194,共8页
在社交媒体上,人们的评论通常会描述对应图像中的某一情感区域,图像和文本之间是具有对应信息的。以往的大多数多模态情感分析方法只是从单一视角探索图像和文本的相互影响,捕获图像区域和文本单词的对应关系,导致结果不是最优的。此外... 在社交媒体上,人们的评论通常会描述对应图像中的某一情感区域,图像和文本之间是具有对应信息的。以往的大多数多模态情感分析方法只是从单一视角探索图像和文本的相互影响,捕获图像区域和文本单词的对应关系,导致结果不是最优的。此外,社交媒体上的数据具有强烈的个人主观性,数据中的情感是多维和复杂的,导致出现了图像和文本情感一致性弱的数据。针对上述问题,提出了一种跨模态不一致感知下双视角交互融合的多模态情感分析模型。一方面,从全局和局部两种视角对图文特征进行跨模态交互,提供更全面、准确的情感分析,从而提升模型的表现和应用效果。另一方面,计算图文特征的不一致分数,用于代表图文不一致程度,以此来动态调控单模态表示和多模态表示的最终情感特征的权重,从而提高模型的鲁棒性。在MVSA-Single和MVSA-Multiple两个公共数据集上进行广泛实验,结果证明所提出的多模态情感分析模型与现有基线模型相比F1值分别提高0.59个百分点和0.39个百分点,具有有效性和优越性。 展开更多
关键词 多模态情感分析 跨模态不一致感知 双视角交互融合 动态调控 跨模态交互
在线阅读 下载PDF
On Robust Cross-view Consistency in Self-supervised Monocular Depth Estimation
7
作者 Haimei Zhao Jing Zhang +2 位作者 Zhuo Chen Bo Yuan Dacheng Tao 《Machine Intelligence Research》 EI CSCD 2024年第3期495-513,共19页
Remarkable progress has been made in self-supervised monocular depth estimation (SS-MDE) by exploring cross-view consistency, e.g., photometric consistency and 3D point cloud consistency. However, they are very vulner... Remarkable progress has been made in self-supervised monocular depth estimation (SS-MDE) by exploring cross-view consistency, e.g., photometric consistency and 3D point cloud consistency. However, they are very vulnerable to illumination variance, occlusions, texture-less regions, as well as moving objects, making them not robust enough to deal with various scenes. To address this challenge, we study two kinds of robust cross-view consistency in this paper. Firstly, the spatial offset field between adjacent frames is obtained by reconstructing the reference frame from its neighbors via deformable alignment, which is used to align the temporal depth features via a depth feature alignment (DFA) loss. Secondly, the 3D point clouds of each reference frame and its nearby frames are calculated and transformed into voxel space, where the point density in each voxel is calculated and aligned via a voxel density alignment (VDA) loss. In this way, we exploit the temporal coherence in both depth feature space and 3D voxel space for SS-MDE, shifting the “point-to-point” alignment paradigm to the “region-to-region” one. Compared with the photometric consistency loss as well as the rigid point cloud alignment loss, the proposed DFA and VDA losses are more robust owing to the strong representation power of deep features as well as the high tolerance of voxel density to the aforementioned challenges. Experimental results on several outdoor benchmarks show that our method outperforms current state-of-the-art techniques. Extensive ablation study and analysis validate the effectiveness of the proposed losses, especially in challenging scenes. The code and models are available at https://github.com/sunnyHelen/RCVC-depth. 展开更多
关键词 3D vision depth estimation cross-view consistency self-supervised learning monocular perception
原文传递
Metric localization for lunar rovers via cross-view image matching
8
作者 Zihao Chen Kunhong Li +3 位作者 Haoran Li Zhiheng Fu Hanmo Zhang Yulan Guo 《Visual Intelligence》 2024年第1期132-145,共14页
Accurate localization is critical for lunar rovers exploring lunar terrain features.Traditionally,lunar rover localization relies on sensor data from odometers,inertial measurement units and stereo cameras.However,loc... Accurate localization is critical for lunar rovers exploring lunar terrain features.Traditionally,lunar rover localization relies on sensor data from odometers,inertial measurement units and stereo cameras.However,localization errors accumulate over long traverses,limiting the rover’s localization accuracy.This paper presents a metric localization framework based on cross-view images(ground view from a rover and air view from an orbiter)to eliminate accumulated localization errors.First,we employ perspective projection to reduce the geometric differences in cross-view images.Then,we propose an image-based metric localization network to extract image features and generate a location heatmap.This heatmap serves as the basis for accurate estimation of query locations.We also create the first large-area lunar cross-view image(Lunar-CV)dataset to evaluate the localization performance.This dataset consists of 30 digital orthophoto maps(DOMs)with a resolution of 7 m/pix,collected by the Chang’e-2 lunar orbiter,along with 8100 simulated rover panoramas.Experimental results on the Lunar-CV dataset demonstrate the superior performance of our proposed framework.Compared to the second best method,our method significantly reduces the average localization error by 26% and the median localization error by 22%. 展开更多
关键词 cross-view metric localization(CVML) Lunar rover Aerial patch PANORAMA Perspective projection
在线阅读 下载PDF
基于视觉语言模型的多模态无人机跨视图地理定位
9
作者 陈鹏 陈旭 +1 位作者 罗文 林斌 《机器人》 北大核心 2025年第3期416-426,共11页
无人机跨视图地理定位通过在卫星拒止条件下匹配机载图像与地理参照图像实现自主定位,主要挑战在于跨视图图像间的显著外观差异。现有方法多局限于局部特征提取,缺乏对上下文关联和全局语义的深入挖掘。为此,本文提出了一种基于视觉语... 无人机跨视图地理定位通过在卫星拒止条件下匹配机载图像与地理参照图像实现自主定位,主要挑战在于跨视图图像间的显著外观差异。现有方法多局限于局部特征提取,缺乏对上下文关联和全局语义的深入挖掘。为此,本文提出了一种基于视觉语言模型的多模态无人机跨视图地理定位模型。利用CLIP(contrastive language-image pre-training)模型构造了一个视图文本描述生成模块,将CLIP模型从海量数据集中学习到的图像级视觉概念作为外部知识,引导模型的特征提取过程。采用混合ViT(视觉Transformer)架构作为骨干网络,使模型在提取图像特征时兼顾局部特征与全局上下文特征的提取。此外,为了使模型能够更有效地学习到不同视图间的关联,还引入了基于逻辑得分标准化KL(Kullback-Leibler)散度的互学习损失函数来监督模型的训练过程。实验结果表明,在CLIP模型生成的文本描述结果引导下,所提模型更容易学习到深层语义信息,从而能够更好地应对跨视图地理定位过程中存在的视角差异、拍摄时间差异等挑战。 展开更多
关键词 跨视图地理定位 视觉语言模型 多模态 图像匹配 无人机
原文传递
多样性负实例生成的跨域人脸伪造检测 被引量:3
10
作者 张晶 许盼 +2 位作者 刘文君 郭晓萱 孙芳 《中国图象图形学报》 北大核心 2025年第2期421-434,共14页
目的深度伪造检测(deepfake detection)通过训练复杂深度神经网络,挖掘更具辨别性的人脸图像表示,获得高精度的检测结果,其是一项确保人脸信息真实、可靠和安全的重要技术。然而,目前流行的模型存在过度依赖训练数据,使模型仅在相同域... 目的深度伪造检测(deepfake detection)通过训练复杂深度神经网络,挖掘更具辨别性的人脸图像表示,获得高精度的检测结果,其是一项确保人脸信息真实、可靠和安全的重要技术。然而,目前流行的模型存在过度依赖训练数据,使模型仅在相同域内表现出令人满意的检测性能,在跨领域场景中表现出较低泛化性,甚至使模型失效。因此,如何在有限的训练数据下实现跨域环境中的高效伪造人脸检测,成为亟待解决的问题。基于此,本文提出多样性负实例生成的跨域人脸伪造检测模型(negative instance generation-FFD,NIG-FFD)。方法首先,通过构建孪生自编码网络,获得标签一致的潜在多视图融合特征,引入对比约束提高难样本特征可判别性;其次,在高效训练的同时利用构造规则生成更具多样性的负实例融合特征,提高模型泛化性;最后,构建自适应重要性权值矩阵,避免因负实例生成导致类别分布不平衡使正类别样本欠学习。结果在两个流行的跨域数据集上验证本文模型的有效性,与其他先进方法相比,AUC(area under the receiver operating characteristic curve)值提升了10%。同时,在本域检测中ACC(accuracy score,)与AUC值相比其他方法均提升了近10%与5%。结论与对比方法相比,本文方法在跨域和本域的人脸伪造检测上都取得了优越的性能。本文所提的模型代码已开源至:https://github.com/LNNU-computer-research-526/NIG-FFD。 展开更多
关键词 深度伪造检测 跨域人脸伪造检测 多视图特征融合 特征生成 对比约束
原文传递
时序信息引导跨视角特征融合的多无人机多目标跟踪方法 被引量:1
11
作者 伍瀚 孙浩 +1 位作者 计科峰 匡纲要 《电子学报》 北大核心 2025年第3期728-743,共16页
多无人机多目标跟踪旨在从多架无人机同时捕获的视频中预测所有目标的轨迹和身份标识,以解决单个无人机视频受遮挡和杂乱背景等干扰时跟踪性能衰退的问题.然而,不同无人机捕获的图像视角和尺度差异通常较大,导致对齐和融合不同无人机图... 多无人机多目标跟踪旨在从多架无人机同时捕获的视频中预测所有目标的轨迹和身份标识,以解决单个无人机视频受遮挡和杂乱背景等干扰时跟踪性能衰退的问题.然而,不同无人机捕获的图像视角和尺度差异通常较大,导致对齐和融合不同无人机图像特征困难.针对该问题,本文提出一种通过时序信息引导跨视角特征融合的跟踪算法——TCFNet.该算法首先设计一种目标感知的对齐网络(Object-aware Alignment Network,OAN),利用跟踪过程中的目标轨迹先验估计先前时刻不同视角无人机视频帧间的转换关系.其次,构建一种时序感知的对齐网络(Temporal-aware Alignment Network,TAN),探索前后时刻同一架无人机捕获图像的信息对不同视角图像的转换关系进行精调.最后,基于OAN和TAN估计的不同无人机图像间的转换关系,设计一个跨机特征融合网络(Cross-drone Feature Fusion Network,CFFN)对不同无人机捕获的视觉信息进行融合,解决复杂场景下模型跟踪性能衰退的问题.在MDMT数据集上的实验结果表明,所提出的TCFNet相比其他主流的跟踪方法更具竞争力,在跟踪准确率、识别F1值和多机目标关联分数上超出当前的先进算法2.23、1.67和2.15个百分点. 展开更多
关键词 多无人机多目标跟踪 时序信息 轨迹先验 跨视角特征融合 准确跟踪
在线阅读 下载PDF
融合多源时空信息鸟瞰图的未来实例分割预测
12
作者 冯霞 陈爽 +1 位作者 卢敏 左海超 《吉林大学学报(工学版)》 北大核心 2025年第10期3372-3383,共12页
针对现有实例分割存在的难以识别被遮挡对象、对噪声和视角变化鲁棒性不够等问题,提出了一种融合多源时空信息的场景细粒度鸟瞰图生成方法(MSTFB)。该方法首先基于栅格化场景鸟瞰图,采用自注意力机制融合时序鸟瞰图特征,通过时空跨域卷... 针对现有实例分割存在的难以识别被遮挡对象、对噪声和视角变化鲁棒性不够等问题,提出了一种融合多源时空信息的场景细粒度鸟瞰图生成方法(MSTFB)。该方法首先基于栅格化场景鸟瞰图,采用自注意力机制融合时序鸟瞰图特征,通过时空跨域卷积网络捕获实例间相对位置并聚合多尺度特征,得到场景细粒度鸟瞰图。在此基础上,又提出了一种融合时序编码和样本特征的鸟瞰图实例分割预测方法(ESF-BISP),采用ConvGRU对历史帧进行时序语义编码得到时序特征,通过条件变分自编码器生成当前帧细粒度鸟瞰图的状态特征分布并采样鸟瞰图的样本特征,再利用高斯混合模型融合鸟瞰图时序特征和样本特征,经解码得到未来帧场景细粒度鸟瞰图。在公开数据集nuScenes上的实验结果表明,MSTFB方法和基准算法LSS相比,车辆分割IoU指标提升了7.09%,能有效分割远端车辆和被遮挡车辆;ESFBISP能更好地捕获场景中动态实例的变化,无论是用于实例分割,还是用于未来实例分割预测,其性能都显著优于基准算法。 展开更多
关键词 计算机应用技术 实例分割预测 鸟瞰图时序编码 多视角图像 时空跨域卷积网络
原文传递
DINO-MSRA:用于无人机与卫星影像跨视角图像检索定位的新型网络架构 被引量:1
13
作者 平一凡 卢俊 +4 位作者 郭海涛 侯青峰 朱坤 桑泽豪 刘彤 《地球信息科学学报》 北大核心 2025年第7期1608-1623,共16页
【目的】跨视角图像地理定位是指通过将待查询影像与不同视角且具备精确位置信息的参考影像进行匹配从而推断其地理位置的一门技术。该技术已经广泛应用于无人机导航、目标定位等现实任务中。当前基于深度学习的无人机-卫星跨视角图像... 【目的】跨视角图像地理定位是指通过将待查询影像与不同视角且具备精确位置信息的参考影像进行匹配从而推断其地理位置的一门技术。该技术已经广泛应用于无人机导航、目标定位等现实任务中。当前基于深度学习的无人机-卫星跨视角图像检索定位方法大多依赖监督学习,但高质量标注样本的稀缺导致监督学习模型的泛化能力受限。同时,由于现有方法对空间布局特征的建模缺失,使得跨视角影像间的显著域差异难以弥补。【方法】针对上述问题,本文提出了一个基于无人机-卫星影像的跨视角图像检索定位新架构——DINO-MSRA,该架构首先利用经Conv-LoRA微调后的Dinov2大模型作为特征编码器,旨在利用较少的参数量增强模型的特征提取能力。其次,设计了一个基于Mamba模块的空间关系感知特征聚合器(MSRA)用于聚合图像特征,通过将空间配置特征嵌入到全局描述符中,为跨视角匹配定位任务带来了显著的性能增益。最后,采用InfoNCE损失函数对模型进行训练。【结果】本文在Univerisity-1652和SUES-200数据集上进行了大量对比实验和消融实验,实验结果表明,当分别面向无人机定位任务和无人机导航任务时,本文方法在Univeirity-1652数据集上的R@1精度达到95.14%、97.29%,相比于目前最优算法CAMP分别提升0.68%、1.14%;在SUES-200数据集上150 m高度的R@1精度分别达到97.2%、98.75%,相较于CAMP提升1.8%、2.5%,并且所需参数量也明显少于现有算法,仅为Sample4Geo的19.2%;【结论】DINO-MSRA在跨视角图像匹配方面优于目前最先进的方法,实现了更高的精度,更快的推理速度,证明了其在具有挑战性的场景中的鲁棒性和实际应用潜力。 展开更多
关键词 跨视角图像定位 视觉基础模型 微调 特征聚合 无人机影像 卫星影像
原文传递
基于双跨视角相关性检测的多视角子空间聚类
14
作者 郭继鹏 徐世龙 +3 位作者 龙家豪 王友清 孙艳丰 尹宝才 《计算机工程》 北大核心 2025年第4期27-36,共10页
随着多媒体和数据采集技术的快速发展,多视角数据越来越常见。相比于单视角数据,多视角数据可以提供更丰富的描述信息,提高样本结构信息的挖掘效率。针对多视角子空间聚类任务,提出基于双跨视角相关性检测的多视角子空间聚类算法。首先... 随着多媒体和数据采集技术的快速发展,多视角数据越来越常见。相比于单视角数据,多视角数据可以提供更丰富的描述信息,提高样本结构信息的挖掘效率。针对多视角子空间聚类任务,提出基于双跨视角相关性检测的多视角子空间聚类算法。首先,考虑噪声干扰和高维数据冗余性对多视角聚类效果的影响,采用线性投影变换来获得原始数据的低维低冗余潜在表示,并利用其进行自表示学习获得准确的子空间表示。其次,为了充分挖掘多视角数据的互补性信息,对潜在特征表示和子空间表示进行跨视角相关性关系检测,具体为:将多视角潜在特征视为低层次表示,利用希尔伯特-施密特独立性准则(HSIC)探索和保留多视角特征的多样性属性;对于包含一致的高层次聚类结构信息的多视角子空间表示,引入低秩张量约束充分捕获跨视角高阶相关性关系和互补性信息。最后,采用增广拉格朗日乘子交替方向极小化算法求解模型的优化问题。在真实数据上的实验结果表明,与对比方法中的次优方法相比,该算法在6个基准数据集上的聚类准确率分别提高了3.00、3.60、1.90、2.00、7.50和1.90百分点,该结果验证了该算法的优越性和有效性。 展开更多
关键词 多视角子空间聚类 双跨视角相关性检测 低秩张量学习 张量核范数 一致性 互补性
在线阅读 下载PDF
GHGeo:基于异构空间对比损失的跨视角对象级地理定位方法
15
作者 桑泽豪 卢俊 +4 位作者 郭海涛 丁磊 朱坤 徐国峻 魏昊麒 《地球信息科学学报》 北大核心 2025年第11期2563-2577,共15页
【目的】跨视角对象级地理定位(CVOGL)旨在卫星影像上精确定位地面街景或无人机影像所观测目标的地理位置。现有方法多聚焦于图像级匹配,通过对整张影像全局处理实现跨视角关联,缺乏对特定目标的位置编码研究,导致无法将模型的注意力引... 【目的】跨视角对象级地理定位(CVOGL)旨在卫星影像上精确定位地面街景或无人机影像所观测目标的地理位置。现有方法多聚焦于图像级匹配,通过对整张影像全局处理实现跨视角关联,缺乏对特定目标的位置编码研究,导致无法将模型的注意力引导到感兴趣目标。并且由于参考图像覆盖范围的变化,查询目标在对应卫星图像中的像素占比极低,精确定位较为困难。【方法】针对以上问题,本文提出了一种基于高斯核函数与异构空间对比损失的跨视角对象级地理定位方法(Cross-View Object-Level Geo-Localization Method with Gaussian Kernel Function and Heterogeneous Spatial Contrastive Loss,GHGeo),用于精确定位感兴趣目标位置。该方法首先通过高斯核函数对查询目标进行精确位置编码,实现了对目标中心点及其分布特征的精细化建模;此外还提出了动态注意力精细化融合模块来动态加权交叉感知全局上下文与局部几何特征的空间相似性,以概率密度预测查询目标在卫星影像中的精确位置;最后通过异构空间对比损失函数来约束其训练过程,缓解跨视角特征差异。【结果】本文在CVOGL数据集进行了实验,实验结果显示:GHGeo在该数据集的“无人机-卫星”任务中,当交并比(IoU)≥25%和≥50%时定位准确率分别达到67.73%和63.00%,相较于基准方法DetGeo分别提升了5.76%和5.34%;在“街景-卫星”定位任务中,对应IoU阈值下的定位准确率分别为48.41%和45.43%的定位准确率,相较于基准方法DetGeo分别提升了2.98%和3.19%。同时与TransGeo,SAFA和VAGeo等方法在CVOGL数据集上进行对比,GHGeo则展现出了更高的定位准确性。【结论】本文方法有效提升了跨视角对象级地理定位方法的精度,为城市规划监测,应急救援调度等应用领域提供关键技术支持和精确位置信息支撑。 展开更多
关键词 遥感影像 跨视角对象级地理定位 对比学习 高斯核编码 动态融合模块 多模态特征提取 深度学习
原文传递
基于多尺度特征聚合的轻量化跨视角匹配定位方法
16
作者 刘瑞康 卢俊 +4 位作者 郭海涛 朱坤 侯青峰 张雪松 汪泽田 《地球信息科学学报》 北大核心 2025年第1期193-206,共14页
【目的】跨视角图像匹配与定位是指通过将地视查询影像与带有地理标记的空视参考影像进行匹配,从而确定地视查询影像地理位置的技术。目前的跨视角图像匹配与定位技术主要使用固定感受野的CNN或者具有全局建模能力的Transformer作为特... 【目的】跨视角图像匹配与定位是指通过将地视查询影像与带有地理标记的空视参考影像进行匹配,从而确定地视查询影像地理位置的技术。目前的跨视角图像匹配与定位技术主要使用固定感受野的CNN或者具有全局建模能力的Transformer作为特征提取主干网络,不能充分考虑影像中不同特征之间的尺度差异,且由于网络参数量和计算复杂度较高,轻量化部署面临显著挑战。【方法】为了解决这些问题,本文提出了一种面向地面全景影像和卫星影像的多尺度特征聚合轻量化跨视角图像匹配与定位方法,首先使用LskNet提取影像特征,然后设计一个多尺度特征聚合模块,将影像特征聚合为全局描述符。在该模块中,本文将单个大卷积核分解为两个连续的相对较小的逐层卷积,从多个尺度聚合影像特征,显著减少了网络的参数量与计算量。【结果】本文在CVUSA、CVACT、VIGOR 3个公开数据集上进行了对比实验和消融实验,实验结果表明,本文方法在VIGOR数据集和CVACT数据集上的Top1召回率分别达到79.00%和91.43%,相比于目前精度最高的Sample4Geo分别提升了1.14%、0.62%,在CVUSA数据集上的Top1召回率达到98.64%,与Sample4Geo几乎相同,但参数量与计算量降至30.09 M和16.05 GFLOPs,仅为Sample4Geo的34.36%、23.70%。【结论】与现有方法相比,本文方法在保持高精度的同时,显著减少了参数量和计算量,降低了模型部署的硬件要求。 展开更多
关键词 跨视角图像匹配 多尺度特征 特征聚合 大卷积核分解 轻量化 地理定位
原文传递
几何关系约束条件下的跨视角图像检索定位
17
作者 侯青峰 卢俊 +1 位作者 郭海涛 平一凡 《地球信息科学学报》 北大核心 2025年第10期2316-2331,共16页
【目的】跨视角图像地理定位技术能够建立起图像与现实地理空间的关联映射,对进一步挖掘图像背后蕴含的多种属性具有重要研究价值。近年来大多数基于深度学习的跨视角图像地理定位算法过分关注于影像内容,导致网络对于低级细节过度拟合... 【目的】跨视角图像地理定位技术能够建立起图像与现实地理空间的关联映射,对进一步挖掘图像背后蕴含的多种属性具有重要研究价值。近年来大多数基于深度学习的跨视角图像地理定位算法过分关注于影像内容,导致网络对于低级细节过度拟合,而缺乏对于几何空间布局的提取能力,因此在评估数据集上精度不佳。【方法】从上述问题出发,为了进一步提高跨视角图像地理定位算法的性能,本文设计了一种基于几何关系约束的跨视角图像检索定位算法。首先推导了地面全景影像的成像原理,并凭借球形坐标系与平面直角坐标系之间的映射关系实现地面影像视角的转换,以达到跨域匹配影像之间初步的几何相似性对齐。其次设计了CNN联合Transformer的特征提取算子,能够在提取影像视觉内容特征的同时,挖掘局部特征之间的几何空间配置信息,从而约束视角变化带来的内容、尺度等差异。此外,为了抑制经过几何映射转换后地面影像的畸变信息,设计了基于关系亲和矩阵的特征自交互模块,旨在通过计算局部特征间的相关性,实现前景信息和背景信息的分离,并最终达到突出关键前景信息的目的。最后通过引入特征聚合模块生成全局特征描述符并完成匹配定位。【结果】经过在CVACT_val、CVUSA以及VIGOR 3个公开数据集的完整数据上进行实验,本算法取得了相对优异的结果,其中在3个数据集上Top1影像的召回率分别达到了89.28%、96.42%和62.21%,与同类型算法GeoDTR相比取得了3.07%、1.04%和3.2%的精度提升。【结论】研究证明了本算法的优越性以及在不同应用场景下的适应能力。 展开更多
关键词 跨视角图像 几何空间布局 图像映射 几何关系约束 特征自交互 全局特征聚合
原文传递
跨视角地理定位中的三维交互机制 被引量:1
18
作者 周博文 李阳 +2 位作者 王家宝 苗壮 张睿 《计算机科学》 北大核心 2025年第3期86-94,共9页
跨视角地理定位是一种图像检索任务,其目的是在不同视角下使用无地理坐标的图像与数据库中有地理坐标的图像进行检索匹配,从而获取目标图像的地理位置信息。然而,现有方法大多忽略了全局位置信息和特征完整性,导致模型无法捕获深层语义... 跨视角地理定位是一种图像检索任务,其目的是在不同视角下使用无地理坐标的图像与数据库中有地理坐标的图像进行检索匹配,从而获取目标图像的地理位置信息。然而,现有方法大多忽略了全局位置信息和特征完整性,导致模型无法捕获深层语义信息;另外,现有的二维交互方式未充分利用维度间关系,导致跨维交互不充分。为解决上述问题,设计了一种跨视角地理定位三维交互机制。该方法利用ConvNeXt作为特征提取网络,随后使用所提出的三维交互机制(Triplet Interaction Mechanism,TIM)进行特征丰富操作,最后利用联合损失函数指导模型训练。所提方法在模型内进行了多次三维交互,缓解了二维特征投影部分信息丢失的问题。同时,所提出的三维交互机制在3个通道中使用不同的注意力,使模型对跨视角图像的平移、缩放、旋转具有鲁棒性。实验结果表明,所提方法在University-1652数据集上针对无人机视角定位和无人机导航两个任务均取得了最优性能。 展开更多
关键词 跨视角 地理定位 交互机制 特征注意力
在线阅读 下载PDF
GDS:无人机图像引导的跨视角图像地理定位
19
作者 席泽馨 李佳仪 +2 位作者 谢昊 甘文建 周杨 《测绘通报》 北大核心 2025年第7期66-72,共7页
跨视角图像地理定位是指将地理坐标未知的地面视角图像与具有高精度空间坐标信息的基准卫星图像进行检索匹配,从而确定地面视角图像地理坐标的方法。当待定位地面视角图像和基准卫星图像之间的视角差异过大时,会导致检索匹配困难,因此,... 跨视角图像地理定位是指将地理坐标未知的地面视角图像与具有高精度空间坐标信息的基准卫星图像进行检索匹配,从而确定地面视角图像地理坐标的方法。当待定位地面视角图像和基准卫星图像之间的视角差异过大时,会导致检索匹配困难,因此,本文提出了一种无人机图像引导的跨视角图像地理定位方法(GDS)。该方法利用低空无人机倾斜摄影图像作为过渡,首先将待定位的地面视角图像与无人机图像进行检索匹配,然后将检索得到的无人机图像与具有精确地理坐标的卫星图像进行检索匹配,从而确定地面视角图像的地理位置。本文使用了基于卷积神经网络和Vision Transformer的ConvNeXt模型进行图像的特征提取,并通过使用InfoNCE损失作为训练目标进行对比学习,提高了图像查询的精度,同时采用随机采样的策略打乱并随机移除一小部分训练样本,提高了模型的泛化能力。在通用的跨视角数据集University-1652上的试验结果表明,本文方法在召回率指标上优于地面视角图像直接检索卫星图像的方法。本文方法使用地面视角查询无人机视角图像的精度为11.63%Recall@1,使用无人机视角查询卫星视角图像的精度为91.49%Recall@1,综合使用两段式检索方法从地面视角图像查询卫星视角图像的精度达10.64%Recall@1,与地面视角图像直接检索卫星图像的5.23%Recall@1相比,有了较大提升,具有有效性和先进性。 展开更多
关键词 图像地理定位 跨视角 无人机图像 卫星图像 ConvNeXt InfoNCE损失
原文传递
基于跨视图二部图图扩散的多视图聚类
20
作者 王劲夫 王思为 +2 位作者 梁伟轩 于胜举 祝恩 《计算机科学》 北大核心 2025年第7期69-74,共6页
多视图聚类是无监督学习领域的一个研究热点。最近,基于跨视图图扩散的方法有效利用了多个视图之间的互补信息,取得了较好的效果。但这类方法的时间和空间复杂度较高,限制了其在大规模数据集上的应用。针对此问题,提出基于二部图跨视图... 多视图聚类是无监督学习领域的一个研究热点。最近,基于跨视图图扩散的方法有效利用了多个视图之间的互补信息,取得了较好的效果。但这类方法的时间和空间复杂度较高,限制了其在大规模数据集上的应用。针对此问题,提出基于二部图跨视图图扩散的多视图聚类方法,成功将立方的时间复杂度和平方的空间复杂度降低至线性,从而可以高效地处理大规模聚类任务。使用二部图代替全图进行跨视图图扩散,并对基于全图的跨视图图扩散公式进行修改以适应二部图输入。在6个基准数据集上的实验结果表明,所提出的方法在聚类精度和运行效率方面比大多现有多视图聚类方法更具优势。在小规模数据集上,所提方法中的准确度等指标普遍高于对比算法5%以上;在大规模数据集上,所提方法的优势更加明显,其ACC和NMI等指标高于对比算法15%~30%。 展开更多
关键词 多视图聚类 跨视图图扩散 二部图 大规模数据集应用
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部