期刊文献+
共找到253篇文章
< 1 2 13 >
每页显示 20 50 100
Iterative geolocation based on cross-view image registration(IGCIR)for long-range targets
1
作者 Fangchao ZHAI Qinghua ZENG +1 位作者 Jie LI Ziqi JIN 《Chinese Journal of Aeronautics》 2025年第7期479-492,共14页
The geolocation of ground targets by airborne image sensors is an important task for unmanned aerial vehicles or surveillance aircraft.This paper proposes an Iterative Geolocation based on Cross-view Image Registratio... The geolocation of ground targets by airborne image sensors is an important task for unmanned aerial vehicles or surveillance aircraft.This paper proposes an Iterative Geolocation based on Cross-view Image Registration(IGCIR)that can provide real-time target location results with high precision.The proposed method has two key features.First,a cross-view image registration process is introduced,including a projective transformation and a two-stage multi-sensor registration.This process utilizes both gradient information and phase information of cross-view images.This allows the registration process to reach a good balance between matching precision and computational efficiency.By matching the airborne camera view to the preloaded digital map,the geolocation accuracy can reach the accuracy level of the digital map for any ground target appearing in the airborne camera view.Second,the proposed method uses the registration results to perform an iteration process,which compensates for the bias of the strap-down initial navigation module online.Although it is challenging to provide cross-view registration results with high frequency,such an iteration process allows the method to generate real-time,highly accurate location results.The effectiveness of the proposed IGCIR method is verified by a series of flying-test experiments.The results show that the location accuracy of the method can reach 4.18 m(at 10 km standoff distance). 展开更多
关键词 Aviation remote sensing Bias estimation cross-view image registration Digital map GEOLOCATION
原文传递
Target localization based on cross-view matching between UAV and satellite 被引量:4
2
作者 Kan REN Lei DING +2 位作者 Minjie WAN Guohua GU Qian CHEN 《Chinese Journal of Aeronautics》 SCIE EI CAS CSCD 2022年第9期333-341,共9页
Matching remote sensing images taken by an unmanned aerial vehicle(UAV) with satellite remote sensing images with geolocation information. Thus, the specific geographic location of the target object captured by the UA... Matching remote sensing images taken by an unmanned aerial vehicle(UAV) with satellite remote sensing images with geolocation information. Thus, the specific geographic location of the target object captured by the UAV is determined. Its main challenge is the considerable differences in the visual content of remote sensing images acquired by satellites and UAVs, such as dramatic changes in viewpoint, unknown orientations, etc. Much of the previous work has focused on image matching of homologous data. To overcome the difficulties caused by the difference between these two data modes and maintain robustness in visual positioning, a quality-aware template matching method based on scale-adaptive deep convolutional features is proposed by deeply mining their common features. The template size feature map and the reference image feature map are first obtained. The two feature maps obtained are used to measure the similarity. Finally, a heat map representing the probability of matching is generated to determine the best match in the reference image. The method is applied to the latest UAV-based geolocation dataset(University-1652 dataset) and the real-scene campus data we collected with UAVs. The experimental results demonstrate the effectiveness and superiority of the method. 展开更多
关键词 cross-view image matching SATELLITE Target localization Template matching Unmanned Aerial Vehicle(UAV)
原文传递
A Cross-View Model for Tourism Demand Forecasting with Artificial Intelligence Method
3
作者 Siming Han Yanhui Guo +2 位作者 Han Cao Qian Feng Yifei Li 《国际计算机前沿大会会议论文集》 2017年第1期144-146,共3页
Forecasting always plays a vital role in modern economic and industrial fields,and tourism demand forecasting is an important part of intelligent tourism.This paper proposes a simple method for data modeling and a com... Forecasting always plays a vital role in modern economic and industrial fields,and tourism demand forecasting is an important part of intelligent tourism.This paper proposes a simple method for data modeling and a combined cross-view model,which is easy to implement but very effective.The method presented in this paper is commonly used for BPNN and SVR algorithms.A real tourism data set of Small Wild Goose Pagoda is used to verify the feasibility of the proposed method,with the analysis of the impact of year,season,and week on tourism demand forecasting.Comparative experiments suggest that the proposed model shows better accuracy than contrast methods. 展开更多
关键词 cross-view BPNN SVR ARIMA
在线阅读 下载PDF
A guided approach for cross-view geolocalization estimation with land cover semantic segmentation
4
作者 Nathan A.Z.Xavier Elcio H.Shiguemori +1 位作者 Marcos R.O.A.Maximo Mubarak Shah 《Biomimetic Intelligence & Robotics》 2025年第2期79-94,共16页
Geolocalization is a crucial process that leverages environmental information and contextual data to accurately identify a position.In particular,cross-view geolocalization utilizes images from various perspectives,su... Geolocalization is a crucial process that leverages environmental information and contextual data to accurately identify a position.In particular,cross-view geolocalization utilizes images from various perspectives,such as satellite and ground-level images,which are relevant for applications like robotics navigation and autonomous navigation.In this research,we propose a methodology that integrates cross-view geolocalization estimation with a land cover semantic segmentation map.Our solution demonstrates comparable performance to state-of-the-art methods,exhibiting enhanced stability and consistency regardless of the street view location or the dataset used.Additionally,our method generates a focused discrete probability distribution that acts as a heatmap.This heatmap effectively filters out incorrect and unlikely regions,enhancing the reliability of our estimations.Code is available at https://github.com/nathanxavier/CVSegGuide. 展开更多
关键词 cross-view geolocalization Semantic segmentation Satellite and ground image fusion Simultaneous localization and mapping(SLAM)
原文传递
逐级特征融合的多阶段无人机跨视图匹配方法
5
作者 王曼琳 朱修彬 +2 位作者 杨兰 李志武 胡星辰 《计算机科学与探索》 北大核心 2026年第3期840-852,共13页
为提升无人机在复杂环境中的自主定位能力,开展了面向跨视图图像匹配任务的有效定位方法研究。针对全球导航卫星系统(GNSS)在城市峡谷、密林遮挡等场景下定位易失效的问题,构建了一个多阶段、多特征融合的无人机与卫星图匹配框架。研究... 为提升无人机在复杂环境中的自主定位能力,开展了面向跨视图图像匹配任务的有效定位方法研究。针对全球导航卫星系统(GNSS)在城市峡谷、密林遮挡等场景下定位易失效的问题,构建了一个多阶段、多特征融合的无人机与卫星图匹配框架。研究中采用预训练语义分割网络对无人机图像中的建筑区域进行精确提取,并引入形态学处理策略以提升区域边界的完整性和连贯性。在图像匹配阶段,通过RGB色彩直方图的巴氏距离进行初步筛选,剔除明显不匹配的卫星图;利用SuperPoint提取细粒度特征点,并通过LightGlue完成端到端的局部特征匹配。整个流程设计遵循从一般属性到细节特征的逐级匹配思路,在兼顾效率的同时增强了对视角差异和背景干扰的鲁棒性。实验在University-1652数据集上进行,结果显示该方法在未使用任何训练图对的前提下,依然获得了优于多种传统方法、接近监督模型的匹配精度,并显著降低了计算开销。该研究为无人机在未知区域的实时定位任务提供了可靠支持,具备良好的实用性。 展开更多
关键词 无人机地理定位 跨视图匹配 语义分割 形态学处理 逐级特征融合
在线阅读 下载PDF
3D hypothesis clustering for cross-view matching in multiperson motion capture 被引量:1
6
作者 Miaopeng Li Zimeng Zhou Xinguo Liu 《Computational Visual Media》 CSCD 2020年第2期147-156,共10页
We present a multiview method for markerless motion capture of multiple people. The main challenge in this problem is to determine crossview correspondences for the 2 D joints in the presence of noise. We propose a 3 ... We present a multiview method for markerless motion capture of multiple people. The main challenge in this problem is to determine crossview correspondences for the 2 D joints in the presence of noise. We propose a 3 D hypothesis clustering technique to solve this problem. The core idea is to transform joint matching in 2 D space into a clustering problem in a 3 D hypothesis space. In this way, evidence from photometric appearance, multiview geometry, and bone length can be integrated to solve the clustering problem efficiently and robustly. Each cluster encodes a set of matched 2 D joints for the same person across different views, from which the 3 D joints can be effectively inferred. We then assemble the inferred 3 D joints to form full-body skeletons for all persons in a bottom–up way. Our experiments demonstrate the robustness of our approach even in challenging cases with heavy occlusion,closely interacting people, and few cameras. We have evaluated our method on many datasets, and our results show that it has significantly lower estimation errors than many state-of-the-art methods. 展开更多
关键词 multi-person motion capture cross-view matching CLUSTERING human pose estimation
原文传递
跨模态不一致感知下双视角交互融合的多模态情感分析
7
作者 卜韵阳 齐彬廷 卜凡亮 《计算机科学》 北大核心 2026年第1期187-194,共8页
在社交媒体上,人们的评论通常会描述对应图像中的某一情感区域,图像和文本之间是具有对应信息的。以往的大多数多模态情感分析方法只是从单一视角探索图像和文本的相互影响,捕获图像区域和文本单词的对应关系,导致结果不是最优的。此外... 在社交媒体上,人们的评论通常会描述对应图像中的某一情感区域,图像和文本之间是具有对应信息的。以往的大多数多模态情感分析方法只是从单一视角探索图像和文本的相互影响,捕获图像区域和文本单词的对应关系,导致结果不是最优的。此外,社交媒体上的数据具有强烈的个人主观性,数据中的情感是多维和复杂的,导致出现了图像和文本情感一致性弱的数据。针对上述问题,提出了一种跨模态不一致感知下双视角交互融合的多模态情感分析模型。一方面,从全局和局部两种视角对图文特征进行跨模态交互,提供更全面、准确的情感分析,从而提升模型的表现和应用效果。另一方面,计算图文特征的不一致分数,用于代表图文不一致程度,以此来动态调控单模态表示和多模态表示的最终情感特征的权重,从而提高模型的鲁棒性。在MVSA-Single和MVSA-Multiple两个公共数据集上进行广泛实验,结果证明所提出的多模态情感分析模型与现有基线模型相比F1值分别提高0.59个百分点和0.39个百分点,具有有效性和优越性。 展开更多
关键词 多模态情感分析 跨模态不一致感知 双视角交互融合 动态调控 跨模态交互
在线阅读 下载PDF
基于潜在表示和图学习的无监督特征选择
8
作者 宿熙隆 谢锡炯 《计算机工程与设计》 北大核心 2026年第1期10-18,共9页
为解决多视图无监督特征选择在处理高维数据时面临噪声样本和特征干扰、数据样本互连信息利用不充分等问题,提出了一种基于潜在表示和图学习的鲁棒多视图无监督特征选择方法。通过构建融合多视图信息的低秩共识图以抑制噪声;通过核范数... 为解决多视图无监督特征选择在处理高维数据时面临噪声样本和特征干扰、数据样本互连信息利用不充分等问题,提出了一种基于潜在表示和图学习的鲁棒多视图无监督特征选择方法。通过构建融合多视图信息的低秩共识图以抑制噪声;通过核范数约束捕捉跨视图共性特征;将潜在表示学习嵌入特征选择框架,利用低秩图约束潜在空间的局部结构保持能力;并且设计联合优化模型以实现图学习、潜在表示与特征选择的多任务协同优化。实验结果表明,提出的方法在ACC和NMI上均优于实验对比方法。 展开更多
关键词 跨视图局部性 低秩 共识图 潜在表示学习 图学习 多视图 无监督特征选择
在线阅读 下载PDF
On Robust Cross-view Consistency in Self-supervised Monocular Depth Estimation
9
作者 Haimei Zhao Jing Zhang +2 位作者 Zhuo Chen Bo Yuan Dacheng Tao 《Machine Intelligence Research》 EI CSCD 2024年第3期495-513,共19页
Remarkable progress has been made in self-supervised monocular depth estimation (SS-MDE) by exploring cross-view consistency, e.g., photometric consistency and 3D point cloud consistency. However, they are very vulner... Remarkable progress has been made in self-supervised monocular depth estimation (SS-MDE) by exploring cross-view consistency, e.g., photometric consistency and 3D point cloud consistency. However, they are very vulnerable to illumination variance, occlusions, texture-less regions, as well as moving objects, making them not robust enough to deal with various scenes. To address this challenge, we study two kinds of robust cross-view consistency in this paper. Firstly, the spatial offset field between adjacent frames is obtained by reconstructing the reference frame from its neighbors via deformable alignment, which is used to align the temporal depth features via a depth feature alignment (DFA) loss. Secondly, the 3D point clouds of each reference frame and its nearby frames are calculated and transformed into voxel space, where the point density in each voxel is calculated and aligned via a voxel density alignment (VDA) loss. In this way, we exploit the temporal coherence in both depth feature space and 3D voxel space for SS-MDE, shifting the “point-to-point” alignment paradigm to the “region-to-region” one. Compared with the photometric consistency loss as well as the rigid point cloud alignment loss, the proposed DFA and VDA losses are more robust owing to the strong representation power of deep features as well as the high tolerance of voxel density to the aforementioned challenges. Experimental results on several outdoor benchmarks show that our method outperforms current state-of-the-art techniques. Extensive ablation study and analysis validate the effectiveness of the proposed losses, especially in challenging scenes. The code and models are available at https://github.com/sunnyHelen/RCVC-depth. 展开更多
关键词 3D vision depth estimation cross-view consistency self-supervised learning monocular perception
原文传递
基于Mamba模型的分级跨模态融合三维目标检测方法
10
作者 李明光 陶重犇 《计算机应用》 北大核心 2026年第2期572-579,共8页
针对现有基于鸟瞰视图(BEV)的跨模态融合方法在初期融合阶段忽视了对BEV特征局部信息的有效保护,导致浅层跨模态交互不足,进而制约后续深层融合效果并降低三维目标检测精度的问题,提出基于Mamba模型的分级跨模态融合三维目标检测方法。... 针对现有基于鸟瞰视图(BEV)的跨模态融合方法在初期融合阶段忽视了对BEV特征局部信息的有效保护,导致浅层跨模态交互不足,进而制约后续深层融合效果并降低三维目标检测精度的问题,提出基于Mamba模型的分级跨模态融合三维目标检测方法。该方法将Mamba的状态空间建模机制与分级融合机制深度结合,使跨模态特征映射至隐藏状态空间进行交互,以丰富局部信息,降低跨模态特征之间的差异性,并增强融合特征表达的一致性。首先,在浅层融合阶段,设计特征通道交换机制以通过交换不同传感器模态的特征通道提升浅层局部细节的保留能力,并改进Mamba模型的视觉状态空间(VSS)块以强化浅层特征间的交互;然后,在深层融合阶段,引入注意力机制与门控机制构建隐藏的特征转换,从而识别并融合模态间互补的长距离依赖特征;最后,通过通道自适应模块计算归一化原始特征上的通道关注,并自适应地学习模态内的通道关系,增强单个模态的BEV特征表示,从而弥补Mamba模型在建模通道间关系方面的不足。实验结果表明,所提方法在nuScenes和Waymo数据集上取得了优于TransFusion和结合局部-全局建模的多模态融合方法 LoGoNet(Local-to-Global Network)等方法的检测性能,在nuScenes测试集上的平均精度均值(mAP)达到72.4%,nuScenes检测得分(NDS)为73.9%,相较于基线方法 BEVFusion_mit分别提高了2.2和1.0个百分点。 展开更多
关键词 三维目标检测 跨模态融合 Mamba 鸟瞰视图 自动驾驶
在线阅读 下载PDF
基于4D毫米波雷达与视觉融合的三维目标检测算法
11
作者 李健浪 吴新电 +2 位作者 陈灵 阳波 唐文胜 《计算机工程》 北大核心 2026年第2期299-310,共12页
针对自动驾驶场景中行人和车辆的目标识别与定位问题,提出一种四维(4D)毫米波雷达与视觉融合的CDCAM-BEV算法,以提高目标检测的精度。首先,设计雷达柱体网络,将4D雷达点云编码为伪图像,并通过正交特征变换(OFT)将单目图像转换为鸟瞰图(B... 针对自动驾驶场景中行人和车辆的目标识别与定位问题,提出一种四维(4D)毫米波雷达与视觉融合的CDCAM-BEV算法,以提高目标检测的精度。首先,设计雷达柱体网络,将4D雷达点云编码为伪图像,并通过正交特征变换(OFT)将单目图像转换为鸟瞰图(BEV)特征;其次,基于交叉注意力机制,设计共同信息提取模块(CICAM)和差异信息提取模块(DICAM),充分挖掘雷达和图像的公共信息和差异信息;最后,基于CICAM和DICAM设计BEV特征融合模块,实现图像信息和雷达信息在BEV空间的特征级融合。在VOD数据集上进行实验,将CDCAM-BEV算法与其他5种三维(3D)目标检测算法进行对比。实验结果表明,CDCAM-BEV在多个模式下检测性能均优于其他算法。在3D模式下,CDCAM-BEV的平均检测精度比排名第二的Part-A2高出3.65百分点;在BEV模式下,比排名第二的PointPillars高出5.04百分点;在平均方向相似度(AOS)模式下,比排名第二的Part-A2高出2.62百分点。结果显示,CDCAM-BEV在各模式下均表现出卓越性能,能够有效融合图像和4D雷达点云特征,显著提高目标检测的精度和可靠性。 展开更多
关键词 四维毫米波雷达 鸟瞰图 自动驾驶 交叉注意力机制 三维目标检测
在线阅读 下载PDF
Metric localization for lunar rovers via cross-view image matching
12
作者 Zihao Chen Kunhong Li +3 位作者 Haoran Li Zhiheng Fu Hanmo Zhang Yulan Guo 《Visual Intelligence》 2024年第1期132-145,共14页
Accurate localization is critical for lunar rovers exploring lunar terrain features.Traditionally,lunar rover localization relies on sensor data from odometers,inertial measurement units and stereo cameras.However,loc... Accurate localization is critical for lunar rovers exploring lunar terrain features.Traditionally,lunar rover localization relies on sensor data from odometers,inertial measurement units and stereo cameras.However,localization errors accumulate over long traverses,limiting the rover’s localization accuracy.This paper presents a metric localization framework based on cross-view images(ground view from a rover and air view from an orbiter)to eliminate accumulated localization errors.First,we employ perspective projection to reduce the geometric differences in cross-view images.Then,we propose an image-based metric localization network to extract image features and generate a location heatmap.This heatmap serves as the basis for accurate estimation of query locations.We also create the first large-area lunar cross-view image(Lunar-CV)dataset to evaluate the localization performance.This dataset consists of 30 digital orthophoto maps(DOMs)with a resolution of 7 m/pix,collected by the Chang’e-2 lunar orbiter,along with 8100 simulated rover panoramas.Experimental results on the Lunar-CV dataset demonstrate the superior performance of our proposed framework.Compared to the second best method,our method significantly reduces the average localization error by 26% and the median localization error by 22%. 展开更多
关键词 cross-view metric localization(CVML) Lunar rover Aerial patch PANORAMA Perspective projection
在线阅读 下载PDF
基于视觉语言模型的多模态无人机跨视图地理定位 被引量:1
13
作者 陈鹏 陈旭 +1 位作者 罗文 林斌 《机器人》 北大核心 2025年第3期416-426,共11页
无人机跨视图地理定位通过在卫星拒止条件下匹配机载图像与地理参照图像实现自主定位,主要挑战在于跨视图图像间的显著外观差异。现有方法多局限于局部特征提取,缺乏对上下文关联和全局语义的深入挖掘。为此,本文提出了一种基于视觉语... 无人机跨视图地理定位通过在卫星拒止条件下匹配机载图像与地理参照图像实现自主定位,主要挑战在于跨视图图像间的显著外观差异。现有方法多局限于局部特征提取,缺乏对上下文关联和全局语义的深入挖掘。为此,本文提出了一种基于视觉语言模型的多模态无人机跨视图地理定位模型。利用CLIP(contrastive language-image pre-training)模型构造了一个视图文本描述生成模块,将CLIP模型从海量数据集中学习到的图像级视觉概念作为外部知识,引导模型的特征提取过程。采用混合ViT(视觉Transformer)架构作为骨干网络,使模型在提取图像特征时兼顾局部特征与全局上下文特征的提取。此外,为了使模型能够更有效地学习到不同视图间的关联,还引入了基于逻辑得分标准化KL(Kullback-Leibler)散度的互学习损失函数来监督模型的训练过程。实验结果表明,在CLIP模型生成的文本描述结果引导下,所提模型更容易学习到深层语义信息,从而能够更好地应对跨视图地理定位过程中存在的视角差异、拍摄时间差异等挑战。 展开更多
关键词 跨视图地理定位 视觉语言模型 多模态 图像匹配 无人机
原文传递
多样性负实例生成的跨域人脸伪造检测 被引量:3
14
作者 张晶 许盼 +2 位作者 刘文君 郭晓萱 孙芳 《中国图象图形学报》 北大核心 2025年第2期421-434,共14页
目的深度伪造检测(deepfake detection)通过训练复杂深度神经网络,挖掘更具辨别性的人脸图像表示,获得高精度的检测结果,其是一项确保人脸信息真实、可靠和安全的重要技术。然而,目前流行的模型存在过度依赖训练数据,使模型仅在相同域... 目的深度伪造检测(deepfake detection)通过训练复杂深度神经网络,挖掘更具辨别性的人脸图像表示,获得高精度的检测结果,其是一项确保人脸信息真实、可靠和安全的重要技术。然而,目前流行的模型存在过度依赖训练数据,使模型仅在相同域内表现出令人满意的检测性能,在跨领域场景中表现出较低泛化性,甚至使模型失效。因此,如何在有限的训练数据下实现跨域环境中的高效伪造人脸检测,成为亟待解决的问题。基于此,本文提出多样性负实例生成的跨域人脸伪造检测模型(negative instance generation-FFD,NIG-FFD)。方法首先,通过构建孪生自编码网络,获得标签一致的潜在多视图融合特征,引入对比约束提高难样本特征可判别性;其次,在高效训练的同时利用构造规则生成更具多样性的负实例融合特征,提高模型泛化性;最后,构建自适应重要性权值矩阵,避免因负实例生成导致类别分布不平衡使正类别样本欠学习。结果在两个流行的跨域数据集上验证本文模型的有效性,与其他先进方法相比,AUC(area under the receiver operating characteristic curve)值提升了10%。同时,在本域检测中ACC(accuracy score,)与AUC值相比其他方法均提升了近10%与5%。结论与对比方法相比,本文方法在跨域和本域的人脸伪造检测上都取得了优越的性能。本文所提的模型代码已开源至:https://github.com/LNNU-computer-research-526/NIG-FFD。 展开更多
关键词 深度伪造检测 跨域人脸伪造检测 多视图特征融合 特征生成 对比约束
原文传递
时序信息引导跨视角特征融合的多无人机多目标跟踪方法 被引量:3
15
作者 伍瀚 孙浩 +1 位作者 计科峰 匡纲要 《电子学报》 北大核心 2025年第3期728-743,共16页
多无人机多目标跟踪旨在从多架无人机同时捕获的视频中预测所有目标的轨迹和身份标识,以解决单个无人机视频受遮挡和杂乱背景等干扰时跟踪性能衰退的问题.然而,不同无人机捕获的图像视角和尺度差异通常较大,导致对齐和融合不同无人机图... 多无人机多目标跟踪旨在从多架无人机同时捕获的视频中预测所有目标的轨迹和身份标识,以解决单个无人机视频受遮挡和杂乱背景等干扰时跟踪性能衰退的问题.然而,不同无人机捕获的图像视角和尺度差异通常较大,导致对齐和融合不同无人机图像特征困难.针对该问题,本文提出一种通过时序信息引导跨视角特征融合的跟踪算法——TCFNet.该算法首先设计一种目标感知的对齐网络(Object-aware Alignment Network,OAN),利用跟踪过程中的目标轨迹先验估计先前时刻不同视角无人机视频帧间的转换关系.其次,构建一种时序感知的对齐网络(Temporal-aware Alignment Network,TAN),探索前后时刻同一架无人机捕获图像的信息对不同视角图像的转换关系进行精调.最后,基于OAN和TAN估计的不同无人机图像间的转换关系,设计一个跨机特征融合网络(Cross-drone Feature Fusion Network,CFFN)对不同无人机捕获的视觉信息进行融合,解决复杂场景下模型跟踪性能衰退的问题.在MDMT数据集上的实验结果表明,所提出的TCFNet相比其他主流的跟踪方法更具竞争力,在跟踪准确率、识别F1值和多机目标关联分数上超出当前的先进算法2.23、1.67和2.15个百分点. 展开更多
关键词 多无人机多目标跟踪 时序信息 轨迹先验 跨视角特征融合 准确跟踪
在线阅读 下载PDF
DINO-MSRA:用于无人机与卫星影像跨视角图像检索定位的新型网络架构 被引量:2
16
作者 平一凡 卢俊 +4 位作者 郭海涛 侯青峰 朱坤 桑泽豪 刘彤 《地球信息科学学报》 北大核心 2025年第7期1608-1623,共16页
【目的】跨视角图像地理定位是指通过将待查询影像与不同视角且具备精确位置信息的参考影像进行匹配从而推断其地理位置的一门技术。该技术已经广泛应用于无人机导航、目标定位等现实任务中。当前基于深度学习的无人机-卫星跨视角图像... 【目的】跨视角图像地理定位是指通过将待查询影像与不同视角且具备精确位置信息的参考影像进行匹配从而推断其地理位置的一门技术。该技术已经广泛应用于无人机导航、目标定位等现实任务中。当前基于深度学习的无人机-卫星跨视角图像检索定位方法大多依赖监督学习,但高质量标注样本的稀缺导致监督学习模型的泛化能力受限。同时,由于现有方法对空间布局特征的建模缺失,使得跨视角影像间的显著域差异难以弥补。【方法】针对上述问题,本文提出了一个基于无人机-卫星影像的跨视角图像检索定位新架构——DINO-MSRA,该架构首先利用经Conv-LoRA微调后的Dinov2大模型作为特征编码器,旨在利用较少的参数量增强模型的特征提取能力。其次,设计了一个基于Mamba模块的空间关系感知特征聚合器(MSRA)用于聚合图像特征,通过将空间配置特征嵌入到全局描述符中,为跨视角匹配定位任务带来了显著的性能增益。最后,采用InfoNCE损失函数对模型进行训练。【结果】本文在Univerisity-1652和SUES-200数据集上进行了大量对比实验和消融实验,实验结果表明,当分别面向无人机定位任务和无人机导航任务时,本文方法在Univeirity-1652数据集上的R@1精度达到95.14%、97.29%,相比于目前最优算法CAMP分别提升0.68%、1.14%;在SUES-200数据集上150 m高度的R@1精度分别达到97.2%、98.75%,相较于CAMP提升1.8%、2.5%,并且所需参数量也明显少于现有算法,仅为Sample4Geo的19.2%;【结论】DINO-MSRA在跨视角图像匹配方面优于目前最先进的方法,实现了更高的精度,更快的推理速度,证明了其在具有挑战性的场景中的鲁棒性和实际应用潜力。 展开更多
关键词 跨视角图像定位 视觉基础模型 微调 特征聚合 无人机影像 卫星影像
原文传递
融合多源时空信息鸟瞰图的未来实例分割预测
17
作者 冯霞 陈爽 +1 位作者 卢敏 左海超 《吉林大学学报(工学版)》 北大核心 2025年第10期3372-3383,共12页
针对现有实例分割存在的难以识别被遮挡对象、对噪声和视角变化鲁棒性不够等问题,提出了一种融合多源时空信息的场景细粒度鸟瞰图生成方法(MSTFB)。该方法首先基于栅格化场景鸟瞰图,采用自注意力机制融合时序鸟瞰图特征,通过时空跨域卷... 针对现有实例分割存在的难以识别被遮挡对象、对噪声和视角变化鲁棒性不够等问题,提出了一种融合多源时空信息的场景细粒度鸟瞰图生成方法(MSTFB)。该方法首先基于栅格化场景鸟瞰图,采用自注意力机制融合时序鸟瞰图特征,通过时空跨域卷积网络捕获实例间相对位置并聚合多尺度特征,得到场景细粒度鸟瞰图。在此基础上,又提出了一种融合时序编码和样本特征的鸟瞰图实例分割预测方法(ESF-BISP),采用ConvGRU对历史帧进行时序语义编码得到时序特征,通过条件变分自编码器生成当前帧细粒度鸟瞰图的状态特征分布并采样鸟瞰图的样本特征,再利用高斯混合模型融合鸟瞰图时序特征和样本特征,经解码得到未来帧场景细粒度鸟瞰图。在公开数据集nuScenes上的实验结果表明,MSTFB方法和基准算法LSS相比,车辆分割IoU指标提升了7.09%,能有效分割远端车辆和被遮挡车辆;ESFBISP能更好地捕获场景中动态实例的变化,无论是用于实例分割,还是用于未来实例分割预测,其性能都显著优于基准算法。 展开更多
关键词 计算机应用技术 实例分割预测 鸟瞰图时序编码 多视角图像 时空跨域卷积网络
原文传递
异地投资对企业创新边界拓展的影响机制研究
18
作者 杨朝均 戴望想 《软科学》 北大核心 2025年第12期9-16,共8页
基于资源基础观,以2007—2023年中国A股上市公司为样本,实证探究了异地投资对企业创新边界的影响及可能的作用机制。研究发现:异地投资显著促进了企业创新边界拓展。中介机制检验表明,异地投资可通过强化外部技术搜寻、提升人力资本水... 基于资源基础观,以2007—2023年中国A股上市公司为样本,实证探究了异地投资对企业创新边界的影响及可能的作用机制。研究发现:异地投资显著促进了企业创新边界拓展。中介机制检验表明,异地投资可通过强化外部技术搜寻、提升人力资本水平及缓解融资约束等路径助推企业创新边界拓展。异质性分析发现,外部技术搜寻和人力资本水平的中介作用会因高管股权激励的不同存在差异。 展开更多
关键词 异地投资 企业创新边界 资源基础观
原文传递
基于双跨视角相关性检测的多视角子空间聚类
19
作者 郭继鹏 徐世龙 +3 位作者 龙家豪 王友清 孙艳丰 尹宝才 《计算机工程》 北大核心 2025年第4期27-36,共10页
随着多媒体和数据采集技术的快速发展,多视角数据越来越常见。相比于单视角数据,多视角数据可以提供更丰富的描述信息,提高样本结构信息的挖掘效率。针对多视角子空间聚类任务,提出基于双跨视角相关性检测的多视角子空间聚类算法。首先... 随着多媒体和数据采集技术的快速发展,多视角数据越来越常见。相比于单视角数据,多视角数据可以提供更丰富的描述信息,提高样本结构信息的挖掘效率。针对多视角子空间聚类任务,提出基于双跨视角相关性检测的多视角子空间聚类算法。首先,考虑噪声干扰和高维数据冗余性对多视角聚类效果的影响,采用线性投影变换来获得原始数据的低维低冗余潜在表示,并利用其进行自表示学习获得准确的子空间表示。其次,为了充分挖掘多视角数据的互补性信息,对潜在特征表示和子空间表示进行跨视角相关性关系检测,具体为:将多视角潜在特征视为低层次表示,利用希尔伯特-施密特独立性准则(HSIC)探索和保留多视角特征的多样性属性;对于包含一致的高层次聚类结构信息的多视角子空间表示,引入低秩张量约束充分捕获跨视角高阶相关性关系和互补性信息。最后,采用增广拉格朗日乘子交替方向极小化算法求解模型的优化问题。在真实数据上的实验结果表明,与对比方法中的次优方法相比,该算法在6个基准数据集上的聚类准确率分别提高了3.00、3.60、1.90、2.00、7.50和1.90百分点,该结果验证了该算法的优越性和有效性。 展开更多
关键词 多视角子空间聚类 双跨视角相关性检测 低秩张量学习 张量核范数 一致性 互补性
在线阅读 下载PDF
GHGeo:基于异构空间对比损失的跨视角对象级地理定位方法
20
作者 桑泽豪 卢俊 +4 位作者 郭海涛 丁磊 朱坤 徐国峻 魏昊麒 《地球信息科学学报》 北大核心 2025年第11期2563-2577,共15页
【目的】跨视角对象级地理定位(CVOGL)旨在卫星影像上精确定位地面街景或无人机影像所观测目标的地理位置。现有方法多聚焦于图像级匹配,通过对整张影像全局处理实现跨视角关联,缺乏对特定目标的位置编码研究,导致无法将模型的注意力引... 【目的】跨视角对象级地理定位(CVOGL)旨在卫星影像上精确定位地面街景或无人机影像所观测目标的地理位置。现有方法多聚焦于图像级匹配,通过对整张影像全局处理实现跨视角关联,缺乏对特定目标的位置编码研究,导致无法将模型的注意力引导到感兴趣目标。并且由于参考图像覆盖范围的变化,查询目标在对应卫星图像中的像素占比极低,精确定位较为困难。【方法】针对以上问题,本文提出了一种基于高斯核函数与异构空间对比损失的跨视角对象级地理定位方法(Cross-View Object-Level Geo-Localization Method with Gaussian Kernel Function and Heterogeneous Spatial Contrastive Loss,GHGeo),用于精确定位感兴趣目标位置。该方法首先通过高斯核函数对查询目标进行精确位置编码,实现了对目标中心点及其分布特征的精细化建模;此外还提出了动态注意力精细化融合模块来动态加权交叉感知全局上下文与局部几何特征的空间相似性,以概率密度预测查询目标在卫星影像中的精确位置;最后通过异构空间对比损失函数来约束其训练过程,缓解跨视角特征差异。【结果】本文在CVOGL数据集进行了实验,实验结果显示:GHGeo在该数据集的“无人机-卫星”任务中,当交并比(IoU)≥25%和≥50%时定位准确率分别达到67.73%和63.00%,相较于基准方法DetGeo分别提升了5.76%和5.34%;在“街景-卫星”定位任务中,对应IoU阈值下的定位准确率分别为48.41%和45.43%的定位准确率,相较于基准方法DetGeo分别提升了2.98%和3.19%。同时与TransGeo,SAFA和VAGeo等方法在CVOGL数据集上进行对比,GHGeo则展现出了更高的定位准确性。【结论】本文方法有效提升了跨视角对象级地理定位方法的精度,为城市规划监测,应急救援调度等应用领域提供关键技术支持和精确位置信息支撑。 展开更多
关键词 遥感影像 跨视角对象级地理定位 对比学习 高斯核编码 动态融合模块 多模态特征提取 深度学习
原文传递
上一页 1 2 13 下一页 到第
使用帮助 返回顶部