针对雨雾等复杂天气下无人机图像质量下降导致目标检测效果不佳的问题,提出基于上下文引导和提示学习的目标检测算法CGP-YOLO(context-guided and prompt-based YOLOv8)。构建一个多任务联合学习的检测网络,通过双分支结构达到平衡图像...针对雨雾等复杂天气下无人机图像质量下降导致目标检测效果不佳的问题,提出基于上下文引导和提示学习的目标检测算法CGP-YOLO(context-guided and prompt-based YOLOv8)。构建一个多任务联合学习的检测网络,通过双分支结构达到平衡图像检测和恢复的任务。提出基于提示学习的跨层注意力加权图像去噪分支,指导网络利用退化提示重构清晰的图像;模型主干设计基于上下文的残差采样模块,集成卷积注意力机制,综合目标的局部和全局信息;采用可分离大核多尺度特征提取模块,处理网络多尺度特征;引入小目标的专用检测头,增强小目标的检测精度。实验结果表明,在参数量仅为基线模型60%的情况下,该模型的检测精度提高了2.4个百分点,平均精度(mAP)提高了2.04个百分点,模型检测效果优于其他经典模型,具备卓越的性能。展开更多
近年来,大语言模型(LLM)在自然语言处理、计算机视觉等领域都展示出卓越的语言理解和对话能力。然而,它们常常会在专业领域中产生与正确答案不相符的推理结果。这为LLM在精确和准确的决策任务中的应用带来了重大挑战。为了解决这个问题...近年来,大语言模型(LLM)在自然语言处理、计算机视觉等领域都展示出卓越的语言理解和对话能力。然而,它们常常会在专业领域中产生与正确答案不相符的推理结果。这为LLM在精确和准确的决策任务中的应用带来了重大挑战。为了解决这个问题,提出一种规则指导的后提示词大模型(PP-LLM)生成方法。该方法通过生成后提示词可以将原问题转化为2个更容易解决的子问题,从而引入专家知识、降低任务学习难度。具体来说,使用知识指导的特定规则将监督数据集的输出部分转化为后提示词与输出部分的组合。PP-LLM方法不改变模型的训练和推理过程,并且不增加计算量。实验结果表明,PP-LLM方法显著提高了推理结果的准确性,缩小了模型预测与实际答案之间的差距,与不使用所提方法的结果相比,F1值、ROUGE(Recall-Oriented Understudy for Gisting Evaluation)等都有显著提高。可见,以上工作提高了LLM在专业应用上的可靠性,并为LLM生成技术提供了新的思路。展开更多
现有的野生动物识别方法主要依赖于静态数据集,难以适应物种动态迁移和新增类别识别的需求,导致监测效率低下。针对这一问题,提出多粒度提示驱动的野生动物识别方法(multi-granularity prompt-driven for wildlife recognition,MGP-WILD...现有的野生动物识别方法主要依赖于静态数据集,难以适应物种动态迁移和新增类别识别的需求,导致监测效率低下。针对这一问题,提出多粒度提示驱动的野生动物识别方法(multi-granularity prompt-driven for wildlife recognition,MGP-WILD)。通过云端大语言模型生成层次化语义描述(粗粒度生物分类+细粒度形态特征),由边缘节点协同维护动态知识表。具体而言,MGP-WILD利用大语言模型生成多粒度文本提示,相较于传统单粒度提示方法,本工作通过多粒度语义描述生成,实现了粗细粒度特征的深度融合,并结合视觉语言模型的跨模态对齐能力,实现了零样本精准识别。实验结果表明,该方法在多个数据集上均有较大提升,尤其在开放集识别任务中展现了较强的适应性。该系统已成功应用于青海野生动物栖息地保护,构建了基于真实场景的动物图像数据集,为生态脆弱区的生物多样性保护提供了创新技术范式。代码及部分数据集将在GitHub上公开。展开更多
文摘针对雨雾等复杂天气下无人机图像质量下降导致目标检测效果不佳的问题,提出基于上下文引导和提示学习的目标检测算法CGP-YOLO(context-guided and prompt-based YOLOv8)。构建一个多任务联合学习的检测网络,通过双分支结构达到平衡图像检测和恢复的任务。提出基于提示学习的跨层注意力加权图像去噪分支,指导网络利用退化提示重构清晰的图像;模型主干设计基于上下文的残差采样模块,集成卷积注意力机制,综合目标的局部和全局信息;采用可分离大核多尺度特征提取模块,处理网络多尺度特征;引入小目标的专用检测头,增强小目标的检测精度。实验结果表明,在参数量仅为基线模型60%的情况下,该模型的检测精度提高了2.4个百分点,平均精度(mAP)提高了2.04个百分点,模型检测效果优于其他经典模型,具备卓越的性能。
文摘近年来,大语言模型(LLM)在自然语言处理、计算机视觉等领域都展示出卓越的语言理解和对话能力。然而,它们常常会在专业领域中产生与正确答案不相符的推理结果。这为LLM在精确和准确的决策任务中的应用带来了重大挑战。为了解决这个问题,提出一种规则指导的后提示词大模型(PP-LLM)生成方法。该方法通过生成后提示词可以将原问题转化为2个更容易解决的子问题,从而引入专家知识、降低任务学习难度。具体来说,使用知识指导的特定规则将监督数据集的输出部分转化为后提示词与输出部分的组合。PP-LLM方法不改变模型的训练和推理过程,并且不增加计算量。实验结果表明,PP-LLM方法显著提高了推理结果的准确性,缩小了模型预测与实际答案之间的差距,与不使用所提方法的结果相比,F1值、ROUGE(Recall-Oriented Understudy for Gisting Evaluation)等都有显著提高。可见,以上工作提高了LLM在专业应用上的可靠性,并为LLM生成技术提供了新的思路。
文摘现有的野生动物识别方法主要依赖于静态数据集,难以适应物种动态迁移和新增类别识别的需求,导致监测效率低下。针对这一问题,提出多粒度提示驱动的野生动物识别方法(multi-granularity prompt-driven for wildlife recognition,MGP-WILD)。通过云端大语言模型生成层次化语义描述(粗粒度生物分类+细粒度形态特征),由边缘节点协同维护动态知识表。具体而言,MGP-WILD利用大语言模型生成多粒度文本提示,相较于传统单粒度提示方法,本工作通过多粒度语义描述生成,实现了粗细粒度特征的深度融合,并结合视觉语言模型的跨模态对齐能力,实现了零样本精准识别。实验结果表明,该方法在多个数据集上均有较大提升,尤其在开放集识别任务中展现了较强的适应性。该系统已成功应用于青海野生动物栖息地保护,构建了基于真实场景的动物图像数据集,为生态脆弱区的生物多样性保护提供了创新技术范式。代码及部分数据集将在GitHub上公开。