针对农业场景中草莓因枝叶遮挡、簇生分布及果面反光导致稀疏观测下难以三维重建的问题,本研究基于SA3D(Segment Anything in 3D)框架,在实验室条件下验证了自动化构建高保真草莓三维模型库的可行性。该方法融合DVGO与SAM,利用DVGO从14...针对农业场景中草莓因枝叶遮挡、簇生分布及果面反光导致稀疏观测下难以三维重建的问题,本研究基于SA3D(Segment Anything in 3D)框架,在实验室条件下验证了自动化构建高保真草莓三维模型库的可行性。该方法融合DVGO与SAM,利用DVGO从144张多视角图像中重建保留种子、果蒂等亚毫米细节的三维几何;结合SAM仅需1~2个提示点生成2D掩码,通过Mask逆渲染与跨视角自提示机制实现无标注的三维果实分割。为提升实用性,开发了基于Dash的交互式系统,集成图像上传、位姿估计、重建与分割全流程,支持非专业用户高效建模。实验表明,该方法平均PSNR达20.83 dB(较NeRF提升1.12 dB),IoU均值为0.803,显著增强遮挡与反光区域的重建鲁棒性。所构建的标准化点云库可为表型测量提供基准,并作为几何与语义先验支撑田间稀疏视角重建,服务于智能采摘系统的视觉感知。展开更多
具身3D感知任务需通过自然语言指令,从第一人称视角理解动态环境.然而,当前基于大语言模型(large language models,LLMs)的具身3D感知方法仍存在局限:一些方法受限于语义输出范围与定位精度,另一些LLM方案缺乏能够有效聚合多视角语义与...具身3D感知任务需通过自然语言指令,从第一人称视角理解动态环境.然而,当前基于大语言模型(large language models,LLMs)的具身3D感知方法仍存在局限:一些方法受限于语义输出范围与定位精度,另一些LLM方案缺乏能够有效聚合多视角语义与几何特征的统一编码器,而这些特征对实现精准语言对齐与精确定位至关重要.为了解决这个问题,我们提出M3Fusion,首个面向具身3D感知的端到端多视角多模态统一融合框架.该框架紧密整合来自多个第一人称视角的2D视觉语义与3D几何特征,将其投影至共享3D空间,形成统一的M3-tokens.这些token不仅能够无缝对齐语言指令以理解复杂任务,还能同步解码生成精确的3D边界框.我们提出一种专门的三阶段训练策略以实现跨模态对齐.在3D视觉定位(3D visual grounding,3DVG)与3D视觉问答(3DQA)数据集上的评估表明:我们的框架在定位精度上显著提升,同时保持问答能力,充分证明了统一表征与框架设计的优越性.展开更多
文摘具身3D感知任务需通过自然语言指令,从第一人称视角理解动态环境.然而,当前基于大语言模型(large language models,LLMs)的具身3D感知方法仍存在局限:一些方法受限于语义输出范围与定位精度,另一些LLM方案缺乏能够有效聚合多视角语义与几何特征的统一编码器,而这些特征对实现精准语言对齐与精确定位至关重要.为了解决这个问题,我们提出M3Fusion,首个面向具身3D感知的端到端多视角多模态统一融合框架.该框架紧密整合来自多个第一人称视角的2D视觉语义与3D几何特征,将其投影至共享3D空间,形成统一的M3-tokens.这些token不仅能够无缝对齐语言指令以理解复杂任务,还能同步解码生成精确的3D边界框.我们提出一种专门的三阶段训练策略以实现跨模态对齐.在3D视觉定位(3D visual grounding,3DVG)与3D视觉问答(3DQA)数据集上的评估表明:我们的框架在定位精度上显著提升,同时保持问答能力,充分证明了统一表征与框架设计的优越性.