摘要
为突破传统语义通信对大规模标注数据的依赖,提升系统在动态环境中对多模态数据的处理能力与泛化性,提出了一种融合零样本学习(ZSL)与生成模型的多模态语义通信框架。该框架以CLIP、CLAP多模态模型为核心,通过对比学习机制将图像、音频、文本及环境感知数据映射到共享语义向量空间,实现多模态数据的语义对齐;同时设计发送端语义编码与接收端动态推理机制,结合生成模型与知识库动态更新策略,在缺乏标注数据时仍能高效处理未见类别数据。多轮次对比实验表明,与RGEN、VAE-GAN等零样本方法相比,该方法的视频质量评估指标显著提升:VMAF从初始的62.36提升至74.67,PSNR从29.82 dB提升至35.23 dB,且在视觉清晰度与观感一致性上表现突出。该框架通过持续优化知识库与生成流程,有效增强了语义通信的鲁棒性与长期适应性,为多模态语义通信的技术优化与场景拓展提供了实践参考。
出处
《物联网技术》
2025年第23期120-124,共5页
Internet of things technologies
基金
广东省教育厅青年创新人才项目(2022WQNCX202)。