谱聚类因其在建模数据间成对相似关系方面的优越性而广泛应用于无监督学习领域.然而,传统谱聚类方法通常依赖干净、结构一致的数据分布,在现实应用中面临常见的噪声样本时,性能显著下降.针对该问题,文中提出融合CLIP(Contrastive Langua...谱聚类因其在建模数据间成对相似关系方面的优越性而广泛应用于无监督学习领域.然而,传统谱聚类方法通常依赖干净、结构一致的数据分布,在现实应用中面临常见的噪声样本时,性能显著下降.针对该问题,文中提出融合CLIP(Contrastive Language Image Pretraining)先验知识的谱聚类框架——基于知识重用的噪声环境谱聚类(Noise Spectral Clustering with Assistance of Knowledge Reuse,NSCR).该方法充分利用多模态神经网络在跨模态语义理解上的先验能力,构建基于知识重用的伪标签生成机制,通过多模型语义一致性判别机制与基于信息熵的不确定性建模机制识别高可信样本.同时引入归一化指数熵作为伪标签不确定性度量指标,从多模型输出中筛选语义一致、信息熵较低的样本,并生成伪标签,监督信号形式,引导聚类过程.此外,引入联合优化目标,扩展传统谱聚类方法,通过特征对齐与正则化平衡因子缓解伪标签监督与聚类目标之间的语义冲突.在多个公开数据集上的实验表明,NSCR在不同类型噪声干扰下的鲁棒性与泛化性良好.展开更多
针对ARCO(AUC and rank correlation coefficient optimization)算法在进行两类问题特征选择时,采用斯皮尔曼等级相关系数度量已选特征子集冗余性带来信息损失和特征相关性与冗余性度量取值范围不一致的缺陷,提出改进的Pearson相关系数...针对ARCO(AUC and rank correlation coefficient optimization)算法在进行两类问题特征选择时,采用斯皮尔曼等级相关系数度量已选特征子集冗余性带来信息损失和特征相关性与冗余性度量取值范围不一致的缺陷,提出改进的Pearson相关系数度量特征冗余性,并归一化特征相关性和冗余性度量范围,得到APCO(AUC and improved Pearson correlation coefficient optimization)算法以克服ARCO算法的不足。同时,针对实现多类特征选择的MAUCD(using MAUC as the relevance metric to rank features directly)和MDFS(MAUC decomposition based feature selection method)算法没有考虑特征冗余,且MDFS易选择到局部最优特征子集的问题,提出适于多类问题的改进Pearson相关系数度量特征冗余性,得到基于mRMR(maximal relevance-minimal redundancy)框架的MAUCP和MDFSP算法,克服MAUCD和MDFS算法的缺陷。以SVM、NB和KNN为分类工具,构造基于所选特征子集的相应分类器,以其AUC(MAUC)值度量相应特征子集的性能。7个二类和3个多类不平衡基因数据集的实验结果表明:提出的APCO、MAUCP和MDFSP算法分别优于ARCO、MAUCD和MDFS算法,也优于其他经典基因选择算法。展开更多
面对现代化战争的复杂态势,精准的意图识别技术可实现对指挥人员需求的高效理解与精准捕捉,提升决策准确率和敏捷性。现有意图识别方法通常需要大量人工标注的数据进行训练,带来了高昂的成本,并且对于新意图的识别效果较差。为此,提出...面对现代化战争的复杂态势,精准的意图识别技术可实现对指挥人员需求的高效理解与精准捕捉,提升决策准确率和敏捷性。现有意图识别方法通常需要大量人工标注的数据进行训练,带来了高昂的成本,并且对于新意图的识别效果较差。为此,提出了基于大语言模型(Large Language Models,LLMs)上下文学习的创新解决办法,充分利用大模型的通用语言能力和指令遵循能力,仅需使用少量样本并无需训练,便可完成已知意图识别与新意图发现任务,为意图识别提供了一种新型高效的解决方案。展开更多
文摘谱聚类因其在建模数据间成对相似关系方面的优越性而广泛应用于无监督学习领域.然而,传统谱聚类方法通常依赖干净、结构一致的数据分布,在现实应用中面临常见的噪声样本时,性能显著下降.针对该问题,文中提出融合CLIP(Contrastive Language Image Pretraining)先验知识的谱聚类框架——基于知识重用的噪声环境谱聚类(Noise Spectral Clustering with Assistance of Knowledge Reuse,NSCR).该方法充分利用多模态神经网络在跨模态语义理解上的先验能力,构建基于知识重用的伪标签生成机制,通过多模型语义一致性判别机制与基于信息熵的不确定性建模机制识别高可信样本.同时引入归一化指数熵作为伪标签不确定性度量指标,从多模型输出中筛选语义一致、信息熵较低的样本,并生成伪标签,监督信号形式,引导聚类过程.此外,引入联合优化目标,扩展传统谱聚类方法,通过特征对齐与正则化平衡因子缓解伪标签监督与聚类目标之间的语义冲突.在多个公开数据集上的实验表明,NSCR在不同类型噪声干扰下的鲁棒性与泛化性良好.
文摘针对ARCO(AUC and rank correlation coefficient optimization)算法在进行两类问题特征选择时,采用斯皮尔曼等级相关系数度量已选特征子集冗余性带来信息损失和特征相关性与冗余性度量取值范围不一致的缺陷,提出改进的Pearson相关系数度量特征冗余性,并归一化特征相关性和冗余性度量范围,得到APCO(AUC and improved Pearson correlation coefficient optimization)算法以克服ARCO算法的不足。同时,针对实现多类特征选择的MAUCD(using MAUC as the relevance metric to rank features directly)和MDFS(MAUC decomposition based feature selection method)算法没有考虑特征冗余,且MDFS易选择到局部最优特征子集的问题,提出适于多类问题的改进Pearson相关系数度量特征冗余性,得到基于mRMR(maximal relevance-minimal redundancy)框架的MAUCP和MDFSP算法,克服MAUCD和MDFS算法的缺陷。以SVM、NB和KNN为分类工具,构造基于所选特征子集的相应分类器,以其AUC(MAUC)值度量相应特征子集的性能。7个二类和3个多类不平衡基因数据集的实验结果表明:提出的APCO、MAUCP和MDFSP算法分别优于ARCO、MAUCD和MDFS算法,也优于其他经典基因选择算法。
文摘面对现代化战争的复杂态势,精准的意图识别技术可实现对指挥人员需求的高效理解与精准捕捉,提升决策准确率和敏捷性。现有意图识别方法通常需要大量人工标注的数据进行训练,带来了高昂的成本,并且对于新意图的识别效果较差。为此,提出了基于大语言模型(Large Language Models,LLMs)上下文学习的创新解决办法,充分利用大模型的通用语言能力和指令遵循能力,仅需使用少量样本并无需训练,便可完成已知意图识别与新意图发现任务,为意图识别提供了一种新型高效的解决方案。