期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于知识重用的噪声环境谱聚类
1
作者 俞敏达 叶绪伦 《模式识别与人工智能》 北大核心 2025年第9期778-790,共13页
谱聚类因其在建模数据间成对相似关系方面的优越性而广泛应用于无监督学习领域.然而,传统谱聚类方法通常依赖干净、结构一致的数据分布,在现实应用中面临常见的噪声样本时,性能显著下降.针对该问题,文中提出融合CLIP(Contrastive Langua... 谱聚类因其在建模数据间成对相似关系方面的优越性而广泛应用于无监督学习领域.然而,传统谱聚类方法通常依赖干净、结构一致的数据分布,在现实应用中面临常见的噪声样本时,性能显著下降.针对该问题,文中提出融合CLIP(Contrastive Language Image Pretraining)先验知识的谱聚类框架——基于知识重用的噪声环境谱聚类(Noise Spectral Clustering with Assistance of Knowledge Reuse,NSCR).该方法充分利用多模态神经网络在跨模态语义理解上的先验能力,构建基于知识重用的伪标签生成机制,通过多模型语义一致性判别机制与基于信息熵的不确定性建模机制识别高可信样本.同时引入归一化指数熵作为伪标签不确定性度量指标,从多模型输出中筛选语义一致、信息熵较低的样本,并生成伪标签,监督信号形式,引导聚类过程.此外,引入联合优化目标,扩展传统谱聚类方法,通过特征对齐与正则化平衡因子缓解伪标签监督与聚类目标之间的语义冲突.在多个公开数据集上的实验表明,NSCR在不同类型噪声干扰下的鲁棒性与泛化性良好. 展开更多
关键词 噪声数据 谱聚类 知识重用 伪标签生成
在线阅读 下载PDF
粒计算优化初始聚类中心的K-medoids聚类算法 被引量:13
2
作者 谢娟英 鲁肖肖 +1 位作者 屈亚楠 高红超 《计算机科学与探索》 CSCD 北大核心 2015年第5期611-620,共10页
针对快速K-medoids聚类算法所选初始聚类中心可能位于同一类簇的缺陷,以及基于粒计算的K-medoids算法构造样本去模糊相似矩阵时需要主观给定阈值的缺陷,提出了粒计算优化初始聚类中心的K-medoids聚类算法。该算法结合粒计算与最大最小... 针对快速K-medoids聚类算法所选初始聚类中心可能位于同一类簇的缺陷,以及基于粒计算的K-medoids算法构造样本去模糊相似矩阵时需要主观给定阈值的缺陷,提出了粒计算优化初始聚类中心的K-medoids聚类算法。该算法结合粒计算与最大最小距离法,优化K-medoids算法初始聚类中心的选取,选择处于样本分布密集区域且相距较远的K个样本作为初始聚类中心;使用所有样本的相似度均值作为其构造去模糊相似矩阵的阈值。人工模拟数据集和UCI机器学习数据库数据集的实验测试表明,新K-medoids聚类算法具有更稳定的聚类效果,其准确率和Adjusted Rand Index等聚类结果评价指标值优于传统K-medoids聚类算法、快速K-medoids聚类算法和基于粒计算的K-medoids聚类算法。 展开更多
关键词 粒计算 初始聚类中心 最大最小距离法 K-me doids聚类算法
在线阅读 下载PDF
一种确定最佳聚类数的新算法 被引量:11
3
作者 谢娟英 马箐 谢维信 《陕西师范大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第1期13-18,共6页
针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)... 针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响. 展开更多
关键词 信息粒度 K-均值 全局K-均值 模糊相似度 聚类指标BWP
在线阅读 下载PDF
密度峰值优化初始中心的K-medoids聚类算法 被引量:29
4
作者 谢娟英 屈亚楠 《计算机科学与探索》 CSCD 北大核心 2016年第2期230-247,共18页
针对快速K-medoids聚类算法和方差优化初始中心的K-medoids聚类算法存在需要人为给定类簇数,初始聚类中心可能位于同一类簇,或无法完全确定数据集初始类簇中心等缺陷,受密度峰值聚类算法启发,提出了两种自适应确定类簇数的K-medoids算... 针对快速K-medoids聚类算法和方差优化初始中心的K-medoids聚类算法存在需要人为给定类簇数,初始聚类中心可能位于同一类簇,或无法完全确定数据集初始类簇中心等缺陷,受密度峰值聚类算法启发,提出了两种自适应确定类簇数的K-medoids算法。算法采用样本x i的t最近邻距离之和倒数度量其局部密度ρi,并定义样本x i的新距离δi,构造样本距离相对于样本密度的决策图。局部密度较高且相距较远的样本位于决策图的右上角区域,且远离数据集的大部分样本。选择这些样本作为初始聚类中心,使得初始聚类中心位于不同类簇,并自动得到数据集类簇数。为进一步优化聚类结果,提出采用类内距离与类间距离之比作为聚类准则函数。在UCI数据集和人工模拟数据集上进行了实验测试,并对初始聚类中心、迭代次数、聚类时间、Rand指数、Jaccard系数、Adjusted Rand index和聚类准确率等经典聚类有效性评价指标进行了比较,结果表明提出的K-medoids算法能有效识别数据集的真实类簇数和合理初始类簇中心,减少聚类迭代次数,缩短聚类时间,提高聚类准确率,并对噪音数据具有很好的鲁棒性。 展开更多
关键词 聚类 K-medoids算法 初始聚类中心 密度峰值 准则函数
在线阅读 下载PDF
最大化ROC曲线下面积的不平衡基因数据集差异表达基因选择算法 被引量:15
5
作者 谢娟英 王明钊 胡秋锋 《陕西师范大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第1期13-22,共10页
针对ARCO(AUC and rank correlation coefficient optimization)算法在进行两类问题特征选择时,采用斯皮尔曼等级相关系数度量已选特征子集冗余性带来信息损失和特征相关性与冗余性度量取值范围不一致的缺陷,提出改进的Pearson相关系数... 针对ARCO(AUC and rank correlation coefficient optimization)算法在进行两类问题特征选择时,采用斯皮尔曼等级相关系数度量已选特征子集冗余性带来信息损失和特征相关性与冗余性度量取值范围不一致的缺陷,提出改进的Pearson相关系数度量特征冗余性,并归一化特征相关性和冗余性度量范围,得到APCO(AUC and improved Pearson correlation coefficient optimization)算法以克服ARCO算法的不足。同时,针对实现多类特征选择的MAUCD(using MAUC as the relevance metric to rank features directly)和MDFS(MAUC decomposition based feature selection method)算法没有考虑特征冗余,且MDFS易选择到局部最优特征子集的问题,提出适于多类问题的改进Pearson相关系数度量特征冗余性,得到基于mRMR(maximal relevance-minimal redundancy)框架的MAUCP和MDFSP算法,克服MAUCD和MDFS算法的缺陷。以SVM、NB和KNN为分类工具,构造基于所选特征子集的相应分类器,以其AUC(MAUC)值度量相应特征子集的性能。7个二类和3个多类不平衡基因数据集的实验结果表明:提出的APCO、MAUCP和MDFSP算法分别优于ARCO、MAUCD和MDFS算法,也优于其他经典基因选择算法。 展开更多
关键词 基因选择 差异表达基因 AUC mRMR 不平衡数据
在线阅读 下载PDF
一种新聚类评价指标 被引量:15
6
作者 谢娟英 周颖 《陕西师范大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第6期1-8,共8页
用于发现数据集类簇数k的常用内部评价指标DB(Davies Bouldin)和BWP(Between-within Proportion)等需要先确定一个搜索范围kmax,使数据集的类簇数满足k≤kmax,但如何确定kmax尚无理论指导。针对这一问题,提出一个新F统计量Fr,将Fr作为... 用于发现数据集类簇数k的常用内部评价指标DB(Davies Bouldin)和BWP(Between-within Proportion)等需要先确定一个搜索范围kmax,使数据集的类簇数满足k≤kmax,但如何确定kmax尚无理论指导。针对这一问题,提出一个新F统计量Fr,将Fr作为新聚类有效性准则,以判断聚类算法收敛与否,自适应地确定数据集类簇数;将Fr应用于快速K-medoids算法的收敛性判断,并以基于最小生成树的测地距离,即样本对在最小生成树上的路径长度,代替其间的直接欧氏距离度量样本相似性,得到一种自适应的快速K-medoids聚类算法,解决了K-medoids算法需要人为给定类簇数和不能发现任意形状簇的问题。UCI机器学习数据库数据集和人工模拟数据集实验测试表明,本文提出的Fr指标是一种有效的聚类算法评价指标,基于该指标和测地距离的K-medoids算法不仅能发现任意形状的簇,还可以自适应地确定数据集的类簇数,且对噪音数据有很好的鲁棒性。 展开更多
关键词 F统计量 内部评价指标 类簇数 K-medoids聚类算法 最小生成树
在线阅读 下载PDF
基于进化算法的多智能体合作学习 被引量:1
7
作者 王云 王俊 韩伟 《山东大学学报(工学版)》 CAS 北大核心 2010年第6期8-11,共4页
强化学习的收敛速度随状态-动作空间的维数呈指数增长,因此在涉及大的状态空间时,强化学习算法的收敛速度非常慢以至不能满足应用需求。在许多应用环境中,若智能体之间存在合作关系,借助多个智能体进行分布式学习可以部分解决这一问题... 强化学习的收敛速度随状态-动作空间的维数呈指数增长,因此在涉及大的状态空间时,强化学习算法的收敛速度非常慢以至不能满足应用需求。在许多应用环境中,若智能体之间存在合作关系,借助多个智能体进行分布式学习可以部分解决这一问题。利用进化算法,设计了智能体繁殖、消亡等操作,使得子代智能体能够继承父代智能体在状态空间的方向信息,从而更快地找到状态-动作空间的有效更新。仿真实验表明:算法比已有的强化学习方法具有更高的搜索效率和收敛速度。 展开更多
关键词 多智能体系统 合作学习 进化算法
原文传递
基于大模型上下文学习的未知意图识别方法
8
作者 孙颢原 刘莹君 +3 位作者 于莉娜 纪涛 张圳锡 吴继冰 《网络安全与数据治理》 2025年第11期38-44,共7页
面对现代化战争的复杂态势,精准的意图识别技术可实现对指挥人员需求的高效理解与精准捕捉,提升决策准确率和敏捷性。现有意图识别方法通常需要大量人工标注的数据进行训练,带来了高昂的成本,并且对于新意图的识别效果较差。为此,提出... 面对现代化战争的复杂态势,精准的意图识别技术可实现对指挥人员需求的高效理解与精准捕捉,提升决策准确率和敏捷性。现有意图识别方法通常需要大量人工标注的数据进行训练,带来了高昂的成本,并且对于新意图的识别效果较差。为此,提出了基于大语言模型(Large Language Models,LLMs)上下文学习的创新解决办法,充分利用大模型的通用语言能力和指令遵循能力,仅需使用少量样本并无需训练,便可完成已知意图识别与新意图发现任务,为意图识别提供了一种新型高效的解决方案。 展开更多
关键词 大语言模型 上下文学习 提示词工程 意图识别
在线阅读 下载PDF
基于stroke滤波器的字符分割算法
9
作者 黄海新 姜学军 《沈阳理工大学学报》 CAS 2009年第4期15-18,共4页
为了有效地解决复杂背景中字符分割的问题,提出一种基于stroke滤波器进行文本分割的新方法.进行stroke滤波器的合理设计,应用所设计的stroke滤波器来判别文本的彩色极性,得到初次分割的二值图,进行基于区域生长的文字分割.应用OCR模块... 为了有效地解决复杂背景中字符分割的问题,提出一种基于stroke滤波器进行文本分割的新方法.进行stroke滤波器的合理设计,应用所设计的stroke滤波器来判别文本的彩色极性,得到初次分割的二值图,进行基于区域生长的文字分割.应用OCR模块提高文本分割的整体性能.仿真实验表明,所提算法有效、可行. 展开更多
关键词 字符分割 复杂背景 OCR stroke滤波器
在线阅读 下载PDF
基于q近邻的不完备数据三支决策聚类方法 被引量:5
10
作者 苏婷 于洪 《计算机科学与探索》 CSCD 北大核心 2016年第6期875-883,共9页
聚类是数据挖掘的重要技术之一,在许多实际应用领域,由于数据获取限制,数据误读,随机噪音等原因会造成大量的缺失数据,形成数据集的不完备性,而传统的聚类方法无法直接对这类数据集进行聚类分析。针对数值型数据,提出了一个基于三支决... 聚类是数据挖掘的重要技术之一,在许多实际应用领域,由于数据获取限制,数据误读,随机噪音等原因会造成大量的缺失数据,形成数据集的不完备性,而传统的聚类方法无法直接对这类数据集进行聚类分析。针对数值型数据,提出了一个基于三支决策的不完备数据聚类方法。首先找到不完备数据对象的q个近邻,使用q个近邻的平均值填充缺失的数据;然后在"完备的"数据集上使用基于密度峰值的聚类方法得到簇划分,对每个簇中含有不确定性的数据对象,使用三支决策的思想将其划分到边界域中。三支决策聚类结果采用区间集形式表示,通常一个簇被划分成正域、负域和边界域部分,可以更好地描述软聚类结果。在UCI数据集和人工数据集上的实验结果展示了算法的有效性。 展开更多
关键词 不完备数据 三支决策聚类 q近邻
在线阅读 下载PDF
一种有效的Gk-prototypes聚类算法 被引量:1
11
作者 郭映江 徐蔚鸿 +1 位作者 陈沅涛 文泽林 《计算机工程与科学》 CSCD 北大核心 2019年第9期1693-1699,共7页
针对传统的聚类算法对初始聚类中心敏感、只能对单一属性聚类且聚类效果有时欠佳等不足,提出了一种能处理数值属性和分类属性的Gk-prototypes聚类算法。在经典的k-prototypes聚类算法的基础上,利用去模糊相似矩阵来构造粗粒子集,结合粒... 针对传统的聚类算法对初始聚类中心敏感、只能对单一属性聚类且聚类效果有时欠佳等不足,提出了一种能处理数值属性和分类属性的Gk-prototypes聚类算法。在经典的k-prototypes聚类算法的基础上,利用去模糊相似矩阵来构造粗粒子集,结合粒计算和最大最小距离法确定初始聚类中心,并改进了目标函数。实验结果和理论分析表明,Gk-prototypes聚类算法与其他基于k-prototypes的改进算法相比,聚类更准确,有效性更好,鲁棒性更强。 展开更多
关键词 k-prototypes聚类 去模糊相似矩阵 粒计算 最大最小距离法
在线阅读 下载PDF
基于网格索引的云海大数据模糊聚类方法仿真 被引量:3
12
作者 康耀龙 冯丽露 张景安 《计算机仿真》 北大核心 2019年第12期341-344,441,共5页
针对云海大数据聚类问题,以及当前数据聚类方法中的不足之处,提出基于网格索引的云海大数据模糊聚类方法。通过云海大数据网格划分,建立云海大数据网格索引机制,用于识别与描述空间内数据的分布与定位信息,应用过程中需要根据实际需求... 针对云海大数据聚类问题,以及当前数据聚类方法中的不足之处,提出基于网格索引的云海大数据模糊聚类方法。通过云海大数据网格划分,建立云海大数据网格索引机制,用于识别与描述空间内数据的分布与定位信息,应用过程中需要根据实际需求选择适当的网格划分级别来保证网格索引效果;根据空间索引机制中各网格内数据的分布情况,将近邻的高密度数据网格进行合并与边界柔化处理,实现数据簇更新及边界调整,结合隶属度函数获取数据聚类信息,完成云海大数据模糊聚类。实验结果表明,基于网格索引的云海大数据模糊聚类方法的聚类迭代次数少于实验对比方法,能够有效辨识数据集的实际类簇数,聚类过程的运行时间更短,即使对于含噪数据集也具备较好的鲁棒性。 展开更多
关键词 网格索引 大数据 数据聚类 模糊聚类 隶属度函数
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部