期刊文献+
共找到2,384篇文章
< 1 2 120 >
每页显示 20 50 100
Basic Tenets of Classification Algorithms K-Nearest-Neighbor, Support Vector Machine, Random Forest and Neural Network: A Review 被引量:15
1
作者 Ernest Yeboah Boateng Joseph Otoo Daniel A. Abaye 《Journal of Data Analysis and Information Processing》 2020年第4期341-357,共17页
In this paper, sixty-eight research articles published between 2000 and 2017 as well as textbooks which employed four classification algorithms: K-Nearest-Neighbor (KNN), Support Vector Machines (SVM), Random Forest (... In this paper, sixty-eight research articles published between 2000 and 2017 as well as textbooks which employed four classification algorithms: K-Nearest-Neighbor (KNN), Support Vector Machines (SVM), Random Forest (RF) and Neural Network (NN) as the main statistical tools were reviewed. The aim was to examine and compare these nonparametric classification methods on the following attributes: robustness to training data, sensitivity to changes, data fitting, stability, ability to handle large data sizes, sensitivity to noise, time invested in parameter tuning, and accuracy. The performances, strengths and shortcomings of each of the algorithms were examined, and finally, a conclusion was arrived at on which one has higher performance. It was evident from the literature reviewed that RF is too sensitive to small changes in the training dataset and is occasionally unstable and tends to overfit in the model. KNN is easy to implement and understand but has a major drawback of becoming significantly slow as the size of the data in use grows, while the ideal value of K for the KNN classifier is difficult to set. SVM and RF are insensitive to noise or overtraining, which shows their ability in dealing with unbalanced data. Larger input datasets will lengthen classification times for NN and KNN more than for SVM and RF. Among these nonparametric classification methods, NN has the potential to become a more widely used classification algorithm, but because of their time-consuming parameter tuning procedure, high level of complexity in computational processing, the numerous types of NN architectures to choose from and the high number of algorithms used for training, most researchers recommend SVM and RF as easier and wieldy used methods which repeatedly achieve results with high accuracies and are often faster to implement. 展开更多
关键词 Classification Algorithms NON-PARAMETRIC k-nearest-neighbor Neural Networks Random Forest Support Vector Machines
在线阅读 下载PDF
面向流形数据的共享近邻和二阶K近邻密度峰值聚类算法
2
作者 赵嘉 陈蔚昌 +3 位作者 肖人彬 潘正祥 崔志华 王晖 《控制理论与应用》 北大核心 2026年第2期388-396,共9页
密度峰值聚类算法能够快速高效处理数据集且无需迭代.但该算法在处理流形数据时,易错选类簇中心和错误分配样本.因此,本文提出面向流形数据的共享近邻和二阶K近邻密度峰值聚类(DPC–SKNN)算法.首先,该算法引入逆近邻和共享近邻重新定义... 密度峰值聚类算法能够快速高效处理数据集且无需迭代.但该算法在处理流形数据时,易错选类簇中心和错误分配样本.因此,本文提出面向流形数据的共享近邻和二阶K近邻密度峰值聚类(DPC–SKNN)算法.首先,该算法引入逆近邻和共享近邻重新定义局部密度,充分考虑样本的局部信息和全局信息,使算法易找到正确的流形类簇中心;其次,将样本的关联关系分为K近邻点、二阶K近邻点和非近邻点3种情况,设计K近邻的分配策略,增强同一类簇样本的相似性,提高样本分配的准确率.将本文算法与8种算法在流形和UCI数据集进行对比,实验结果表明,DPC-SKNN算法在上述数据集上均获得了不错的聚类结果. 展开更多
关键词 密度峰值聚类 逆近邻 共享近邻 二阶K近邻 流形数据
在线阅读 下载PDF
利用二阶k近邻构造微簇的过采样方法
3
作者 孟东霞 柳凌燕 魏晓光 《统计与决策》 北大核心 2026年第3期46-51,共6页
为了解决少数类样本在不平衡数据集中分类准确率较低的问题,文章提出一种利用少数类样本的二阶k近邻构造微簇,并在微簇内进行过采样的数据处理方法。二阶k近邻是样本近邻关系的扩展,能更准确地衡量样本在局部结构关系中的影响力。微簇... 为了解决少数类样本在不平衡数据集中分类准确率较低的问题,文章提出一种利用少数类样本的二阶k近邻构造微簇,并在微簇内进行过采样的数据处理方法。二阶k近邻是样本近邻关系的扩展,能更准确地衡量样本在局部结构关系中的影响力。微簇的划分反映了少数类样本的相似程度,微簇内生成的新样本降低了对少数类原始内在分布结构的影响。该方法先计算少数类样本在整个数据集中的k近邻,移除k近邻均属于多数类的噪声样本,在获得剩余样本的二阶k近邻后再计算样本的局部密度,依据局部密度和近邻关系构造少数类样本的微簇,并在微簇中生成新样本。通过对比实验比较了八种过采样方法在两组人工数据集上生成新样本的分布情况,并使用支持向量机对经过平衡处理的十组数据集进行了分类,结果表明,在所提方法构造的平衡数据集中,少数类样本的分类准确率较高,数据集的整体分类效果较好,验证了所提方法的有效性。 展开更多
关键词 二阶k近邻 不平衡数据 过采样
原文传递
融合时序衰减特性的复购行为及时间间隔预测
4
作者 温雯 钟宴宏 郝志峰 《计算机工程》 北大核心 2026年第4期111-121,共11页
重复消费行为在许多推荐场景中是一种普遍的现象,如电商复购、兴趣点打卡等。重复消费行为包括复购可能性和复购时机两个因素,现有的工作主要关注单个因素的预测,无法有效解决何时复购何物这类具体的问题。此类问题的主要挑战是复购商... 重复消费行为在许多推荐场景中是一种普遍的现象,如电商复购、兴趣点打卡等。重复消费行为包括复购可能性和复购时机两个因素,现有的工作主要关注单个因素的预测,无法有效解决何时复购何物这类具体的问题。此类问题的主要挑战是复购商品类型非常多样,不同商品有不同的购买周期,而复购行为往往比较稀疏,给预测带来极大困难。另外,复购行为包括时间和商品两个维度,如何利用这两个维度的信息进行预测也是一个挑战。针对上述挑战,从用户个性化的动态衰减特性这一角度探索解决方法,建立复购行为及时间间隔的联合预测模型。首先,根据用户对某商品的兴趣随着时间衰减以及近期行为与复购行为具有更强的潜在关联关系,建模商品序列以获得用户表达向量,同时利用邻居序列的信息以解决复购行为稀疏性问题;其次,设计神经网络模块,捕获用户的个性化复购周期和商品复购周期,解决时间和商品两个维度的信息融合问题。在多个公开数据集上的大量实验结果表明,该模型优于现有相关的基准模型。 展开更多
关键词 推荐算法 时序衰减 协同过滤 可解释性 K近邻
在线阅读 下载PDF
基于变量筛选和OS-KELM的出口SO_(2)浓度预测
5
作者 金秀章 陈佳政 张瑾 《华北电力大学学报(自然科学版)》 北大核心 2026年第1期149-158,共10页
针对火力发电厂频繁调峰导致锅炉燃烧不稳定、出口SO_(2)浓度波动范围大难以准确、及时测量的问题,提出了一种基于变量筛选和在线核极限学习机的出口SO_(2)浓度预测模型。首先通过机理分析选择与出口SO_(2)浓度有关的影响变量;再利用基... 针对火力发电厂频繁调峰导致锅炉燃烧不稳定、出口SO_(2)浓度波动范围大难以准确、及时测量的问题,提出了一种基于变量筛选和在线核极限学习机的出口SO_(2)浓度预测模型。首先通过机理分析选择与出口SO_(2)浓度有关的影响变量;再利用基于FCBF改进的mRMR算法去除冗余变量,并对筛选后的变量使用K近邻互信息算法进行时延补偿;然后对补偿后的变量利用变分模态分解(VMD)进行分解,选择相关性最大的变量子集作为最终模型输入;最后利用天牛群算法(Beetle swarm optimization,BSO)优化在线核极限学习机(Online sequential-kernel based extreme learning machine,OS-KELM)参数建立出口SO_(2)浓度预测模型。利用电厂真实运行数据进行实验,结果表明,基于OS-KELM的预测模型其预测效果优于ELM、KELM、OS-ELM模型,具有较高的模型预测精度。 展开更多
关键词 变量筛选 VMD分解 时延补偿 K近邻互信息 天牛群算法 在线核极限学习机
在线阅读 下载PDF
基于特征多样捕捉的KNN-DLinear-GRU变压器油中气体预测模型
6
作者 熊海军 李娅菡 +2 位作者 孟奕吉 王钧平 兰塞迪 《电工电能新技术》 北大核心 2026年第1期84-95,共12页
针对电力变压器油中溶解气体浓度序列非线性和非平稳特性对预测精度的影响,本文提出了一种基于特征多样捕捉的多模型融合的预测方法。首先,通过粒子群优化(PSO)算法对变分模态分解(VMD)的关键参数进行自动优化,最大程度地去除序列中的... 针对电力变压器油中溶解气体浓度序列非线性和非平稳特性对预测精度的影响,本文提出了一种基于特征多样捕捉的多模型融合的预测方法。首先,通过粒子群优化(PSO)算法对变分模态分解(VMD)的关键参数进行自动优化,最大程度地去除序列中的噪声成分,并确保分解后信号的准确性。其次,KNN用于初步特征提取,DLinear模块负责趋势性信息的捕捉,而GRU则建模气体浓度的时间依赖关系,从而提高整体预测精度。实验结果表明,在预测变压器油中溶解气体H2时与GRU单独预测相比,该方法的决定系数提高了22.71%,均方根误差降低了4.972,显著优于单一模型。通过对其他气体成分(如C_(2)H_(2)、总烃)浓度进行预测,结果表明本模型在多种气体成分的预测中均表现出良好的泛化性能,证明了该方法在实际工程中能够有效提高系统的预测准确率。 展开更多
关键词 电力变压器 变分模态分解 油中溶解气体预测 最近邻算法 门控循环单元
在线阅读 下载PDF
基于PNCC声纹特征提取技术和POA-KNN算法的齿轮箱声纹识别故障诊断
7
作者 廖力达 赵阁阳 +1 位作者 魏诚 刘川江 《机电工程》 北大核心 2026年第1期24-33,共10页
风力机齿轮箱是风力发电系统的核心组件之一,承担着将风能转化为电能的重要任务。由于运行环境的恶劣以及长期使用造成的磨损,齿轮箱常常会发生各种故障,从而导致齿轮箱运行过程中产生不同的噪声,严重影响风力机的正常运行和发电效率,因... 风力机齿轮箱是风力发电系统的核心组件之一,承担着将风能转化为电能的重要任务。由于运行环境的恶劣以及长期使用造成的磨损,齿轮箱常常会发生各种故障,从而导致齿轮箱运行过程中产生不同的噪声,严重影响风力机的正常运行和发电效率,因此,提出了一种基于功率正则化倒谱系数(PNCC)声纹特征提取技术,以及行星优化算法与K近邻算法(POA-KNN)模型的风力机齿轮箱声纹识别故障诊断方法。首先,采用LMS噪声采集仪采集了6种不同状态下的风力机齿轮箱噪声数据;然后,使用了PNCC声纹特征提取的方法,提取了齿轮箱噪声信号的声纹图谱;在KNN的基础上加入行星优化算法(POA)优化了K值,提出了性能较高的POA-KNN分类模型;最后,根据6类不同状态下的齿轮数据集,采用对比试验和消融实验验证了模型性能。研究结果表明:POA-KNN模型对齿轮箱的PNCC声纹图分类准确率达到99.4%,比KNN基线模型提升了1.9%。POA-KNN分类模型能很好地对数据集中不同状态下的齿轮箱进行分类,更高效地针对风力机齿轮箱中存在的故障进行诊断。 展开更多
关键词 齿轮箱 功率正则化倒谱系数 声纹识别 声纹特征图谱 行星优化算法与K近邻算法 分类模型
在线阅读 下载PDF
基于模糊粒化K近邻粗糙集模型的属性约简算法
8
作者 高兴媛 李晓明 《电子器件》 2026年第1期189-196,共8页
属性约简是粗糙集理论的核心应用之一。K近邻粗糙集作为传统邻域粗糙集的重要改进,有效解决了数据分布密度差异带来的近似适应性问题,但其在模糊关系下的数据环境中仍缺乏相关研究。针对这一不足,提出一种基于模糊粒化的K近邻粗糙集模... 属性约简是粗糙集理论的核心应用之一。K近邻粗糙集作为传统邻域粗糙集的重要改进,有效解决了数据分布密度差异带来的近似适应性问题,但其在模糊关系下的数据环境中仍缺乏相关研究。针对这一不足,提出一种基于模糊粒化的K近邻粗糙集模型及属性约简算法。首先创新性地将模糊相似关系的粒化方法引入K近邻粗糙集,构建了模糊粒化的K近邻相似关系;然后,以该相似关系作为二元关系,建立了新型K近邻粗糙集模型,并严格证明其数学性质;最后,提出模糊粒化K近邻依赖度指标,用于量化属性的重要度,进而设计了对应的属性约简算法。基于公开数据集的实验表明,所提算法在约简效果和效率上均具有显著优势。 展开更多
关键词 K近邻粗糙集 模糊相似关系 模糊粒化 依赖度 属性约简
在线阅读 下载PDF
基于重复匹配机制的WKNN-BP-MLP神经网络的室内定位算法设计
9
作者 夏颖 王岩 +2 位作者 王艳春 李宗岳 何胤北 《齐齐哈尔大学学报(自然科学版)》 2026年第2期1-6,23,共7页
随着物联网技术的飞速发展,基于位置服务的市场需求日益增长,Wi-Fi指纹定位方法成为研究热点。然而Wi-Fi信号存在于复杂室内环境中导致定位精度不足的问题。通过重复匹配机制优化传统加权K近邻算法并引入多层感知机神经网络和反向传播... 随着物联网技术的飞速发展,基于位置服务的市场需求日益增长,Wi-Fi指纹定位方法成为研究热点。然而Wi-Fi信号存在于复杂室内环境中导致定位精度不足的问题。通过重复匹配机制优化传统加权K近邻算法并引入多层感知机神经网络和反向传播神经网络,基于重复匹配机制的WKNN-BP-MLP神经网络算法,实现高精度室内定位。实验表明,所提定位算法显著提升定位精度,能够满足室内定位场景的技术要求。 展开更多
关键词 室内定位 改进加权K近邻算法 反向传播算法 重复匹配机制 多层感知机神经网络
在线阅读 下载PDF
基于负荷预测的公共建筑围护结构节能率特征研究
10
作者 刘馨 陈家琦 +3 位作者 吴修慧 王萌 冯国会 马腾 《建筑技术》 2026年第2期209-214,共6页
负荷预测能预先确定建筑能耗指标,为高效实施建筑节能优化策略提供清晰的指导方向。利用BP神经网络、决策树回归、KNN回归、XGBoost等预测模型对严寒地区一栋典型的绿色办公建筑进行负荷预测。以围护结构为研究对象,重新定义为建筑本体... 负荷预测能预先确定建筑能耗指标,为高效实施建筑节能优化策略提供清晰的指导方向。利用BP神经网络、决策树回归、KNN回归、XGBoost等预测模型对严寒地区一栋典型的绿色办公建筑进行负荷预测。以围护结构为研究对象,重新定义为建筑本体(围护结构)节能率,并与建筑本体节能率进行对比。KNN回归模型的负荷预测精度最高。建筑本体(围护结构)节能率为35.74%;外墙、外窗、屋顶贡献的节能率分别为25.89%、10.03%、9.09%。提出公共建筑围护结构节能率指标分析方法,量化外墙、外窗、屋顶节能贡献度占比,为办公建筑节能改造提供创新评估路径。 展开更多
关键词 负荷预测 KNN回归 建筑本体(围护结构)节能率 围护结构节能率指标
在线阅读 下载PDF
机载激光点云数据滤波下尾矿坝位移变形监测
11
作者 赵国强 《有色金属(矿山部分)》 2026年第1期49-55,共7页
尾矿坝作为矿业生产的核心设施,其稳定性对矿山安全及周边环境具有重要影响。受表面植被覆盖和复杂地形影响,机载激光点云数据在采集过程中常面临密度不均及多尺度噪声干扰的问题,导致传统方法在形变估计时出现偏差。因此,提出基于机载... 尾矿坝作为矿业生产的核心设施,其稳定性对矿山安全及周边环境具有重要影响。受表面植被覆盖和复杂地形影响,机载激光点云数据在采集过程中常面临密度不均及多尺度噪声干扰的问题,导致传统方法在形变估计时出现偏差。因此,提出基于机载激光点云数据滤波的尾矿坝位移变形监测方法,通过K邻近搜索算法建立空间索引以划分多尺度噪声,并引入空间距离权重与几何相似性权重的双重约束机制,结合双边滤波算法有效抑制噪声干扰。同时,采用对象分割技术将监测区域划分为3D网格单元,实现尾矿坝水平变形与垂直沉降的高精度监测。结果表明,该方法在水平变形和垂直沉降监测中的平均绝对误差显著减小,位移速率波动率低,最大误差仅0.4%,为尾矿坝全生命周期安全提供了毫米级感知能力。相较于传统DS-InSAR技术和时序分解模型,本研究方法在复杂植被覆盖和地形起伏区域表现出更高的监测精度和稳定性,尤其适用于尾矿坝长期安全预警及动态管理场景。 展开更多
关键词 尾矿坝位移变形 双边滤波算法 K邻近搜索算法 法向量夹角 三维单元分割
在线阅读 下载PDF
GPU加速的高维向量聚类算法
12
作者 李忠根 龚盛豪 +3 位作者 于浩然 朱轶凡 柳晴 高云君 《软件学报》 北大核心 2026年第3期1037-1057,共21页
聚类是大规模高维向量数据分析的关键技术之一.近年来,基于密度的聚类算法DBSCAN(density-based spatial clustering of applications with noise)因其无须预先指定聚类数量、能够发现复杂聚类结构并有效识别噪声点的特性,在数据分析领... 聚类是大规模高维向量数据分析的关键技术之一.近年来,基于密度的聚类算法DBSCAN(density-based spatial clustering of applications with noise)因其无须预先指定聚类数量、能够发现复杂聚类结构并有效识别噪声点的特性,在数据分析领域得到了广泛应用.然而,现有的基于密度的聚类算法在处理高维向量数据时将产生极高的时间代价且面临维度灾难等问题,难以在实际场景中部署应用.此外,随着信息技术的发展,高维向量数据规模急剧增加,使用CPU进行高维向量聚类在时间代价和可扩展性等方面将面临更大的挑战.为此,提出一种GPU加速的高维向量聚类算法,通过引入K近邻(K-nearest neighbor,KNN)图索引加速DBSCAN的计算.首先,设计了GPU加速的并行K近邻图构建算法,显著降低了K近邻图索引的构建开销.其次,提出了基于层间并行的K-means树分区算法及基于广度优先搜索和核心近邻图的并行聚类算法,改进了DBSCAN算法的计算流程,实现了高并发向量聚类.最后,在真实向量数据集上进行了大量实验,并将所提出的方法与现有方法进行了性能对比.实验结果表明,所提方法在保证聚类精度的前提下,将大规模向量聚类的效率提高了5.7–2822.5倍. 展开更多
关键词 基于密度的聚类 高维向量 GPU加速 并行计算 K近邻图
在线阅读 下载PDF
圆形网格抽样和逆近邻优化的密度峰值聚类算法
13
作者 赵嘉 何超凡 +2 位作者 肖人彬 曹浩 樊棠怀 《工程科学学报》 北大核心 2026年第1期161-176,共16页
密度峰值聚类(DPC)算法是一种简单高效的聚类算法,因其可直观和快速发现数据集中的类簇而得到广泛关注.但DPC算法需计算所有样本间的欧氏距离,算法的时间复杂度较高;局部密度定义未考虑类簇间密度差异影响,易误选类簇中心;使用链式分配... 密度峰值聚类(DPC)算法是一种简单高效的聚类算法,因其可直观和快速发现数据集中的类簇而得到广泛关注.但DPC算法需计算所有样本间的欧氏距离,算法的时间复杂度较高;局部密度定义未考虑类簇间密度差异影响,易误选类簇中心;使用链式分配策略,易产生错误连带效应.因此,本文提出一种圆形网格抽样和逆近邻优化的密度峰值聚类算法.该算法采用圆形网格抽样得到代表以减少需要计算的样本数,降低算法计算的时间开销,并引入近似K近邻策略加强代表和初始样本的联系,减少抽样导致的聚类精度丢失;利用逆近邻优化局部密度定义策略,根据样本所处环境调节其局部密度的大小,准确找到密度峰值;通过共享逆近邻计算相似性,由相似性矩阵分配代表,避免样本分配策略产生的错误连带效应.设置了复杂形态合成数据集、真实数据集和较大规模数据集进行分组实验.实验结果表明,本文算法在复杂形态、真实及较大规模数据集上聚类优势显著,精度与效率较DPC算法及其他基于DPC的改进算法均有较大提升. 展开更多
关键词 密度峰值聚类 圆形网格抽样 近似K近邻 逆近邻 共享逆近邻
在线阅读 下载PDF
向量数据库的K近邻图高效更新方法
14
作者 王嘉翼 徐士惠 李国良 《软件学报》 北大核心 2026年第3期1006-1020,共15页
在高维数据处理中,K近邻图作为一种关键的数据结构,广泛应用于聚类、图神经网络和推荐系统等领域.然而,随着预训练嵌入模型在非结构化数据建模与检索中的广泛使用,嵌入模型的微调逐渐成为提升嵌入向量的语义表示能力的核心步骤.嵌入微... 在高维数据处理中,K近邻图作为一种关键的数据结构,广泛应用于聚类、图神经网络和推荐系统等领域.然而,随着预训练嵌入模型在非结构化数据建模与检索中的广泛使用,嵌入模型的微调逐渐成为提升嵌入向量的语义表示能力的核心步骤.嵌入微调通常会导致全部数据的向量表示发生系统性变化,从而使原有K近邻图的邻接关系失效.现有研究主要关注于如何为静态数据构建K近邻图,缺乏对微调后的嵌入向量进行快速适应的研究.为此,提出一种面向嵌入模型微调场景的高效K近邻图更新方法FastAdjust.该方法基于嵌入模型微调为每条数据嵌入带来的影响较小的观察,通过局部更新策略对原始K近邻图进行增量调整,在确保最终K近邻图质量的同时,显著提升更新效率.具体而言,首先,FastAdjust利用基于乘积量化的聚类结构,为每条数据高效且准确地定位可能成为邻居的数据子集,缩小候选邻居搜索范围;其次,基于数据密度和嵌入变化幅度,FastAdjust结合二者与数据K近邻变化程度的相关性,为邻居关系变化程度不同的数据针对性地分配不同的更新资源,从而提升整体更新效率.真实数据集上的实验结果表明,FastAdjust在嵌入模型微调的场景下能够快速调整K近邻图,准确地适应数据嵌入的变化,同时大幅减少计算开销,具有良好的实用价值和扩展性. 展开更多
关键词 K近邻图 近似最近邻搜索 嵌入模型
在线阅读 下载PDF
基于KNN算法的问答气象服务技术研究与应用
15
作者 陈冲 张锋 +1 位作者 李建 陶慧青 《自动化技术与应用》 2026年第2期170-173,共4页
由浙江省气象部门推出的“智慧气象”App,依托权威气象数据源与精细化数值预报产品,构建了专业化的气象服务体系,自发布以来持续获得良好的用户口碑与行业认可。随着社会对气象服务的需求向精准化、个性化方向不断深化与细分,叠加气象... 由浙江省气象部门推出的“智慧气象”App,依托权威气象数据源与精细化数值预报产品,构建了专业化的气象服务体系,自发布以来持续获得良好的用户口碑与行业认可。随着社会对气象服务的需求向精准化、个性化方向不断深化与细分,叠加气象科学技术的快速发展,为有效回应用户在不同场景下多样化的气象信息获取诉求,本研究设计并实现了一种基于K近邻算法(K-nearest neighbors, KNN)的气象问答技术。该技术在保留原有App功能架构的基础上,创新性地整合了以KNN为核心的气象问句分类与相似匹配机制,实现了对用户自然语言问询的精准理解与自动化应答。该技术通过构建历史训练语料的特征向量空间,依据问句语义近邻实现高效分类与答案推送,显著提升了气象服务的交互性与智能化水平。实证研究及实际应用反馈表明,引入KNN问答模型后,系统在响应准确率、服务响应效率及用户综合满意度等方面均实现一定提升,为气象服务智慧化升级提供了有效技术支撑,具备良好的推广价值与应用前景。 展开更多
关键词 APP 气象服务 KNN 问答 分类 智能
在线阅读 下载PDF
Efficient Metric All-k-Nearest-Neighbor Search on Datasets Without Any Index 被引量:3
16
作者 Hai-Da Zhang Zhi-Hao Xing +1 位作者 Lu Chen Yun-Jun Gao 《Journal of Computer Science & Technology》 SCIE EI CSCD 2016年第6期1194-1211,共18页
An all-k-nearest-neighbor (AkNN) query finds k nearest neighbors for each query object. This problem arises naturally in many areas, such as GIS (geographic information system), multimedia retrieval, and recommend... An all-k-nearest-neighbor (AkNN) query finds k nearest neighbors for each query object. This problem arises naturally in many areas, such as GIS (geographic information system), multimedia retrieval, and recommender systems. To support various data types and flexible distance metrics involved in real applications, we study AkNN retrieval in metric spaces, namely, metric AkNN (MAkNN) search. Consider that the underlying indexes on the query set and the object set may not exist, which is natural in many scenarios. For example, the query set and the object set could be the results of other queries, and thus, the underlying indexes cannot be built in advance. To support MAkNN search on datasets without any underlying index, we propose an efficient disk-based algorithm, termed as Partition-Based MAkNN Algorithm (PMA), which follows a partition-search framework and employs a series of pruning rules for accelerating the search. In addition, we extend our techniques to tackle an interesting variant of MAkNN queries, i.e., metric self-AkNN (MSAkNN) search, where the query set is identical to the object set. Extensive experiments using both real and synthetic datasets demonstrate the effectiveness of our pruning rules and the efficiency of the proposed algorithms, compared with state-of-the-art MAkNN and MSAkNN algorithms. 展开更多
关键词 all-k-nearest-neighbor search query processing metric space
原文传递
基于KNN-Transformer算法的密度测井曲线重构方法
17
作者 苏俊磊 董旭 +4 位作者 曾渝 史文祺 石雪莹 刘沛东 刘坤 《测井技术》 2026年第1期87-96,共10页
密度测井是计算储层物性参数、识别岩性及评价油气储量的关键技术。受井眼环境、仪器贴壁状况等因素影响,密度曲线常出现局部缺失、数据失真或噪声干扰等问题。为此,提出一种融合K近邻(K-Nearest Neighbors,KNN)算法与Transformer算法... 密度测井是计算储层物性参数、识别岩性及评价油气储量的关键技术。受井眼环境、仪器贴壁状况等因素影响,密度曲线常出现局部缺失、数据失真或噪声干扰等问题。为此,提出一种融合K近邻(K-Nearest Neighbors,KNN)算法与Transformer算法的密度测井曲线重构方法KNN-Transformer。该方法首先利用KNN在多元测井特征空间中检索与目标段时间序列沉积特征相似的样本,通过计算目标段与历史样本在声波时差、自然伽马、电阻率等多维特征上的欧氏距离,筛选出最相似的K个邻域样本,构建增强的地质先验输入集,增强输入数据的地质代表性,进而采用Transformer算法的多头自注意力机制,建立深度序列间任意位置的长程依赖关系,有效融合局部相似性约束与全局序列模式,实现局部特征与全局结构的协同表达。实验结果表明,KNN-Transformer算法密度测井曲线重构的结果平均绝对误差为0.0170,决定系数R^(2)达0.9533,其与支持向量回归、线性回归及长短期记忆(Long Short-Term Memory,LSTM)网络等典型算法相比,平均绝对误差降低30%~60%,对密度测井曲线总体趋势与局部细节均具有更高的重构精度,并在岩性界面及复杂层段表现出更好的稳定性与正确性。该方法有效修复了密度曲线的局部缺失,校正了数据失真并抑制了噪声干扰,显著提升了重构曲线的数值精度与地质合理性,为复杂储层条件下的测井数据高质量重建提供了可靠的技术途径。 展开更多
关键词 密度测井 K近邻 TRANSFORMER 曲线重构 深度学习 注意力机制 序列建模
在线阅读 下载PDF
基于AHP-EWM-KNN模型的煤矿顶板涌水危险性评价
18
作者 张慈增 张栋 《煤炭工程》 北大核心 2026年第3期198-205,共8页
为构建科学、严谨的煤层顶板涌水危险性评价体系,以嘎鲁图矿井2105工作面为背景,采用层次分析法-熵权法(AHP-EWM)优化涌水影响因素的综合权重,确定顶板涌水主控因素。以渗透系数、含水层厚度、孔隙水压力、温度及内聚力等指标为输入参数... 为构建科学、严谨的煤层顶板涌水危险性评价体系,以嘎鲁图矿井2105工作面为背景,采用层次分析法-熵权法(AHP-EWM)优化涌水影响因素的综合权重,确定顶板涌水主控因素。以渗透系数、含水层厚度、孔隙水压力、温度及内聚力等指标为输入参数,结合K近邻(KNN)机器学习算法,构建“数据输入-模型训练-现场验证-性能优化-预测应用”一体化的煤层顶板涌水危险性评价模型。结果表明:含水层厚度对嘎鲁图矿煤层顶板涌水的影响程度最大,渗透系数次之;通过对含水层厚度数据进行清洗与降噪处理,可显著提升模型预测精度,所构建的AHP-EWM-KNN融合模型精确率为0.9598,F_(1)-score为0.9569,验证了评价指标选取合理、预测方法可行。预测结果显示,2105工作面辅助运输巷距开切眼0~330 m及1620~2210 m区段为涌水高危险区域。该研究成果丰富了井下煤层顶板涌水危险性评价方法体系。 展开更多
关键词 顶板涌水 AHP-EWM 机器学习 模型预测 数据清洗 K近邻
在线阅读 下载PDF
置信度优化的k近邻机器翻译方法
19
作者 周茂春 朱俊国 《小型微型计算机系统》 北大核心 2026年第4期902-908,共7页
k近邻机器翻译(kNN-MT)通过检索外部数据存储中的翻译知识,显著地提升神经机器翻译(NMT)模型预测的准确性.然而,使用固定的融合比例聚合NMT模型预测和kNN检索的概率分布容易使模型受到检索结果中噪声的干扰,且kNN检索的高延迟特性限制... k近邻机器翻译(kNN-MT)通过检索外部数据存储中的翻译知识,显著地提升神经机器翻译(NMT)模型预测的准确性.然而,使用固定的融合比例聚合NMT模型预测和kNN检索的概率分布容易使模型受到检索结果中噪声的干扰,且kNN检索的高延迟特性限制了其实际应用.为此,本文提出了一种基于置信度优化的k近邻机器翻译方法.具体地,引入置信度估计模块动态评估NMT预测的概率分布与kNN检索分布的可靠性,以自适应的方式计算概率融合比例以提升翻译的准确性.同时,基于模型的置信度修剪数据存储中冗余的知识实例,提升模型的解码效率.在两组特定语言对翻译任务的实验结果表明,该方法在翻译质量和解码效率上均显著优于标准的kNN-MT模型. 展开更多
关键词 k近邻机器翻译 数据存储 检索 置信度
在线阅读 下载PDF
基于邻域粗糙集和K近邻分类的核素识别方法研究
20
作者 陈宸 吴桓 +1 位作者 王国帆 姚正勇 《核技术》 北大核心 2026年第2期78-87,共10页
针对γ能谱数据的高维特性和噪声干扰导致传统核素识别方法普遍存在识别精度不足与计算效率较低的问题,提出一种融合邻域粗糙集与K近邻分类的核素识别方法,以满足便携式核素识别设备在资源受限环境下的实际应用需求。该方法首先采用主... 针对γ能谱数据的高维特性和噪声干扰导致传统核素识别方法普遍存在识别精度不足与计算效率较低的问题,提出一种融合邻域粗糙集与K近邻分类的核素识别方法,以满足便携式核素识别设备在资源受限环境下的实际应用需求。该方法首先采用主成分分析法(Principal Component Analysis,PCA)对原始1024维γ能谱数据进行降维,提取出累积贡献率≥99%的主成分,以消除冗余信息并抑制噪声干扰;随后引入邻域粗糙集的属性约简算法,通过定义样本邻域关系并计算属性依赖度,结合启发式前向贪心搜索策略对特征属性进行约简,最大限度保留关键判别信息并提升特征子集的分类鉴别能力;最后将约简后的低维特征输入K近邻分类器,依据距离加权投票机制计算各类核素的置信度,实现高效率、准确的核素识别。基于一套LaBr_(3)(Ce)探测系统与1024道多道分析器对识别算法进行实验测试,采集包括12种单一核素及2种混合核素在内的224组γ能谱样本,在STM32F407ZGT6单片机硬件平台上进行测试,在邻域半径δ=0.2时对包含特征峰重叠的混合核素在内的测试集的平均识别精度达到98.5%,单次核素识别运行时间控制在140 ms内,显著提升了核素识别的准确性与计算效率,为后续便携式核素识别仪的算法部署提供了可靠保障。 展开更多
关键词 Γ谱仪 邻域粗糙集 K近邻分类 核素识别
原文传递
上一页 1 2 120 下一页 到第
使用帮助 返回顶部