期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于HDBSCAN的多模态高效不良网页聚类算法设计
1
作者 史磊 邓桂英 +2 位作者 张恒 刘宇 肖建芳 《微型电脑应用》 2024年第6期242-246,共5页
自二十一世纪以来,大量网页在互联网中被构建,为人们提供了各种信息,不仅加快了信息交换的速度,而且使信息流通的成本大大降低。与此同时大量不良网站不断涌现,然而对于不良网页的认定多基于人工识别,无法应对不良网站的大规模出现,因... 自二十一世纪以来,大量网页在互联网中被构建,为人们提供了各种信息,不仅加快了信息交换的速度,而且使信息流通的成本大大降低。与此同时大量不良网站不断涌现,然而对于不良网页的认定多基于人工识别,无法应对不良网站的大规模出现,因此提出基于HDBSCAN的多模态高效不良网页聚类算法。利用HDBSCAN对不良网页图片进行初步聚类,对初步聚类的结果叠加使用不良网页文本信息、不良网页结构信息等多个信息要素进一步归类合并,将相似网页合并为一个大而全的图片集合。实验结果表明,相比于HDBSCAN,改进后的聚类算法提高了聚类质量,具有更好的聚类效果,不良网站的处理效率得到明显提升。 展开更多
关键词 hdbscan 多模态 不良网页 聚类
在线阅读 下载PDF
基于HDBSCAN算法的终端区航迹聚类 被引量:2
2
作者 王志伟 刘继新 +1 位作者 杨宋瑞雪 田文 《计算机仿真》 2024年第1期44-47,348,共5页
针对机场终端区运行环境复杂,空中交通流密度分布不均的问题,提出了一种基于快速动态时间规整(FastDTW)和层次密度聚类(HDBSCAN)算法识别具有密度差异的交通流,以挖掘终端空域的交通流模式。结合航迹的多维特征,对原始航迹数据进行重采... 针对机场终端区运行环境复杂,空中交通流密度分布不均的问题,提出了一种基于快速动态时间规整(FastDTW)和层次密度聚类(HDBSCAN)算法识别具有密度差异的交通流,以挖掘终端空域的交通流模式。结合航迹的多维特征,对原始航迹数据进行重采样;利用Fast DTW方法构建航迹相似度矩阵,应用HDBSCAN方法对输入矩阵进行聚类。运用终端区真实航迹数据进行仿真验证,仿真结果表明,上述方法可以实现航迹精细化聚类,有效识别不同密度的空中交通流。 展开更多
关键词 航空运输 航迹聚类 动态时间规整 层次密度聚类
在线阅读 下载PDF
基于UMAP与HDBSCAN的北京市极端暴雨时空动态分布规律研究 被引量:6
3
作者 徐淑高 王纤阳 +3 位作者 蒋卫威 鱼京善 刘源 周桂欢 《北京师范大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期269-279,共11页
极端暴雨具有历时短、雨强大、破坏性强等特点,是引发城市内涝的主要原因之一,探究其时空动态分布规律,有助于提高城市内涝风险精细化管理水平.本文以北京市2004−2016年308个气象站点的降雨资料为研究样本,利用UMAP降维算法和HDBSCAN聚... 极端暴雨具有历时短、雨强大、破坏性强等特点,是引发城市内涝的主要原因之一,探究其时空动态分布规律,有助于提高城市内涝风险精细化管理水平.本文以北京市2004−2016年308个气象站点的降雨资料为研究样本,利用UMAP降维算法和HDBSCAN聚类算法,构建了各类极端暴雨事件的时空动态分布模型.首次提取了北京市全域4类极端暴雨模式:模式1,暴雨集中在主城区,并围绕主城区缓慢移动;模式2,暴雨从西南山区途经主城区,向东北方向移动;模式3,暴雨自西部山区向主城区西北部扩散,最后向主城区北部方向移动;模式4,暴雨从西部山区途经主城区向东移动.研究结果表明,北京市极端暴雨的主要类型为短历时降雨过程,暴雨中心在空间上均存在从西向东移动的趋势.其中,主城区、东南山区以及南部平原地区面临相对更高的极端暴雨风险.各类极端暴雨的模式特征物理机制明确,其重构特征可以充分表征实际暴雨事件特性.研究成果可为北京市降雨设计、城市内涝风险管理等工作提供一定的参考. 展开更多
关键词 极端暴雨 UMAP hdbscan 动态时空分布 北京
在线阅读 下载PDF
一种改进的m_(pts)-HDBSCAN算法 被引量:1
4
作者 王荣荣 傅秀芬 《广东工业大学学报》 CAS 2017年第3期49-53,58,共6页
聚类分析是非监督模式分类的一个重要分支.DBSCAN算法是基于密度聚类的最常见算法,且具有可发现任意形状的簇并且对噪声点不敏感等优点而得到广泛研究与应用.本文首先研究了DBSCAN所存在的一些问题,以及当前基于DBSCAN算法改进算法所存... 聚类分析是非监督模式分类的一个重要分支.DBSCAN算法是基于密度聚类的最常见算法,且具有可发现任意形状的簇并且对噪声点不敏感等优点而得到广泛研究与应用.本文首先研究了DBSCAN所存在的一些问题,以及当前基于DBSCAN算法改进算法所存在的不足.其次,对于mpts-HDBSCAN算法处理密度分布不均匀数据聚类效果不理想的情况,提出了一种新的分区算法.分区算法根据数据分布的直方图确定分组数据,根据分区阈值这个标准来确定是否对数据进行划分处理;然后运用mpts-HDBSCAN算法对划分后的子数据进行聚类,并对聚类的结果进行合并.实验结果表明,改进后的算法对于处理密度不均匀数据具有更好的效果. 展开更多
关键词 聚类 数据分区 mpts-hdbscan算法 合并子类
在线阅读 下载PDF
基于GeoHash和HDBSCAN的共享单车停车拥挤区域识别 被引量:4
5
作者 洪文兴 陈明韬 +2 位作者 刘伊灵 朱嘉诚 王明磊 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第6期1030-1037,共8页
共享单车是一种便宜、绿色环保的短途出行工具,已经成为缓解城市交通压力的重要方式.对于无桩共享单车,用户无需将自行车归还至停车桩,但这种类型的共享单车在高峰时间可能会过于拥挤.本文提出了一种共享单车停车拥挤区域识别的方法.具... 共享单车是一种便宜、绿色环保的短途出行工具,已经成为缓解城市交通压力的重要方式.对于无桩共享单车,用户无需将自行车归还至停车桩,但这种类型的共享单车在高峰时间可能会过于拥挤.本文提出了一种共享单车停车拥挤区域识别的方法.具体来说,以某市某品牌共享单车为例,首先对共享单车数据进行预处理,然后使用GeoHash算法处理经纬度坐标信息并计算判断共享单车开关锁订单属于哪个停车围栏,采用HDBSCAN(hierarchical density-based spatial clustering of application with noise)聚类算法将停车围栏聚类为停车区域,在此基础上提出了基于“留存流量与留存密度的综合指标”的方法识别停车拥挤区域.通过分析,识别出的停车拥挤区域符合实际情况.所提出的停车拥挤区域识别方法能够为“削峰填谷”引导调度提供有效的数据支持,给共享单车企业提供一定的参考. 展开更多
关键词 共享单车 GeoHash算法 hdbscan算法 停车拥挤区域
在线阅读 下载PDF
基于HDBSCAN的船舶轨迹聚类方法 被引量:2
6
作者 韩田宇 《科学技术创新》 2022年第19期164-167,共4页
随着船舶自动识别系统(AIS)提供的海量信息,AIS系统在海上运输系统相关的研究和开发中发挥着重要作用。复杂的原始AIS数据中蕴藏着丰富的信息。从船舶轨迹进行数据挖掘的基础是轨迹聚类。因此,本文采用了一种针对AIS轨迹的聚类方法,综... 随着船舶自动识别系统(AIS)提供的海量信息,AIS系统在海上运输系统相关的研究和开发中发挥着重要作用。复杂的原始AIS数据中蕴藏着丰富的信息。从船舶轨迹进行数据挖掘的基础是轨迹聚类。因此,本文采用了一种针对AIS轨迹的聚类方法,综合利用AIS数据中船舶的运动学信息。本文通过HDBSCAN从AIS数据中获得船舶轨迹。以渤海部分区域船舶轨迹数据为例。试验结果显示:该方法能够在纷繁复杂的船舶轨迹中发现具有相似性的轨迹群,且结果与实际情况相符,在航道规划、航行预测、船舶行为监测等方面具有一定的参考价值。 展开更多
关键词 hdbscan AIS 船舶聚类
在线阅读 下载PDF
基于HDBSCAN算法的LiDAR建筑点云自动提取研究
7
作者 淦立琴 《科技创新与应用》 2023年第26期43-45,49,共4页
激光雷达(LiDAR)可以高精度地获取地表物体的高度信息和位置信息,在建筑三维数字化建模方面发挥着重要作用。以自动正确提取房屋建筑点云为目的,该文提出一种基于CSF滤波和HDBSCAN聚类算法的LiDAR点云分类方法。首先利用CSF滤波方法过... 激光雷达(LiDAR)可以高精度地获取地表物体的高度信息和位置信息,在建筑三维数字化建模方面发挥着重要作用。以自动正确提取房屋建筑点云为目的,该文提出一种基于CSF滤波和HDBSCAN聚类算法的LiDAR点云分类方法。首先利用CSF滤波方法过滤地面点云。在地上点云的基础上,综合点云回波特征如密度和高度等信息,构建HDBSCAN密度层次聚类树模型,设定高程阈值,快速高效地分离出建筑点云。分类结果有效保留建筑的规则形状,为进一步提高外业采集房屋工作效率和技术水平提供支持。 展开更多
关键词 激光雷达 hdbscan CSF滤波 建筑提取 点云分类方法
在线阅读 下载PDF
多模型集成学习对皮鞋鞋底的X射线荧光光谱分类研究
8
作者 姜红 马星煜 陈越 《皮革科学与工程》 北大核心 2025年第6期69-73,共5页
建立了一种简单快速无损的皮鞋鞋底样本分类方法。利用X射线荧光光谱(XRF)对55个不同品牌的皮鞋鞋底样本进行检测,并选出Cl、Ca、Zn等7种检出率较高的元素作为分类指标,结合HDBSCAN聚类算法将样本分为四类,发现其成分特征与品牌定位(如... 建立了一种简单快速无损的皮鞋鞋底样本分类方法。利用X射线荧光光谱(XRF)对55个不同品牌的皮鞋鞋底样本进行检测,并选出Cl、Ca、Zn等7种检出率较高的元素作为分类指标,结合HDBSCAN聚类算法将样本分为四类,发现其成分特征与品牌定位(如运动、快时尚等)及生产批次显著相关。进一步采用多层感知机(MLP)、随机森林(RF)、梯度提升树(GBDT)、极端梯度提升树(XGBoost)、支持向量机(SVM)等五种模型进行分类验证,准确率分别为72.7%(MLP)、47.1%(RF)、64.7%(GBDT)、70.6%(XGBoost)、82.4%(SVM)。为提高分类准确率,构建Stacking集成模型,以SVM、XGBoost和MLP为基模型,逻辑回归为元模型,分类准确率提升至94.1%。结果表明,集成学习方法可有效提取XRF数据特征,显著提升皮鞋鞋底样本分类准确率。 展开更多
关键词 皮鞋鞋底 X射线荧光光谱 多模型集成学习 hdbscan聚类 Stacking模型
原文传递
基于AIS的海洋捕鱼聚集区信息系统设计与开发
9
作者 韩暄 侯英姿 +1 位作者 王俊夫 王方雄 《科学技术创新》 2025年第3期61-64,共4页
本文设计并开发了一个基于AIS大数据的海洋捕鱼聚集区信息系统,提供了基于B/S架构的系统界面、服务功能和数据库的设计方案。主要功能包括:利用LSTM+HDBSCAN深度学习算法识别和管理捕鱼聚集区、网络地图浏览、测距、打印输出及用户管理... 本文设计并开发了一个基于AIS大数据的海洋捕鱼聚集区信息系统,提供了基于B/S架构的系统界面、服务功能和数据库的设计方案。主要功能包括:利用LSTM+HDBSCAN深度学习算法识别和管理捕鱼聚集区、网络地图浏览、测距、打印输出及用户管理等服务。系统前端采用Vue实现动态交互界面,后端使用Django处理业务逻辑,深度学习模型使用Python代码实现,数据库采用PostgreSQL进行数据存储和管理。本系统整合了深度学习算法与地理信息系统技术,能够有效地了解渔业资源的分布、变化和利用情况,为海洋空间规划和渔业经济发展提供帮助。 展开更多
关键词 AIS 捕鱼聚集区 WEBGIS LSTM hdbscan
在线阅读 下载PDF
基于聚类算法的城市轨道交通站点规划——上海宝山站的案例分析
10
作者 蒋涛 彭妙娟 《计算机辅助工程》 2025年第3期45-53,共9页
以上海宝山火车站轨道交通站点规划为背景,获取宝山区住宅、商业和办公楼等地理分布数据,采用HDBSCAN聚类算法确定15个初始站点位置。构建以乘客总出行时间最小为目标的站间距优化模型,根据城市轨道交通技术规范确定参数取值范围,计算... 以上海宝山火车站轨道交通站点规划为背景,获取宝山区住宅、商业和办公楼等地理分布数据,采用HDBSCAN聚类算法确定15个初始站点位置。构建以乘客总出行时间最小为目标的站间距优化模型,根据城市轨道交通技术规范确定参数取值范围,计算得到最优站点间距为1112 m。综合考虑环境、人口需求与交通条件,利用Google Earth工具对初始站点位置进行修正,确定最终站点分布方案。 展开更多
关键词 地铁 站点规划 hdbscan 聚类算法
在线阅读 下载PDF
基于HDBSCAN动态跟踪客户用电行为模式 被引量:4
11
作者 王继业 邓春宇 +2 位作者 郑亚芹 张玉天 刘凤魁 《供用电》 2019年第1期10-16,共7页
为了自动辨识出优质电力大客户并快速感知其负荷行为变化模式,文章通过HDBSCAN算法(hierarchical density-based spatial clustering of applications with noise),对大工业客户1个月内分钟级的负荷行为数据进行自动分类。依据聚类结果... 为了自动辨识出优质电力大客户并快速感知其负荷行为变化模式,文章通过HDBSCAN算法(hierarchical density-based spatial clustering of applications with noise),对大工业客户1个月内分钟级的负荷行为数据进行自动分类。依据聚类结果筛选出潜在优质的用电客户,对其负荷行为模式进行动态跟踪分析(这里所说的"动态"是指相邻时间段内不同负荷状态的转换模式,综合考虑状态特征和时域特征的变化),以找出用电行为异常、或存在负荷结构变化的客户,增强对电网系统的动态感知能力,降低潜在风险。该算法最大程度地避免了人为主观性经验的参与调整参数,采用这种无监督机器学习技术能极大程度地提高整体分析效率;属于自下而上的数据驱动感知用户侧精细行为模式,将能大面积快速感知到诸多潜在风险模式和异常行为模式。 展开更多
关键词 用电行为 动态跟踪分析 聚类 自适应 hdbscan
在线阅读 下载PDF
基于主题挖掘和情感分类的综艺评论演化分析
12
作者 薛洁 张艺卓 《统计科学与实践》 2024年第3期18-20,31,共4页
从文化类综艺节目评论中提取隐含的主题和情感,再从观众反馈的角度挖掘其喜好、评价和建议,可以直观地为创作者的内容选题、形式策划提供帮助。本文针对LDA生成式模型未能考虑的上下文隐含语义、主题数难以确定、解释性程度不高等问题,... 从文化类综艺节目评论中提取隐含的主题和情感,再从观众反馈的角度挖掘其喜好、评价和建议,可以直观地为创作者的内容选题、形式策划提供帮助。本文针对LDA生成式模型未能考虑的上下文隐含语义、主题数难以确定、解释性程度不高等问题,提出了一种基于Word2vecTopic主题挖掘和Bi-LSTM情感分类的评论演化分析算法。研究表明,该方法可以反映主题之间的关系,能够主动选择和解释主题数,有效挖掘评论的主题,准确分类评论情感极性,精准展现主题间内在联系和时空情感演变,为文化类综艺创新路径研究提供新的思路与方法。 展开更多
关键词 文化类综艺 主题挖掘 情感分类 hdbscan聚类 长短期记忆网络
在线阅读 下载PDF
基于机器学习空间聚类的出租车停靠站点布局规划 被引量:2
13
作者 年光跃 黄建云 潘海啸 《交通运输研究》 2024年第1期10-17,27,共9页
针对出租车随意停靠给城市交通带来的负面影响,为规范出租车营运秩序、改善出租车营运环境和居民乘车条件,提出一种将出租车出行空间信息与机器学习算法相结合的出租车停靠站点布局规划方法。首先利用出租车GPS轨迹数据提取出租车出行起... 针对出租车随意停靠给城市交通带来的负面影响,为规范出租车营运秩序、改善出租车营运环境和居民乘车条件,提出一种将出租车出行空间信息与机器学习算法相结合的出租车停靠站点布局规划方法。首先利用出租车GPS轨迹数据提取出租车出行起点,然后采用HDBSCAN聚类算法对起点进行空间密度聚类,形成聚类簇后以其中心点作为出租车停靠站点布局的备选点。最后,为验证所提方法的可行性和有效性,选取重庆市中心城区一土地利用类型丰富、人口密度高的典型区域进行案例分析。结果显示,107个备选点主要分布于商业中心区和居住集中区,与出租车出行高需求区域的空间分布基本吻合;布局的出租车停靠站点在300 m范围内的覆盖率达到76.0%,未覆盖区域主要为城市绿地和水体。研究表明,机器学习算法可实现出租车停靠站点的高效布局规划,但在规划和实施阶段,停靠站点的设置还应结合邻近区域的建成环境特点综合考虑。 展开更多
关键词 城市交通 布局规划 空间聚类 出租车停靠站点 轨迹数据 机器学习算法 hdbscan
在线阅读 下载PDF
气体钻井岩屑含水量快速检测系统
14
作者 李田禹 朱睿 +6 位作者 陈向东 丁星 夏文鹤 李皋 陈一健 苟浩淞 黄维尧 《仪表技术与传感器》 CSCD 北大核心 2024年第8期45-52,共8页
针对目前钻井现场检测地层出水的方法速度慢、抗干扰能力弱的问题,利用近红外光在水中具有显著的吸收特性,提出了一种基于近红外图像的岩屑含水量快速检测系统。系统利用940 nm波段的近红外摄像头采集图像,消除可见光干扰,提高了检测的... 针对目前钻井现场检测地层出水的方法速度慢、抗干扰能力弱的问题,利用近红外光在水中具有显著的吸收特性,提出了一种基于近红外图像的岩屑含水量快速检测系统。系统利用940 nm波段的近红外摄像头采集图像,消除可见光干扰,提高了检测的灵敏度。借助基于小波变换的滤波算法有效去除图像中的散射噪声,并采用区域生长算法进行图像分割,排除干扰物,避免误分割情况,提升系统的抗干扰能力。此外,运用HDBSCAN聚类算法快速精确提取岩屑区域,获取岩屑图像的灰度平均值。最后,利用分段线性回归算法构建了灰度值-含水量模型,预测岩屑含水量。实验结果表明:系统在复杂的天然气钻井环境中工作有效,最大绝对误差为1.87%,精度较高。平均检测时间不超过6 s,速度较快。相较于烘干法,系统在保证准确率的基础上显著提高了检测速度。与湿度传感器相比,系统不仅具有更高的检测精度,还能覆盖更大面积岩屑的水分检测需求。 展开更多
关键词 气体钻井 岩屑含水量 近红外图像 hdbscan聚类
在线阅读 下载PDF
基于K-shell及动力学模型的SPN关键节点识别算法 被引量:1
15
作者 王云花 邓翠艳 姚旭清 《通信与信息技术》 2024年第6期48-53,共6页
SPN网络采用切片分组组网策略进行网络传输,由于其高效的业务承载能力,SPN网络已成为各种切片业务综合性传输承载网络。在通信网络中,SPN网络具备小世界复杂网络特性,针对该复杂网络特性提出了一种基于K-shell及动力学模型的SPN关键节... SPN网络采用切片分组组网策略进行网络传输,由于其高效的业务承载能力,SPN网络已成为各种切片业务综合性传输承载网络。在通信网络中,SPN网络具备小世界复杂网络特性,针对该复杂网络特性提出了一种基于K-shell及动力学模型的SPN关键节点识别算法。本文针对通信运营商SPN网络拓扑特性及动力学特征,通过构建复杂网络模型,抽取网络拓扑及动力学关键特征实现SPN网络关键节点识别。首先构建了SPN网络的拓扑图,基于最短路径算法构建网络故障传播模型。其次运用复杂网络分析方法,从网络拓扑及故障模型中提取能够表征节点重要性的特征([CB]、[CD]、[CC]、SoCF、FoP),并通过计算节点的故障信息与拓扑信息特征之间的Kendall相关系数,量化网络级联故障与拓扑结构之间的相关性。最后在相关性分析的基础上,使用HDBSCAN聚类算法对两类特征进行聚类分析。实验结果表明,在SPN网络关键节点识别中,可以采用动力学特征(SoCF和[CC])或(FoP和[CB])对网络关键节点进行有效识别。 展开更多
关键词 SPN网络 复杂网络 K-SHELL 关键特征提取 Kendall系数 hdbscan
在线阅读 下载PDF
A data-adaptive network design for the regional gravity field modelling using spherical radial basis functions
16
作者 Fang Zhang Huanling Liu Hanjiang Wen 《Geodesy and Geodynamics》 EI CSCD 2024年第6期627-634,共8页
A high-precision regional gravity field model is significant in various geodesy applications.In the field of modelling regional gravity fields,the spherical radial basis functions(SRBFs)approach has recently gained wi... A high-precision regional gravity field model is significant in various geodesy applications.In the field of modelling regional gravity fields,the spherical radial basis functions(SRBFs)approach has recently gained widespread attention,while the modelling precision is primarily influenced by the base function network.In this study,we propose a method for constructing a data-adaptive network of SRBFs using a modified Hierarchical Density-Based Spatial Clustering of Applications with Noise(HDBSCAN)algorithm,and the performance of the algorithm is verified by the observed gravity data in the Auvergne area.Furthermore,the turning point method is used to optimize the bandwidth of the basis function spectrum,which satisfies the demand for both high-precision gravity field and quasi-geoid modelling simultaneously.Numerical experimental results indicate that our algorithm has an accuracy of about 1.58 mGal in constructing the gravity field model and about 0.03 m in the regional quasi-geoid model.Compared to the existing methods,the number of SRBFs used for modelling has been reduced by 15.8%,and the time cost to determine the centre positions of SRBFs has been saved by 12.5%.Hence,the modified HDBSCAN algorithm presented here is a suitable design method for constructing the SRBF data adaptive network. 展开更多
关键词 Regional gravity field modelling Spherical radial basis functions Poisson kernel function hdbscan clustering algorithm
原文传递
基于Doc2Vec增强特征的长文本主题聚类研究 被引量:4
17
作者 陈洁 《计算机科学》 CSCD 北大核心 2023年第S01期211-216,共6页
针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示。利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征。DV-sim从语义角度... 针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示。利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征。DV-sim从语义角度,采用特征词与Doc2Vec向量的相似度获得词权重;DV-tfidf从词频统计角度,采用词频-逆文档频率方式获得词权重,然后利用HDBSCAN算法在THUCNews和Sogou数据集上进行主题聚类。相比直接应用Doc2Vec向量,DV-sim在两个数据集上的噪声数分别减少60.82%和60.63%,准确率提高12.14%和20.58%,F1-Score值提高15.61%和11.58%;DV-tfifd在两个数据集上的噪声数分别减少15.20%和59.55%,准确率提高10.85%和17.93%,F1-Score值提高15.60%和9.21%。实验结果表明,DV-sim和DV-tfidf都可以提高主题聚类性能,且基于语义的增强特征比基于词频的效果更好,DV-sim在优秀女性人物报道的主题聚类上也得到了有效应用。 展开更多
关键词 主题聚类 文本表征 Doc2Vec 词向量 hdbscan
在线阅读 下载PDF
基于两阶段聚类的单相电能表质量评价模型研究 被引量:13
18
作者 夏伟钊 滕欢 +2 位作者 曹敏 沈鑫 赵楠 《电测与仪表》 北大核心 2020年第7期120-125,共6页
电能表的检定误差是评价电能表质量的重要指标之一。当前,行业内主要以基本误差限作为合格与不合格的评价指标,缺乏对合格指标的进一步细分。此外,人工处理的工作量巨大。针对这些问题,提出了一种基于两阶段聚类的电能表质量评价模型。... 电能表的检定误差是评价电能表质量的重要指标之一。当前,行业内主要以基本误差限作为合格与不合格的评价指标,缺乏对合格指标的进一步细分。此外,人工处理的工作量巨大。针对这些问题,提出了一种基于两阶段聚类的电能表质量评价模型。首先分析了各种聚类方法的适用范围与A、B、C三个厂家单相电能表的检定数据,选择K-means算法与HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)作为分析方法。随后,在第一阶段聚类采用HDBSCAN确定K-means算法的K值和初始聚类中心,以解决初始聚类中心随机化的问题。在第二阶段聚类采用K-means算法对所有三个厂家的检定数据进行聚类,得出各聚类类别的统计量描述以确定类别的优劣性,并对结果进行验证。最后,计算得出各厂家和各型号的检定数据在不同类别的占比,给出评价模型的一般推广。所提方法可为电网公司单相电能表厂家与型号的选择提供参考。 展开更多
关键词 聚类分析 电能计量 hdbscan K-MEANS 检定误差 数据挖掘
在线阅读 下载PDF
基于图像处理和聚类算法的待考种大豆主茎节数统计 被引量:2
19
作者 王跃亭 王敏娟 +2 位作者 孙石 杨斯 郑立华 《农业机械学报》 EI CAS CSCD 北大核心 2020年第12期229-237,共9页
为了实现待考种大豆植株主茎节数的快速、高效测量,提出一种基于图像处理和聚类算法的待考种大豆主茎节数统计方法。首先,获取不同视角下的已脱叶待考种大豆植株图像,随机抽取训练集与验证集样本植株,并设定初始图像采集间隔与抽样步长... 为了实现待考种大豆植株主茎节数的快速、高效测量,提出一种基于图像处理和聚类算法的待考种大豆主茎节数统计方法。首先,获取不同视角下的已脱叶待考种大豆植株图像,随机抽取训练集与验证集样本植株,并设定初始图像采集间隔与抽样步长;其次,通过植株分割、骨架提取、主茎节点去噪等操作,获取分布于植株主茎上的待检测大豆茎节点;通过基于空间距离的数据转换方法将分布离散的大豆茎节点转换至便于聚类的数据集内;利用HDBSCAN聚类算法对不同采集视角下的待检测大豆茎节点进行聚类,统计、记录主茎节数识别准确率,筛选最优采集间隔;最后,利用最优采集间隔对剩余样本植株主茎节数进行统计、分析。在63株“中黄30”待考种大豆植株中抽取21株植株作为训练集,并进行实验测试,发现在采集间隔为90°时,以最小聚类簇为2,融合处理4幅大豆图像,大豆主茎节数识别效果最优。据此对42株验证集样本植株进行主茎节数识别和分析,结果表明,大豆主茎节数识别准确率可达98.25%。该方法能够快速、准确获取大豆主茎节数,可满足大豆考种需求。 展开更多
关键词 大豆考种 主茎节数 图像处理 空间转换 hdbscan聚类算法
在线阅读 下载PDF
CNN-BiLSTM-Attention模型在大规模计算系统故障预测的应用研究 被引量:2
20
作者 员民 裴向东 +1 位作者 乔钢柱 王莲 《计算机与数字工程》 2023年第2期314-319,422,共7页
大规模计算系统组成庞大且逻辑复杂,对系统的维护提出了挑战。在此以建立于山西吕梁的超级计算中心的天河二号中监控和采集到的故障日志数据作为输入量,提出一种基于HDBSCAN聚类和CNN-BiLSTM-Attention故障预测模型的大规模计算系统故... 大规模计算系统组成庞大且逻辑复杂,对系统的维护提出了挑战。在此以建立于山西吕梁的超级计算中心的天河二号中监控和采集到的故障日志数据作为输入量,提出一种基于HDBSCAN聚类和CNN-BiLSTM-Attention故障预测模型的大规模计算系统故障预测的方法,实现对故障节点和故障时间的预测。该方法首先对故障日志数据采用HDBSCAN聚类方法进行了分类,随后利用CNN-BiLSTM-Attention提取故障日志的时序特征。实验证明,该模型不仅具有很高的故障时间预测精度,而且故障发生节点位置预测的精度也不低于92.1%。 展开更多
关键词 大规模计算系统 故障预测 hdbscan CNN BiLSTM 注意力机制
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部