期刊文献+
共找到197篇文章
< 1 2 10 >
每页显示 20 50 100
LeaDen-Stream: A Leader Density-Based Clustering Algorithm over Evolving Data Stream
1
作者 Amineh Amini Teh Ying Wah 《Journal of Computer and Communications》 2013年第5期26-31,共6页
Clustering evolving data streams is important to be performed in a limited time with a reasonable quality. The existing micro clustering based methods do not consider the distribution of data points inside the micro c... Clustering evolving data streams is important to be performed in a limited time with a reasonable quality. The existing micro clustering based methods do not consider the distribution of data points inside the micro cluster. We propose LeaDen-Stream (Leader Density-based clustering algorithm over evolving data Stream), a density-based clustering algorithm using leader clustering. The algorithm is based on a two-phase clustering. The online phase selects the proper mini-micro or micro-cluster leaders based on the distribution of data points in the micro clusters. Then, the leader centers are sent to the offline phase to form final clusters. In LeaDen-Stream, by carefully choosing between two kinds of micro leaders, we decrease time complexity of the clustering while maintaining the cluster quality. A pruning strategy is also used to filter out real data from noise by introducing dense and sparse mini-micro and micro-cluster leaders. Our performance study over a number of real and synthetic data sets demonstrates the effectiveness and efficiency of our method. 展开更多
关键词 EVOLVING data STREAMS Density-based clustering Micro cluster Mini-Micro cluster
暂未订购
Adaptive Spectral Clustering Ensemble Selection via Resampling and Population-Based Incremental Learning Algorithm 被引量:5
2
作者 XU Yuanchun JIA Jianhua 《Wuhan University Journal of Natural Sciences》 CAS 2011年第3期228-236,共9页
In this paper, we explore a novel ensemble method for spectral clustering. In contrast to the traditional clustering ensemble methods that combine all the obtained clustering results, we propose the adaptive spectral ... In this paper, we explore a novel ensemble method for spectral clustering. In contrast to the traditional clustering ensemble methods that combine all the obtained clustering results, we propose the adaptive spectral clustering ensemble method to achieve a better clustering solution. This method can adaptively assess the number of the component members, which is not owned by many other algorithms. The component clusterings of the ensemble system are generated by spectral clustering (SC) which bears some good characteristics to engender the diverse committees. The selection process works by evaluating the generated component spectral clustering through resampling technique and population-based incremental learning algorithm (PBIL). Experimental results on UCI datasets demonstrate that the proposed algorithm can achieve better results compared with traditional clustering ensemble methods, especially when the number of component clusterings is large. 展开更多
关键词 spectral clustering clustering ensemble selective ensemble RESAMPLING population-based incremental learning algorithm (PBIL) data clustering
原文传递
Outlier detection based on multi-dimensional clustering and local density
3
作者 SHOU Zhao-yu LI Meng-ya LI Si-min 《Journal of Central South University》 SCIE EI CAS CSCD 2017年第6期1299-1306,共8页
Outlier detection is an important task in data mining. In fact, it is difficult to find the clustering centers in some sophisticated multidimensional datasets and to measure the deviation degree of each potential outl... Outlier detection is an important task in data mining. In fact, it is difficult to find the clustering centers in some sophisticated multidimensional datasets and to measure the deviation degree of each potential outlier. In this work, an effective outlier detection method based on multi-dimensional clustering and local density(ODBMCLD) is proposed. ODBMCLD firstly identifies the center objects by the local density peak of data objects, and clusters the whole dataset based on the center objects. Then, outlier objects belonging to different clusters will be marked as candidates of abnormal data. Finally, the top N points among these abnormal candidates are chosen as final anomaly objects with high outlier factors. The feasibility and effectiveness of the method are verified by experiments. 展开更多
关键词 data MINING OUTLIER DETECTION OUTLIER DETECTION method based on MULTI-DIMENSIONAL clusterING and local density (ODBMCLD) algorithm deviation DEGREE
在线阅读 下载PDF
基于Cluster的数据网格请求代理服务器设计 被引量:1
4
作者 黄斌 李春江 +2 位作者 肖侬 刘波 付伟 《计算机应用研究》 CSCD 北大核心 2004年第9期185-187,共3页
数据网格为数据密集型的应用提供了强有力的支持,数据服务是数据网格的核心,因而数据请求代理(DRB)服务器的设计是实现数据服务的关键。一个结构、性能较好的服务器能屏蔽数据的广域分布性和异构性,实现一体化数据访问、存储、传输与管... 数据网格为数据密集型的应用提供了强有力的支持,数据服务是数据网格的核心,因而数据请求代理(DRB)服务器的设计是实现数据服务的关键。一个结构、性能较好的服务器能屏蔽数据的广域分布性和异构性,实现一体化数据访问、存储、传输与管理。基于Cluster实现了一种数据请求代理服务器,这种服务器实现了上述目标,并具有许多优点,特别在具有多Cluster的高性能计算中,可以同时建立多个连接进行数据分块传输,能够获得Cluster-to-Cluster的聚集吞吐率。介绍了基于Cluster的DRB详细设计方案,描述了多个自治域的DRB之间协同服务的过程,并分析了这种设计的优点。 展开更多
关键词 cluster-based 数据网格 数据请求代理服务器 设计
在线阅读 下载PDF
基于文本挖掘的应急技术与管理专业课程体系优化研究
5
作者 夏好岩 邢聪 樊运晓 《安全》 2026年第2期57-63,共7页
为研判我国应急技术与管理专业课程体系与国家战略及社会需求的匹配度,支撑专业人才培养体系建设,本文构建“需求侧-供给侧”对比分析框架,通过政策文本解析与招聘信息挖掘识别课程需求体系,采集27所高校课程数据,运用基于密度的带噪声... 为研判我国应急技术与管理专业课程体系与国家战略及社会需求的匹配度,支撑专业人才培养体系建设,本文构建“需求侧-供给侧”对比分析框架,通过政策文本解析与招聘信息挖掘识别课程需求体系,采集27所高校课程数据,运用基于密度的带噪声应用空间聚类(DBSCAN)算法开展聚类分析。结果表明:必修课程呈现安全工程与应急响应类双核特征,安全工程类课程供给占比(31%)显著高于需求占比(15%);实践课程结构失衡,课程设计类占比达60%,实验类仅占9%;课程体系在预防-准备-响应-恢复(PPRR)理论框架下结构性失衡,侧重“响应”阶段,“预防”阶段内容滞后、“恢复”阶段模块缺位。专业课程体系需突破传统安全工程路径依赖,通过提高应急类课程占比、构建PPRR全链条模块化体系、优化实践课程结构与模式等路径,实现与复合型应急人才培养需求的精准适配。 展开更多
关键词 应急技术与管理 课程设置 数据驱动 基于密度的带噪声应用空间聚类(DBSCAN) 应急管理理论
在线阅读 下载PDF
基于数据分布匹配的单体式固件基地址识别方法
6
作者 蔡瑞杰 贾凡 +2 位作者 尹小康 赵方方 刘胜利 《计算机科学》 北大核心 2026年第3期433-442,共10页
单体式固件基地址识别是开展固件安全研究的基础。现有研究和相关工具存在识别率低、性能差和资源占用率高等问题。针对该问题,提出一种基于数据分布匹配的单体式固件基地址识别方法。该方法首先计算固件各部分的有效字符密度,并基于有... 单体式固件基地址识别是开展固件安全研究的基础。现有研究和相关工具存在识别率低、性能差和资源占用率高等问题。针对该问题,提出一种基于数据分布匹配的单体式固件基地址识别方法。该方法首先计算固件各部分的有效字符密度,并基于有效字符密度将固件划分为文本数据段和非文本数据段。从固件的文本数据段提取固件包含的字符串常量数据。通过对寄存器字装载指令进行识别和解析,提取固件所包含的绝对地址数据,并将这些绝对地址数据按照所传入函数及传入函数前所在寄存器的组合划分为多个绝对地址簇。最终通过将绝对地址簇和字符串常量数据在固件中的分布间隔相匹配来确定绝对地址数据和字符串常量数据的对应关系,从而实现基地址的求解。实验表明,基于数据分布匹配的固件基地址识别方法的识别效率远高于现有方法,对于由30个固件组成的测试集,所提方法的基地址识别成功率达到了100%。 展开更多
关键词 单体式固件 基地址识别 数据分布 字符密度 绝对地址簇
在线阅读 下载PDF
基于流形学习的风电机组异常数据识别方法
7
作者 杨磊 郭鹏 张雨潇 《分布式能源》 2026年第1期11-19,共9页
为有效识别和剔除风电机组实测数据中的异常数据,通过分析风电机组实测数据的高维特征,提出一种基于流形学习的异常数据识别算法。首先,采用k-近邻互信息算法实现风电机组特征变量选择;随后,使用将样本间距离度量替换为欧几里得度量和... 为有效识别和剔除风电机组实测数据中的异常数据,通过分析风电机组实测数据的高维特征,提出一种基于流形学习的异常数据识别算法。首先,采用k-近邻互信息算法实现风电机组特征变量选择;随后,使用将样本间距离度量替换为欧几里得度量和局部主成分分析(local principal component analysis,LPCA)差别加权和的优化t-分布随机近邻嵌入(t-distributed stochastic neighbor embedding,t-SNE)算法挖掘出高维流形数据中具有内在规律的低维特征,使得具有不同分布特征的数据在可视化二维空间中显著分离;最后,采用基于密度的噪声空间聚类(density-based spatial clustering of applications with noise,DBSCAN)算法对二维空间中的数据进行聚类。结果表明,与主成分分析(principal component analysis,PCA)算法、局部线性嵌入(locally linear embedding,LLE)算法和原t-SNE算法相比,所提方法能够对各种复杂工况数据进行可视化分离聚类,并对异常数据进行识别和剔除。 展开更多
关键词 风电机组 异常数据 流形学习 降维 基于密度的噪声空间聚类(DBSCAN)算法
在线阅读 下载PDF
Over-sampling algorithm for imbalanced data classification 被引量:14
8
作者 XU Xiaolong CHEN Wen SUN Yanfei 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2019年第6期1182-1191,共10页
For imbalanced datasets, the focus of classification is to identify samples of the minority class. The performance of current data mining algorithms is not good enough for processing imbalanced datasets. The synthetic... For imbalanced datasets, the focus of classification is to identify samples of the minority class. The performance of current data mining algorithms is not good enough for processing imbalanced datasets. The synthetic minority over-sampling technique(SMOTE) is specifically designed for learning from imbalanced datasets, generating synthetic minority class examples by interpolating between minority class examples nearby. However, the SMOTE encounters the overgeneralization problem. The densitybased spatial clustering of applications with noise(DBSCAN) is not rigorous when dealing with the samples near the borderline.We optimize the DBSCAN algorithm for this problem to make clustering more reasonable. This paper integrates the optimized DBSCAN and SMOTE, and proposes a density-based synthetic minority over-sampling technique(DSMOTE). First, the optimized DBSCAN is used to divide the samples of the minority class into three groups, including core samples, borderline samples and noise samples, and then the noise samples of minority class is removed to synthesize more effective samples. In order to make full use of the information of core samples and borderline samples,different strategies are used to over-sample core samples and borderline samples. Experiments show that DSMOTE can achieve better results compared with SMOTE and Borderline-SMOTE in terms of precision, recall and F-value. 展开更多
关键词 imbalanced data density-based spatial clustering of applications with noise(DBSCAN) synthetic minority over sampling technique(SMOTE) over-sampling.
在线阅读 下载PDF
基于机载探测数据的典型通航机场低空风及颠簸特征分析
9
作者 吴俊杰 史卓群 +1 位作者 黄小源 白亮 《科学技术与工程》 北大核心 2026年第4期1358-1365,共8页
低空风对机场起降关键阶段的飞行安全具有重要影响。为了研究典型通航机场低空风与颠簸特征,基于机载探测数据,采用K-means聚类方法对广汉机场下滑道“风廓线”进行分类,并分析了其颠簸特征。结果表明:广汉机场下滑道“风廓线”可分为6... 低空风对机场起降关键阶段的飞行安全具有重要影响。为了研究典型通航机场低空风与颠簸特征,基于机载探测数据,采用K-means聚类方法对广汉机场下滑道“风廓线”进行分类,并分析了其颠簸特征。结果表明:广汉机场下滑道“风廓线”可分为6种类型,其中Ⅰ至Ⅳ型风廓线的风向随高度无明显变化,风向一致性较高,且这四型总占比达到90.2%,为主要风廓线类型;Ⅴ型和Ⅵ型则表现出明显的风向变化。前四型风廓线的时间变化特征显著,Ⅰ型和Ⅱ型主要出现在8—11月,Ⅲ型多发生于5—7月,Ⅳ型则集中于6—8月。在日变化方面,Ⅱ型风廓线多出现在13:00—15:00,其余类型则主要出现在19:00—21:00。颠簸特征分析显示,Ⅱ型风廓线中发生颠簸的频率最高,为26.3%,Ⅲ型次之。热动力分析表明,Ⅱ型风廓线的颠簸主要由热力作用引起,而Ⅲ型为热力和动力作用共同结果。颠簸主要集中于120~175 m的高度范围内。研究成果揭示了广汉机场低空风场结构及颠簸特征,对提升气象保障能力、提高飞行员对气象条件的认知和应对能力具有重要意义,为保障通用航空的飞行安全提供了新的技术手段。 展开更多
关键词 机载探测数据 低空风廓线 颠簸特征 K-MEANS聚类 通航飞行安全
在线阅读 下载PDF
基于OCSVM的行业负荷特征异常辨识方法
10
作者 陈光宇 杨光 +3 位作者 施蔚锦 蔡鑫灿 陈婉清 刘昊 《电力工程技术》 北大核心 2026年第2期70-79,共10页
为解决近年来用户行业变化特性加剧导致的难以准确辨识用户档案信息变动的问题,文中提出一种基于数据驱动的负荷特征异常辨识方法。首先,提出一种两阶段行业典型负荷形态构建方法,利用基于层次密度的含噪声应用空间聚类(hierarchical de... 为解决近年来用户行业变化特性加剧导致的难以准确辨识用户档案信息变动的问题,文中提出一种基于数据驱动的负荷特征异常辨识方法。首先,提出一种两阶段行业典型负荷形态构建方法,利用基于层次密度的含噪声应用空间聚类(hierarchical density-based spatial clustering of applications with noise,HDBSCAN)提取用户在不同场景下的典型日负荷曲线,并利用改进的K-means算法对提取出的典型日负荷曲线进行聚类分析,构建行业的典型负荷形态;其次,提出一种多维场景负荷特征异常智能研判方法,通过构造用户的负荷特征,使用熵权法评估行业典型场景的相对重要性,并采用单分类支持向量机(one-class support vector machine,OCSVM)算法量化每个场景下的用户负荷特征的异常程度,通过加权计算得到用户的综合嫌疑得分并排序,从而实现对负荷特征异常用户的准确辨识。最后,采用某地区实际用户数据进行算例验证。仿真结果表明,所提方法在行业典型负荷场景构建及负荷特征异常辨识方面表现出良好的可行性与实用价值。 展开更多
关键词 数据驱动 负荷特征异常 基于层次密度的含噪声应用空间聚类(HDBSCAN)-改进K-means算法 多维场景分析 单分类支持向量机(OCSVM) 综合嫌疑得分
在线阅读 下载PDF
REMUDA: A Practical Topology Control and Data Forwarding Mechanism for Wireless Sensor Networks
11
作者 SUN Li-Min YAN Ting-Xin BI Yan-Zhong 《自动化学报》 EI CSCD 北大核心 2006年第6期867-874,共8页
In wireless sensor networks, topology control plays an important role for data forwarding efficiency in the data gathering applications. In this paper, we present a novel topology control and data forwarding mechanism... In wireless sensor networks, topology control plays an important role for data forwarding efficiency in the data gathering applications. In this paper, we present a novel topology control and data forwarding mechanism called REMUDA, which is designed for a practical indoor parking lot management system. REMUDA forms a tree-based hierarchical network topology which brings as many nodes as possible to be leaf nodes and constructs a virtual cluster structure. Meanwhile, it takes the reliability, stability and path length into account in the tree construction process. Through an experiment in a network of 30 real sensor nodes, we evaluate the performance of REMUDA and compare it with LEPS which is also a practical routing protocol in TinyOS. Experiment results show that REMUDA can achieve better performance than LEPS. 展开更多
关键词 data forwarding mechanism tree-based hierarchical topology virtual cluster
在线阅读 下载PDF
A New Integrated Fuzzifier Evaluation and Selection (NIFEs) Algorithm for Fuzzy Clustering
12
作者 Chanpaul Jin Wang Hua Fang +2 位作者 Sun Kim Ann Moormann Honggang Wang 《Journal of Applied Mathematics and Physics》 2015年第7期802-807,共6页
Fuzzy C-means (FCM) is simple and widely used for complex data pattern recognition and image analyses. However, selecting an appropriate fuzzifier (m) is crucial in identifying an optimal number of patterns and achiev... Fuzzy C-means (FCM) is simple and widely used for complex data pattern recognition and image analyses. However, selecting an appropriate fuzzifier (m) is crucial in identifying an optimal number of patterns and achieving higher clustering accuracy, which few studies have investigated. Built upon two existing methods on selecting fuzzifier, we developed an integrated fuzzifier evaluation and selection algorithm and tested it using real datasets. Our findings indicate that the consistent optimal number of clusters can be learnt from testing different fuzzifiers for each dataset and the fuzzifier with the lowest value for this consistency should be selected for clustering. Our evaluation also shows that the fuzzifier impacts the clustering accuracy. For longitudinal data with missing values, m = 2 could be an empirical rule to start fuzzy clustering, and the best clustering accuracy was achieved for tested data, especially using our multiple-imputation based fuzzy clustering. 展开更多
关键词 Fuzzifier FUZZY C-MEANS Multiple Imputation-based FUZZY clusterING (MIFuzzy) MISSING data Longitudinal data
暂未订购
Knowledge Based Consolidation of UML Diagrams for Creation of Virtual Enterprise
13
作者 Debasis Chanda Dwijesh Dutta Majumder Swapan Bhattacharya 《Intelligent Information Management》 2010年第3期159-177,共19页
In this paper we address the problem related to determination of the most suitable candidates for an M&amp;A (Merger &amp;Acquisition) scenario of Banks/Financial Institutions. During the pre-merger period of ... In this paper we address the problem related to determination of the most suitable candidates for an M&amp;A (Merger &amp;Acquisition) scenario of Banks/Financial Institutions. During the pre-merger period of an M&amp;A, a number of candidates may be available to undergo the Merger/Acquisition, but all of them may not be suitable. The normal practice is to carry out a due diligence exercise to identify the candidates that should lead to optimum increase in shareholder value and customer satisfaction, post-merger. The due diligence ought to be able to determine those candidates that are unsuitable for merger, those candidates that are relatively suitable, and those that are most suitable. Towards achieving the above objective, we propose a Fuzzy Data Mining Framework wherein Fuzzy Cluster Analysis concept is used for advisability of merger of two banks and other Financial Institutions. Subsequently, we propose orchestration/composition of business processes of two banks into consolidated business process during Merger &amp;Acquisition (M&amp;A) scenario. Our paper discusses modeling of individual business process with UML, and the consolidation of the individual business process models by means of our proposed Knowledge Based approach. 展开更多
关键词 Knowledge base PREDICATE CALCULUS Service Oriented Architecture UML Fuzzy data Mining cluster Analysis
暂未订购
基于密度的多度量空间数据聚类算法 被引量:2
14
作者 朱轶凡 罗程阳 +3 位作者 马瑞遥 陈璐 毛玉仁 高云君 《软件学报》 北大核心 2025年第2期851-873,共23页
具有噪声的基于密度的数据聚类(DBSCAN)算法是数据挖掘领域中的经典方法之一,其不仅能发现数据中潜藏的复杂关系,还能过滤其中的数据噪声,从而获得高质量的数据聚类.然而,现有的基于密度的数据聚类算法仅支持单模态(类型)数据的聚类,难... 具有噪声的基于密度的数据聚类(DBSCAN)算法是数据挖掘领域中的经典方法之一,其不仅能发现数据中潜藏的复杂关系,还能过滤其中的数据噪声,从而获得高质量的数据聚类.然而,现有的基于密度的数据聚类算法仅支持单模态(类型)数据的聚类,难以应对多模态(类型)数据并存的应用场景.随着信息技术的快速发展,数据呈现多模态化的发展态势,现实生活中的数据不再是单一的数据类型,而是多种数据模态(类型)的组合,如文本、图像、地理坐标、数据特征等.因此,现有的数据聚类方法难以对复杂的多模态数据进行有效的数据建模,更无法进行高效的多模态数据聚类.基于此,提出一种基于密度的多度量空间聚类算法.首先,为了刻画多模态数据间的复杂关系,利用多度量空间表征数据之间的相似性关系,并且利用聚合多度量图索引(AMG)实现多模态数据建模.接着,利用差分化的相似性关系优化聚合多度量图的图结构,并且结合最优策略优先的搜索策略进行剪枝,以实现高效的多模态数据聚类.最后,在真实与合成数据集上针对多种参数设置进行实验.实验结果验证了所提方法运行效率提升了至少1个数量级,并具有较高的聚类精度与良好的可扩展性. 展开更多
关键词 多度量空间 多度量图 基于密度的数据聚类 数据挖掘 多模态数据
在线阅读 下载PDF
On Density-Based Data Streams Clustering Algorithms: A Survey 被引量:10
15
作者 Amineh Amini Teh Ying Wah Hadi Saboohi 《Journal of Computer Science & Technology》 SCIE EI CSCD 2014年第1期116-141,共26页
Clustering data streams has drawn lots of attention in the last few years due to their ever-growing presence. Data streams put additional challenges on clustering such as limited time and memory and one pass clusterin... Clustering data streams has drawn lots of attention in the last few years due to their ever-growing presence. Data streams put additional challenges on clustering such as limited time and memory and one pass clustering. Furthermore, discovering clusters with arbitrary shapes is very important in data stream applications. Data streams are infinite and evolving over time, and we do not have any knowledge about the number of clusters. In a data stream environment due to various factors, some noise appears occasionally. Density-based method is a remarkable class in clustering data streams, which has the ability to discover arbitrary shape clusters and to detect noise. Furthermore, it does not need the nmnber of clusters in advance. Due to data stream characteristics, the traditional density-based clustering is not applicable. Recently, a lot of density-based clustering algorithms are extended for data streams. The main idea in these algorithms is using density- based methods in the clustering process and at the same time overcoming the constraints, which are put out by data streanFs nature. The purpose of this paper is to shed light on some algorithms in the literature on density-based clustering over data streams. We not only summarize the main density-based clustering algorithms on data streams, discuss their uniqueness and limitations, but also explain how they address the challenges in clustering data streams. Moreover, we investigate the evaluation metrics used in validating cluster quality and measuring algorithms' performance. It is hoped that this survey will serve as a steppingstone for researchers studying data streams clustering, particularly density-based algorithms. 展开更多
关键词 data stream density-based clustering grid-based clustering micro-clustering
原文传递
基于SAE-MSCNN的网络入侵检测
16
作者 王泽辉 郝秦霞 《计算机工程与设计》 北大核心 2025年第10期2858-2865,共8页
针对现有的网络入侵检测方法忽略了流量特征间的关联性对特征选择的重要性,且在数据平衡时未能考虑到低频攻击样本的分布离散性,导致检测性能下降的问题,提出互信息值融合(mutual information value fusion,MIVF)方法来选择与攻击行为... 针对现有的网络入侵检测方法忽略了流量特征间的关联性对特征选择的重要性,且在数据平衡时未能考虑到低频攻击样本的分布离散性,导致检测性能下降的问题,提出互信息值融合(mutual information value fusion,MIVF)方法来选择与攻击行为相关性高且彼此之间关联性低的特征。提出基于DBSCAN改进的SMOTE方法对低频攻击样本按照其密度聚类分布进行过采样;构建SAE-MSCNN分类模型来检验性能。在NSL-KDD和UNSW-NB15数据集上验证,准确率分别达到92.89%和94.85%。结果表明所提方法可以有效地选择特征以及平衡数据,尤其是提高低频攻击的检测准确率。 展开更多
关键词 网络入侵检测 互信息 特征关联 特征选择 密度聚类 过采样 数据平衡
在线阅读 下载PDF
基于集成学习的物联网通信数据快速分类研究
17
作者 杨瑞丽 王俊仃 邱秀荣 《通信电源技术》 2025年第5期4-6,共3页
物联网设备持续产出的数据中会掺杂部分异常数据,导致物联网通信数据分类的质量与效率下降。因此,提出一种基于集成学习的物联网通信数据快速分类方法。从物联网设备收集通信数据,利用孤立森林算法确定物联网通信数据样本的异常分值,并... 物联网设备持续产出的数据中会掺杂部分异常数据,导致物联网通信数据分类的质量与效率下降。因此,提出一种基于集成学习的物联网通信数据快速分类方法。从物联网设备收集通信数据,利用孤立森林算法确定物联网通信数据样本的异常分值,并去除异常分值较高的数据,通过基于密度的带噪声应用空间聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)算法整合去除异常后的数据,结合集成学习算法实现物联网通信数据快速分类。实验结果表明,所提方法的物联网通信数据分类准确率始终在97.2%以上,物联网通信数据分类时间均值约为1.55 s,具有良好的应用潜力。 展开更多
关键词 集成学习 物联网通信 数据分类 基于密度的带噪声应用空间聚类(DBSCAN)
在线阅读 下载PDF
基于DBSCAN和CGAN的不平衡数据过采样方法
18
作者 唐曦 李文海 +2 位作者 唐贞豪 李睿峰 李根 《系统工程与电子技术》 北大核心 2025年第11期3739-3753,共15页
为改善分类器对不平衡数据的分类精度,提出一种基于密度的带噪声的空间聚类方法(density-based spatial clustering of applications with noise, DBSCAN)和条件生成对抗网络(conditional generative adversarial network,CGAN)的过采... 为改善分类器对不平衡数据的分类精度,提出一种基于密度的带噪声的空间聚类方法(density-based spatial clustering of applications with noise, DBSCAN)和条件生成对抗网络(conditional generative adversarial network,CGAN)的过采样方法。首先,采用DBSCAN对正负类样本分别聚类,结合簇标签重构样本集,并结合安全级别识别和剔除噪声样本,提升数据质量。然后,将新的样本集输入CGAN模型进行训练,针对CGAN中训练不稳定和模式崩塌的问题,引入Wasserstein距离和梯度惩罚项作为损失函数,并结合分类问题对Wasserstein距离做了适应性改造,实现高质量少数类样本生成。最后,采用9个通用不平衡数据集和1个模拟电路实测数据集,在3种典型分类器上将所提方法与5个经典过采样方法进行对比实验。结果表明,所提方法在多数数据集上优于其他过采样算法,尤其在类别不平衡度较高时优势更为突出。所提方法为不平衡数据处理提供了新的思路。 展开更多
关键词 不平衡数据 条件生成对抗网络 基于密度的带噪声的空间聚类方法 过采样
在线阅读 下载PDF
自注意力优化密度聚类的风机数据清洗方法 被引量:2
19
作者 张茹顶 张铖 +3 位作者 潘钱宇 李少帅 孟井煜枫 吴博阳 《微特电机》 2025年第4期34-38,共5页
针对风电机组监控与数据采集系统常受多种因素影响,导致数据异常问题,提出一种基于自注意力编码器改进的密度聚类模型方法,结合自注意力编码器的特征提取能力和密度聚类的空间特性,通过引入相对位置编码和优化多头注意力机制,提升对监... 针对风电机组监控与数据采集系统常受多种因素影响,导致数据异常问题,提出一种基于自注意力编码器改进的密度聚类模型方法,结合自注意力编码器的特征提取能力和密度聚类的空间特性,通过引入相对位置编码和优化多头注意力机制,提升对监控与数据采集系统异常数据识别能力。实验结果表明,所提方法的数据清洗效果和模型精度与传统方法相比更优,其中异常数据剔除率达到26.58%,并且在拟合风速-功率曲线时,平均绝对误差、均方根误差最低,决定系数最高。清洗后的监控与数据采集系统数据应用于机组故障诊断,将风电机组故障识别准确性提高到了92%以上、故障预警及时性提前了20%,故障类型分类精度提高了30%。该方法不仅提高了风电机组的运行效率和可靠性,还为风电场的运行管理和决策提供了较为可靠的数据支持。 展开更多
关键词 自注意力编码器 密度聚类算法 数据清洗 监控与数据采集系统 风电机组
在线阅读 下载PDF
基于规则库和聚类分析的复句短语字段的自动识别研究 被引量:9
20
作者 胡金柱 俞小娟 +1 位作者 李琼 周毕吉 《华中师范大学学报(自然科学版)》 CAS CSCD 2008年第2期190-194,共5页
复句层次结构与层次关系研究,是一项将中文信息处理由字、词处理阶段提升到句处理阶段的关键性难题.在研究复句层次划分和层次关系之前,首先要确定复句中分句的数量,需要排除其中非完整分句的字段(本文中称之为短语字段).结合语言学的... 复句层次结构与层次关系研究,是一项将中文信息处理由字、词处理阶段提升到句处理阶段的关键性难题.在研究复句层次划分和层次关系之前,首先要确定复句中分句的数量,需要排除其中非完整分句的字段(本文中称之为短语字段).结合语言学的相关理论,首先建立规则库,在此基础上,引入聚类分析法,对短语字段进行分类,最终使短语字段的自动识别率达到92.1%. 展开更多
关键词 短语字段 规则库 聚类分析 变量
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部