期刊文献+
共找到104篇文章
< 1 2 6 >
每页显示 20 50 100
Metaheuristic Based Clustering with Deep Learning Model for Big Data Classification
1
作者 R.Krishnaswamy Kamalraj Subramaniam +3 位作者 V.Nandini K.Vijayalakshmi Seifedine Kadry Yunyoung Nam 《Computer Systems Science & Engineering》 SCIE EI 2023年第1期391-406,共16页
Recently,a massive quantity of data is being produced from a distinct number of sources and the size of the daily created on the Internet has crossed two Exabytes.At the same time,clustering is one of the efficient te... Recently,a massive quantity of data is being produced from a distinct number of sources and the size of the daily created on the Internet has crossed two Exabytes.At the same time,clustering is one of the efficient techniques for mining big data to extract the useful and hidden patterns that exist in it.Density-based clustering techniques have gained significant attention owing to the fact that it helps to effectively recognize complex patterns in spatial dataset.Big data clustering is a trivial process owing to the increasing quantity of data which can be solved by the use of Map Reduce tool.With this motivation,this paper presents an efficient Map Reduce based hybrid density based clustering and classification algorithm for big data analytics(MR-HDBCC).The proposed MR-HDBCC technique is executed on Map Reduce tool for handling the big data.In addition,the MR-HDBCC technique involves three distinct processes namely pre-processing,clustering,and classification.The proposed model utilizes the Density-Based Spatial Clustering of Applications with Noise(DBSCAN)techni-que which is capable of detecting random shapes and diverse clusters with noisy data.For improving the performance of the DBSCAN technique,a hybrid model using cockroach swarm optimization(CSO)algorithm is developed for the exploration of the search space and determine the optimal parameters for density based clustering.Finally,bidirectional gated recurrent neural network(BGRNN)is employed for the classification of big data.The experimental validation of the proposed MR-HDBCC technique takes place using the benchmark dataset and the simulation outcomes demonstrate the promising performance of the proposed model interms of different measures. 展开更多
关键词 big data data classification CLUSTERING mapreduce dbscan algorithm
在线阅读 下载PDF
基于Bigtable与MapReduce的Apriori算法改进 被引量:22
2
作者 魏玲 魏永江 高长元 《计算机科学》 CSCD 北大核心 2015年第10期208-210,243,共4页
为提高Apriori算法挖掘频繁项目集的效率,引进了Bigtable技术与MapReduce模型来对Apriori算法进行优化,设计出大数据环境下挖掘频繁项目集的新算法BM-Apriori算法。与单纯基于MapReduce模型的Apriori改进算法相比,新算法利用Bigtable的... 为提高Apriori算法挖掘频繁项目集的效率,引进了Bigtable技术与MapReduce模型来对Apriori算法进行优化,设计出大数据环境下挖掘频繁项目集的新算法BM-Apriori算法。与单纯基于MapReduce模型的Apriori改进算法相比,新算法利用Bigtable的时间戳属性代替了键/值对的产生,只需扫描数据库一次即可,节约了模式匹配的时间。同时,BM-Apriori算法在项集列表中新增事务标号列,自动获取事务标号以计算支持度。将BM-Apriori算法在Hadoop平台上进行了实验,结果表明Bigtable技术的融入使得BM-Apriori算法具有更高的效率与可拓展性。 展开更多
关键词 apriori算法 大数据
在线阅读 下载PDF
布尔矩阵Apriori算法的MapReduce并行化实现 被引量:2
3
作者 陈方健 张明新 杨昆 《常熟理工学院学报》 2014年第2期98-101,106,共5页
提出基于云计算平台(以Hadoop为例)应用布尔矩阵Apriori算法进行大数据关联规则挖掘的MR_B_Apriori算法.将Hadoop平台与布尔矩阵Apriori算法相结合,利用MapReduce框架分块处理布尔矩阵,计算出分块数据的频度,合并融合得到大数据集的频... 提出基于云计算平台(以Hadoop为例)应用布尔矩阵Apriori算法进行大数据关联规则挖掘的MR_B_Apriori算法.将Hadoop平台与布尔矩阵Apriori算法相结合,利用MapReduce框架分块处理布尔矩阵,计算出分块数据的频度,合并融合得到大数据集的频繁项集.分析表明MR_B_Apriori算法能够适用于大数据的频繁项集挖掘. 展开更多
关键词 大数据 HADOOP 数据挖掘 apriori算法 关联规则
在线阅读 下载PDF
云计算环境下Apriori算法的MapReduce并行化 被引量:3
4
作者 李晓飞 《长春工业大学学报》 CAS 2013年第6期736-740,共5页
借助分割数据技术优化了经典的Apriori算法,实现了对候选项集的分组统计。给出了优化Apriori算法的MapReduce编程实现模型,达到了Apriori算法并行化的目的。实验结果表明,该算法能够大量减少键/值对的产生,提高了算法的效率,并且随着挖... 借助分割数据技术优化了经典的Apriori算法,实现了对候选项集的分组统计。给出了优化Apriori算法的MapReduce编程实现模型,达到了Apriori算法并行化的目的。实验结果表明,该算法能够大量减少键/值对的产生,提高了算法的效率,并且随着挖掘频繁项目集节点数的增加,算法的加速比成线性提高。 展开更多
关键词 云计算 apriori算法 mapreduce模型 并行化 数据分割
在线阅读 下载PDF
基于MapReduce的Apriori算法并行化研究
5
作者 谢志明 《宁波职业技术学院学报》 2015年第5期76-80,共5页
针对目前传统的Apriori算法对硬件要求较高且运算效率低下的情形,提出将经典的数据挖掘关联规则算法Apriori移植到云计算平台,并结合Map Reduce机制进行海量数据挖掘,有效地解决了传统Apriori算法存在的瓶颈问题以及对硬件要求高的依赖... 针对目前传统的Apriori算法对硬件要求较高且运算效率低下的情形,提出将经典的数据挖掘关联规则算法Apriori移植到云计算平台,并结合Map Reduce机制进行海量数据挖掘,有效地解决了传统Apriori算法存在的瓶颈问题以及对硬件要求高的依赖。通过数据和节点对比实验共同验证了移植后的Apriori算法的运算效率比传统的Apriori算法提高了许多倍,且随着数据量和节点数的增加效果愈发明显。由于改良后的Apriori算法具有高效性和可行性,这将为解决当前大数据挖掘问题提供了一种全新的、有效的解决方案,并且这一结论还可为其他数据挖掘算法的移植提供可靠的参考。 展开更多
关键词 apriori算法 数据挖掘 关联规则 云计算 MAP Reduce机制
在线阅读 下载PDF
基于Hadoop和MapReduce的大数据处理算法优化研究 被引量:2
6
作者 张楠楠 戎真真 +1 位作者 杜帅兵 刘杨 《软件》 2025年第6期140-142,共3页
当前,信息技术飞速发展,大数据时代悄然来临,数据规模的急剧膨胀给传统数据处理方法带来了巨大的挑战。在大数据处理领域,Hadoop和MapReduce框架凭借其高效的分布式计算能力被广泛应用,但随着数据量的增加,其也暴露出计算性能、数据传... 当前,信息技术飞速发展,大数据时代悄然来临,数据规模的急剧膨胀给传统数据处理方法带来了巨大的挑战。在大数据处理领域,Hadoop和MapReduce框架凭借其高效的分布式计算能力被广泛应用,但随着数据量的增加,其也暴露出计算性能、数据传输及作业调度等方面的局限性。本文探讨了Hadoop和MapReduce框架在大数据处理中的应用及其局限性,并基于近年研究成果,提出了一系列优化措施,包括提高任务并行度、优化数据传输和改进调度策略。研究表明,这些优化手段可以有效提升大数据处理的效率和稳定性,从而推动大数据技术的进一步发展。 展开更多
关键词 大数据 HADOOP mapreduce 算法优化 计算性能 数据传输
在线阅读 下载PDF
Product Customer Demand Mining and Its Functional Attribute Configuration Driven by Big Data
7
作者 Dianting Liu Xia Huang Kangzheng Huang 《国际计算机前沿大会会议论文集》 2020年第1期145-165,共21页
The maturity of big data analysis theory and its tools improve the efficiency and reduce the cost of massive data mining.This paper discusses the method of product customer demand mining based on big data,and further ... The maturity of big data analysis theory and its tools improve the efficiency and reduce the cost of massive data mining.This paper discusses the method of product customer demand mining based on big data,and further studies the configuration of product function attributes.Firstly,the Hadoop platform was used to perform product attribute data participle and feature word extraction based on Apriori algorithm was used to mine product customer demand information.And then the MapReduce model on the big data platform was applied into efficient parallel data processing,obtaining product attributes with research value,and their weights and attribute levels.After that,the cloud model and the MNL model were employed to construct the product function attribute configuration model,and the improved artificial bee colony algorithm was used to solve the model.The optimal solution of the product function attribute configuration model was got.Finally,an example was given to illustrate the feasibility of the proposed method in this paper. 展开更多
关键词 big data Customer demand Product function attribute configuration apriori MNL model Artificial bee colony algorithm
原文传递
基于Apriori算法的医疗大数据关联规则挖掘的研究
8
作者 赵涛 《科技资讯》 2025年第4期41-43,共3页
聚焦智慧医疗发展,将大数据处理技术与海量医疗数据相结合,利用Apriori关联规则算法,分析医疗信息系统中的海量数据,揭示不同疾病之间的关联,从而为个人健康预警与医疗机构提供科学的诊断依据与参考。研究结果不仅为脓毒症的早期预测和... 聚焦智慧医疗发展,将大数据处理技术与海量医疗数据相结合,利用Apriori关联规则算法,分析医疗信息系统中的海量数据,揭示不同疾病之间的关联,从而为个人健康预警与医疗机构提供科学的诊断依据与参考。研究结果不仅为脓毒症的早期预测和个性化治疗提供了数据支持,也为医疗数据的语义化处理与关联规则挖掘提供了一种有效的方法论。 展开更多
关键词 apriori算法 医疗大数据 关联规则 数据挖掘
在线阅读 下载PDF
MapReduce大数据处理平台与算法研究进展 被引量:97
9
作者 宋杰 孙宗哲 +2 位作者 毛克明 鲍玉斌 于戈 《软件学报》 EI CSCD 北大核心 2017年第3期514-543,共30页
综述了近年来基于MapReduce编程模型的大数据处理平台与算法的研究进展.首先介绍了12个典型的基于MapReduce的大数据处理平台,分析对比它们的实现原理和适用场景,抽象其共性;随后介绍基于MapReduce的大数据分析算法,包括搜索算法、数据... 综述了近年来基于MapReduce编程模型的大数据处理平台与算法的研究进展.首先介绍了12个典型的基于MapReduce的大数据处理平台,分析对比它们的实现原理和适用场景,抽象其共性;随后介绍基于MapReduce的大数据分析算法,包括搜索算法、数据清洗/变换算法、聚集算法、连接算法、排序算法、偏好查询、最优化算法、图算法、数据挖掘算法,将这些算法按照MapReduce实现方式分类,分析影响算法性能的因素;最后,将大数据处理算法抽象为外存算法,并对外存算法的特征加以梳理,提出了普适的外存算法性能优化方法的研究思路和问题,以供研究人员参考.具体包括优化外存算法的磁盘I/O、优化外存算法的局部性以及设计增量式迭代算法.现有的大数据处理平台和算法研究多集中在基于资源分配和任务调度的平台动态性能优化、特定算法并行化、特定算法性能优化等领域,所提出的外存算法性能优化属于静态优化方法,是现有研究的良好补充,为研究人员提供了广阔的研究空间. 展开更多
关键词 大数据 mapreduce 外存算法 大数据处理 算法性能优化
在线阅读 下载PDF
并行化的Apriori算法在海量医疗文档数据挖掘中的应用及优化 被引量:7
10
作者 李伟 刘光明 +1 位作者 孟祥飞 张真发 《北京师范大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第4期420-424,共5页
针对海量医疗文档数据中巨大潜在价值难以有效挖掘的现状,构建了基于NoSQL和MapReduce的存储与挖掘系统MSPM.通过以键值对形式存储,使复杂异构的医疗文档数据归结为统一的且适于被经典Apriori算法利用的事务数据格式,并通过挖掘MapReduc... 针对海量医疗文档数据中巨大潜在价值难以有效挖掘的现状,构建了基于NoSQL和MapReduce的存储与挖掘系统MSPM.通过以键值对形式存储,使复杂异构的医疗文档数据归结为统一的且适于被经典Apriori算法利用的事务数据格式,并通过挖掘MapReduce过程化,一次性全局扫描和兴趣集规约计数等优化策略,有效解决了Apriori算法在医疗大数据应用中开销大、执行速度慢和有效性差的问题. 展开更多
关键词 医疗文档大数据 非关系型数据库 mapreduce 数据挖掘 apriori 算法优化
在线阅读 下载PDF
基于MapReduce的并行聚类算法设计与实现 被引量:10
11
作者 刘向东 刘奎 +1 位作者 胡飞翔 王翠荣 《计算机应用与软件》 CSCD 北大核心 2014年第11期251-256,共6页
针对目前聚类算法对大数据处理效率较低的问题,研究云平台上高效并行化的聚类算法十分必要。在HDFS分布式文件系统基础上,设计一种并行聚类算法P-ISODATA,利用MapReduce编程框架的执行机制将传统ISODATA聚类算法并行化,并在Map阶段之后... 针对目前聚类算法对大数据处理效率较低的问题,研究云平台上高效并行化的聚类算法十分必要。在HDFS分布式文件系统基础上,设计一种并行聚类算法P-ISODATA,利用MapReduce编程框架的执行机制将传统ISODATA聚类算法并行化,并在Map阶段之后加入Combine阶段以减少网络传输开销,进一步提高执行效率。实验从著名UCI机器学习库上选取若干数据集作为测试数据,分析了新并行算法P-ISODATA性能,结果表明基于P-ISODATA算法具有优良的加速比、数据伸缩率和扩展率,可以有效地应用于大规模数据的处理。 展开更多
关键词 大数据 聚类算法 云平台 并行处理 mapreduce
在线阅读 下载PDF
一种基于MapReduce模型的高效频繁项集挖掘算法 被引量:9
12
作者 朱坤 黄瑞章 张娜娜 《计算机科学》 CSCD 北大核心 2017年第7期31-37,共7页
由于互联网技术急速发展及其用户迅速地增加,很多网络服务公司每天不得不处理TB级甚至更大规模的数据量。在如今的大数据时代,如何挖掘有用的信息正变成一个重要的问题。关于数据挖掘(Data Mining)的算法在很多领域中已经被广泛运用,挖... 由于互联网技术急速发展及其用户迅速地增加,很多网络服务公司每天不得不处理TB级甚至更大规模的数据量。在如今的大数据时代,如何挖掘有用的信息正变成一个重要的问题。关于数据挖掘(Data Mining)的算法在很多领域中已经被广泛运用,挖掘频繁项集是数据挖掘中最常见且最主要的应用之一,Apriori则是从一个大的数据集中挖掘出频繁项集的最为典型的算法。然而,当数据集比较大或使用单一主机时,内存将会被快速消耗,计算时间也将急剧增加,使得算法性能较低,基于MapReduce的分布式和并行计算则被提出。文中提出了一种改进的MMRA(Matrix MapReduce Algorithm)算法,它通过将分块数据转换成矩阵来挖掘所有的频繁k项集;然后将提出的算法和目前已经存在的两种算法(one-phase算法、k-phase算法)进行比较。采用Hadoop-MapReduce作为实验平台,并行和分布式计算为处理大数据集提供了一个潜在的解决方案。实验结果表明,改进算法的性能优于其他两种算法。 展开更多
关键词 Hadoop mapreduce 分布式计算 数据挖掘 频繁项集挖掘 apriori算法
在线阅读 下载PDF
一种基于DAG的MapReduce任务调度算法 被引量:7
13
作者 唐一韬 黄晶 肖球 《计算机科学》 CSCD 北大核心 2014年第S1期42-46,51,共6页
Hadoop已成为研究云计算的基础平台,MapReduce是其大数据分布式处理的计算模型。针对异构集群下MapReduce数据分布、数据本地性、作业执行流程等问题,提出一种基于DAG的MapReduce调度算法。把集群中的节点按计算能力进行划分,将MapReduc... Hadoop已成为研究云计算的基础平台,MapReduce是其大数据分布式处理的计算模型。针对异构集群下MapReduce数据分布、数据本地性、作业执行流程等问题,提出一种基于DAG的MapReduce调度算法。把集群中的节点按计算能力进行划分,将MapReduce作业转换成DAG模型,改进向上排序值计算方法,使其在异构集群中计算更精准、任务的优先级排序更合理。综合节点的计算能力与数据本地性及集群利用情况,选择合理的数据节点分配和执行任务,减少当前任务完成时间。实验表明,该算法能合理分布数据,有效提高数据本地性,减少通信开销,缩短整个作业集的调度长度,从而提高集群的利用率。 展开更多
关键词 DAG 调度算法 mapreduce HADOOP 异构环境 大数据
在线阅读 下载PDF
一种MapReduce架构下基于遗传算法的K-Medoids聚类 被引量:18
14
作者 赖向阳 宫秀军 韩来明 《计算机科学》 CSCD 北大核心 2017年第3期23-26,58,共5页
由互联网时代快速发展而产生的海量数据给传统聚类方法带来了巨大挑战,如何改进聚类算法从而获取有效信息成为当前的研究热点。K-Medoids是一种常见的基于划分的聚类算法,其优点是可以有效处理孤立、噪声点,但面临着初始中心敏感、容易... 由互联网时代快速发展而产生的海量数据给传统聚类方法带来了巨大挑战,如何改进聚类算法从而获取有效信息成为当前的研究热点。K-Medoids是一种常见的基于划分的聚类算法,其优点是可以有效处理孤立、噪声点,但面临着初始中心敏感、容易陷入局部最优值、处理大数据时的CPU和内存瓶颈等问题。为解决上述问题,提出了一种MapReduce架构下基于遗传算法的K-Medoids聚类。利用遗传算法的种群进化特点改进K-Medoids算法的初始中心敏感的问题,在此基础上,利用MapReduce并行遗传K-Medoids算法提高算法效率。通过带标签的数据集进行实验的结果表明,运行在Hadoop集群上的基于MapReduce和遗传算法的K-Medoids算法能有效提高聚类的质量和效率。 展开更多
关键词 海量数据 K-Medoids mapreduce 遗传算法 聚类效率
在线阅读 下载PDF
基于并行Apriori的物流路径频繁模式研究 被引量:6
15
作者 曹菁菁 任欣欣 徐贤浩 《计算机工程与应用》 CSCD 北大核心 2019年第11期257-264,共8页
传统的频繁路径挖掘分析主要通过关联规则算法实现,但其在处理大型数据集时,会产生占用内存过多,数据处理速度慢等问题,对此提出一种基于Fuzzy c-means聚类算法的并行Apriori算法模型。该模型通过Fuzzy c-means算法完成对原始数据集的... 传统的频繁路径挖掘分析主要通过关联规则算法实现,但其在处理大型数据集时,会产生占用内存过多,数据处理速度慢等问题,对此提出一种基于Fuzzy c-means聚类算法的并行Apriori算法模型。该模型通过Fuzzy c-means算法完成对原始数据集的聚类分析,将同一区域的物流路径数据划分到内部相似度较高的数据类,并利用Apriori算法对各数据类中的频繁模式进行挖掘分析,进而获得各区域的物流频繁路径。同时通过Hadoop平台实现算法的并行化,有效提高算法运行效率和质量。通过对物流频繁路径的挖掘分析,使管理者更清楚货物流向,可为配送路径优化等决策提供支持。 展开更多
关键词 大数据 频繁路径 HADOOP FUZZY c-means聚类算法 apriori算法
在线阅读 下载PDF
基于Hadoop的Apriori算法研究与优化 被引量:19
16
作者 孙学波 石飞达 《计算机工程与设计》 北大核心 2018年第1期126-133,145,共9页
为解决传统数据挖掘算法在大量数据处理时面临的内存占用、计算性能等方面的问题,基于Hadoop平台,应用HBase文件存储系统对海量数据分布式存储以及Map Reduce框架进行分布式计算,实现Apriori经典数据挖掘算法。通过对已实现的Apriori算... 为解决传统数据挖掘算法在大量数据处理时面临的内存占用、计算性能等方面的问题,基于Hadoop平台,应用HBase文件存储系统对海量数据分布式存储以及Map Reduce框架进行分布式计算,实现Apriori经典数据挖掘算法。通过对已实现的Apriori算法进行优化,引入FIS-IS算法思想,从数据库扫描次数和容量消减方向进行改进。提出针对数据本身进行频繁预选项生成方法与对于频繁预选项剪枝步骤进行分组检索的优化方法。实验结果验证了改进算法对算法运行具有良好的优化效果。 展开更多
关键词 apriori算法 数据挖掘算法 分布式实现 HADOOP平台 mapreduce框架
在线阅读 下载PDF
基于MapReduce模型的排序算法优化研究 被引量:3
17
作者 蒋勇 赵作鹏 《计算机科学与探索》 CSCD 北大核心 2015年第4期410-417,共8页
MapReduce已经发展成为大数据领域标准的并行计算模型。为了使MapReduce系统下参与计算的所有节点高度负载均衡,并且最小化空间使用率、CPU、I/O的使用时长和网络传输开销等指标,在保持算法良好并行性的基础上,提出了一种MapReduce优化... MapReduce已经发展成为大数据领域标准的并行计算模型。为了使MapReduce系统下参与计算的所有节点高度负载均衡,并且最小化空间使用率、CPU、I/O的使用时长和网络传输开销等指标,在保持算法良好并行性的基础上,提出了一种MapReduce优化算法的设计规范,对多个指标同时进行优化。针对数据处理领域最重要的排序算法进行理论分析,给出了多指标约束下的最优算法,并证明了该优化算法满足MapReduce优化算法规范。最后通过实验验证了该优化的排序算法在有效性和效率方面严格优于传统的排序算法。 展开更多
关键词 mapreduce 优化算法 大数据 排序算法
在线阅读 下载PDF
基于MapReduce框架的并行蚁群优化聚类算法 被引量:2
18
作者 凌海峰 刘超超 《计算机工程》 CAS CSCD 北大核心 2015年第8期168-173,共6页
传统蚁群优化聚类算法在处理大规模数据时存在内存不足,不能体现蚁群算法的并行优势,无法处理分布式数据等问题。为此,提出一种并行蚁群优化聚类算法。通过借鉴搜索空间复制和搜索空间分块的思想,解决大数据处理问题,逐行读取信息素和数... 传统蚁群优化聚类算法在处理大规模数据时存在内存不足,不能体现蚁群算法的并行优势,无法处理分布式数据等问题。为此,提出一种并行蚁群优化聚类算法。通过借鉴搜索空间复制和搜索空间分块的思想,解决大数据处理问题,逐行读取信息素和数据,避免当数据规模过大时,将信息素一次性读入而造成内存不足的风险。实验结果表明,该算法在处理大规模数据时具有较好的可扩展性和较高的加速比。 展开更多
关键词 大数据 mapreduce计算框架 聚类算法 蚁群 并行算法
在线阅读 下载PDF
利用快速无偏分层图抽样算法的MapReduce负载平衡方法 被引量:2
19
作者 杜鹃 张卓 曹建春 《计算机应用与软件》 北大核心 2021年第11期288-294,313,共8页
提出一种基于快速无偏分层图抽样的MapReduce负载平衡方法。将聚类算法融合到MapReduce连接操作中,提出MapReduce并行聚类连接算法的实现方法;根据聚类结果动态调整抽样率的无偏分层图抽样算法,从而实现连接操作目标数据的准确、平衡抽... 提出一种基于快速无偏分层图抽样的MapReduce负载平衡方法。将聚类算法融合到MapReduce连接操作中,提出MapReduce并行聚类连接算法的实现方法;根据聚类结果动态调整抽样率的无偏分层图抽样算法,从而实现连接操作目标数据的准确、平衡抽样。通过合成数据集和真实数据集下的数据处理实验,与Hash连接算法及基于NS抽样的聚类算法进行对比,验证了所提出的算法方案在不同数据倾斜程度下都具有良好的负载平衡性能,其运行效率也没有因为新采样算法的采用而受到影响。 展开更多
关键词 大数据 数据倾斜 负载平衡 无偏分层图抽样 mapreduce平台 Hash连接算法 NS抽样聚类
在线阅读 下载PDF
一种基于并行矩阵目标明确的Apriori算法 被引量:5
20
作者 李伟 朱赵元 《浙江工业大学学报》 CAS 北大核心 2017年第5期574-579,共6页
传统的Apriori算法需要频繁扫描数据库,导致系统I/O、内存和通信的开销增大,且由于挖掘目标不明确,产生大量的无用或无意义的规则,导致关联规则的挖掘速度不理想,难以满足大数据时代下的数据挖掘需求.针对这些问题,提出了一种基于并行... 传统的Apriori算法需要频繁扫描数据库,导致系统I/O、内存和通信的开销增大,且由于挖掘目标不明确,产生大量的无用或无意义的规则,导致关联规则的挖掘速度不理想,难以满足大数据时代下的数据挖掘需求.针对这些问题,提出了一种基于并行矩阵目标明确的Apriori算法,该算法结合数据划分原理与MapReduce将规则挖掘过程并行化,同时将事务数据库矩阵化使数据库扫描次数减少到两次,并且设定目标项缩小了候选项集的规模和挖掘过程系统开销,提高了算法的性能,使算法更适用于分布式系统进行大数据的挖掘.最后通过实验证明改进后算法具有更好的性能,且挖掘出来的规则更符合用户需求. 展开更多
关键词 数据挖掘 apriori算法 矩阵 mapreduce 关联规则
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部