-
题名使用均值距离与关联性标记的并行OPTICS算法
被引量:1
- 1
-
-
作者
郑剑
余鑫
-
机构
江西理工大学信息工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2023年第5期232-244,共13页
-
基金
江西省教育厅科学技术研究项目(GJJ170517)。
-
文摘
针对大数据环境下传统并行密度聚类算法中存在的数据划分不合理,聚类结果准确度不高,结果受参数影响较大以及并行效率低等问题,提出一种MapReduce下使用均值距离与关联性标记的并行OPTICS算法——POMDRM-MR。算法使用一种基于维度稀疏度的减少边界点划分策略(DS-PRBP),划分数据集;针对各个分区,提出标记点排序识别簇算法(MOPTICS),构建数据点与核心点之间的关联性,并标记数据点迭代次数,在距离度量中,使用领域均值距离策略(FMD),计算数据点的领域均值距离,代替可达距离排序,输出关联性标记序列;最后结合重排序序列提取簇算法(REC),对输出序列进行二次排序并提取簇,提高算法局部聚类的准确性和稳定性;在合并全局簇时,算法提出边界密度筛选策略(BD-FLC),计算筛选密度相近局部簇;又基于n叉树的并集型合并与MapReduce模型,提出并行局部簇合并算法(MCNT-MR),加快局部簇收敛,并行合并局部簇,提升全局簇合并效率。对照实验表明,POMDRM-MR算法聚类效果更佳,且在大规模数据集下算法的并行化性能更好。
-
关键词
大数据
密度聚类
MAPREDUCE
OPTICS
prbp
-
Keywords
big data
density-based clustering
MapReduce
OPTICS
partition with reduce boundary points(prbp)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种海量中文地址转化与切割的方法研究
- 2
-
-
作者
徐辉
王宁章
雷琳琳
-
机构
广西大学计算机与电子信息学院
-
出处
《计算机技术与发展》
2015年第11期6-10,共5页
-
基金
国家自然科学基金资助项目(61363067)
广西自然科学基金资助项目(2012GXNSFAA053226)
桂科攻资助项目(14122007-42)
-
文摘
针对在传统单节点计算模式下,处理海量中文地址数据时不能直接地进行复杂空间数学计算,并且容易受节点硬件条件限制而出现内存溢出和计算速度慢的问题,文中提出了一种中文地址信息通过第三方接口转成对应的经纬度坐标数据,再运用改进后的PRBP-DI分区算法,将海量数据切分成若干子分区分别计算的方法。减少PRBP算法中,对分区数据块列或行重复进行的扫描计算和累积求和计算。真实数据集上的实验结果表明,通过该方法能将海量中文地址数据转化并切分成分布均匀的若干子分区,且算法耗时并不一直随数据点个数增加而增大,提高了海量中文地址数据并行计算的能力和准确性。并根据两种分区算法各自的耗时变化,分析了算法耗时在数据量增大到300 000个数据点时反而减小的原因。
-
关键词
中文地址
prbp—DI
分区算法
海量数据
并行计算
-
Keywords
Chinese address
prbp-DI
partitioning algorithm
huge amounts of data
parallel computing
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-