期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
风险最小化加权朴素贝叶斯分类器 被引量:1
1
作者 欧桂良 何玉林 +2 位作者 张曼静 黄哲学 Philippe Fournier-Viger 《计算机科学》 北大核心 2025年第3期137-151,共15页
朴素贝叶斯分类器被誉为机器学习领域的十大经典算法之一,其以完备的理论基础和简单的模型结构而闻名,在许多的实际应用中取得了良好的分类效果。然而条件属性独立性假设在一定程度上限制了朴素贝叶斯分类器的性能,因此大量的改进工作... 朴素贝叶斯分类器被誉为机器学习领域的十大经典算法之一,其以完备的理论基础和简单的模型结构而闻名,在许多的实际应用中取得了良好的分类效果。然而条件属性独立性假设在一定程度上限制了朴素贝叶斯分类器的性能,因此大量的改进工作被提出来缓解这一问题,加权朴素贝叶斯分类器便是其中之一。在对边缘概率权重作用深入分析的基础之上,文中提出了一种基于风险最小化的加权朴素贝叶斯分类器(Risk Minimization-Based Weighted Naive Bayesian Classifier,RM-WNBC),即在权重确定的过程中同时考虑分类器的经验风险和权重的结构风险。不同于现有的过分关注朴素贝叶斯分类器外在泛化性能的改进策略,RM-WNBC是从朴素贝叶斯分类器的内在概率分布出发改善其泛化性能。经验风险度量了加权朴素贝叶斯分类器的分类能力,采用后验概率的估计质量表示;结构风险刻画了加权朴素贝叶斯分类器对属性相关性的处理,采用类条件概率的均方差表示。经验风险最小化保证了RM-WNBC可以获得良好的训练精度,同时结构风险最小化又使得RM-WNBC能够取得最佳的属性相关表达能力。为了获得RM-WNBC的最优权重,推导了高效且收敛的权重更新策略来保证结构风险和经验风险的最小化。在31个UCI和KEEL标准分类数据集上对RM-WNBC的可行性、合理性和有效性进行了验证。实验结果表明:1)RM-WNBC的训练和测试精度随着边缘概率权重的不断更新逐渐增加直至收敛;2)RM-WNBC具有比现有加权朴素贝叶斯分类器更好的属性相关性表达能力;3)在给定的显著性水平下,RM-WNBC在31个数据集上能够获得比经典朴素贝叶斯分类器、3种贝叶斯网络、4种加权朴素贝叶斯分类器和1种特征选择朴素贝叶斯分类器更好的训练和测试表现。 展开更多
关键词 朴素贝叶斯 独立性假设 加权朴素贝叶斯 结构风险 经验风险 贝叶斯网络
在线阅读 下载PDF
基于时空注意力的多粒度链路预测算法
2
作者 何玉林 赖俊龙 +2 位作者 崔来中 尹剑飞 黄哲学 《软件学报》 北大核心 2025年第9期4311-4326,共16页
社交网络链路预测有助于揭示网络节点之间的潜在联系,在好友推荐、合作预测等方面有着重要的实际应用价值.然而,现有的链路预测方法忽略了社交网络时间序列的中、长期发展趋势,且没有从长期的角度考虑网络中节点之间的相互影响关系.针... 社交网络链路预测有助于揭示网络节点之间的潜在联系,在好友推荐、合作预测等方面有着重要的实际应用价值.然而,现有的链路预测方法忽略了社交网络时间序列的中、长期发展趋势,且没有从长期的角度考虑网络中节点之间的相互影响关系.针对以上问题,提出基于时空注意力的多粒度链路预测算法,该算法能够融合不同粒度社交网络时间序列的时空特征以提升链路预测的准确性.首先,以时间衰减函数构建社交网络快照图的权重,提出图加权移动平均策略,生成反映短期、中期和长期趋势的不同粒度社交网络时间序列;然后,利用基于多头注意力机制的神经网络提取社交网络序列的全局时间特征;接着,结合社交网络序列内节点的历史交互信息,通过基于掩码注意力机制的神经网络从长期角度自适应地构建网络拓扑结构,以动态地调整节点之间的相互影响,并结合图卷积网络建模空间信息;最后,提出融合注意力神经网络,从短期、中期和长期时空特征中提取出有用的短期、中期和长期信息,并进行特征融合,准确地预测未来社交网络的链接.在4种社交网络公开数据集上与7种现有的链路预测算法的实验对比证实所提方法的有效性和优越性. 展开更多
关键词 社交网络 链路预测 多粒度 注意力机制 图卷积网络
在线阅读 下载PDF
基于LOGO计算框架的新型分布式机器学习算法库 被引量:2
3
作者 梁展雄 孙旭东 +4 位作者 蔡湧达 张育铭 麦朗杰 何玉林 黄哲学 《集成技术》 2025年第3期24-37,共14页
LOGO是一种“局部-全局(LOcal-GlObal)”式的分布式计算框架,与流行的MapReduce计算框架不同,LOGO框架下的大数据分布式计算分两步完成:LO操作在节点虚拟机内运行串行算法,完成一个随机样本块的独立计算,产生局部计算结果;GO操作将所有... LOGO是一种“局部-全局(LOcal-GlObal)”式的分布式计算框架,与流行的MapReduce计算框架不同,LOGO框架下的大数据分布式计算分两步完成:LO操作在节点虚拟机内运行串行算法,完成一个随机样本块的独立计算,产生局部计算结果;GO操作将所有局部结果上传到主节点,在主节点内对局部结果做集成,得到大数据的近似计算结果。LOGO计算框架在执行迭代算法时,消除了节点间的数据通信,极大地提高了分布式计算的效率,降低了内存需求,提高了数据扩展性。本文提出一种新的基于LOGO计算框架的分布式机器学习算法库,由LO操作执行的串行算法和GO操作执行的集成算法两部分组成。LO操作直接执行已有的机器学习串行算法,无须按MapReduce编程模型对算法进行重写,GO操作对串行计算结果进行集成。本文阐述了LOGO分布式计算的原理、算法库架构、串行算法封装和GO操作集成策略,展示了Spark实现、App应用开发和多种算法测试结果。 展开更多
关键词 大数据分布式计算 分布式机器学习算法库 近似计算 非MapReduce计算
在线阅读 下载PDF
脉冲神经网络基准测试及类脑训练框架性能评估
4
作者 胡汪鑫 成英超 +2 位作者 何玉林 黄哲学 蔡占川 《应用科学学报》 北大核心 2025年第1期169-182,共14页
随着脉冲神经网络(spiking neural network,SNN)研究需求的不断增长,开源类脑训练框架也迅速发展。然而,目前缺乏针对这些框架的系统性选择指南。为了解决该问题,提出了一种基于图像分类任务的SNN基准测试方法。本文为两种SNN训练方法,... 随着脉冲神经网络(spiking neural network,SNN)研究需求的不断增长,开源类脑训练框架也迅速发展。然而,目前缺乏针对这些框架的系统性选择指南。为了解决该问题,提出了一种基于图像分类任务的SNN基准测试方法。本文为两种SNN训练方法,即直接替代梯度反向传播训练方法以及从人工神经网络(artificial neural network,ANN)到SNN的转换训练方法分别设计了卷积神经网络和全连接深度神经网络模型,并使用MNIST、FashionMNIST和CIFAR-10基准图像数据集,以训练时间和分类准确率为评估指标,比较了不同类脑训练框架的性能差异。研究结果表明,在SNN直接训练中,类脑训练框架SpikingJelly在训练时间和分类准确率方面均表现优异;而在ANN到SNN的转换训练中,Lava框架实现了最高的分类准确率。 展开更多
关键词 深度学习 脉冲神经网络 类脑训练框架 基准测试 图像分类
在线阅读 下载PDF
基于最大均值差异的子空间高斯混合模型聚类集成算法
5
作者 何玉林 李旭 +2 位作者 贺颖婷 崔来中 黄哲学 《计算机应用》 北大核心 2025年第6期1712-1723,共12页
针对高斯混合模型(GMM)聚类算法在处理大规模高维数据聚类时出现的性能受限和参数敏感的问题,提出一种基于最大均值差异(MMD)的子空间GMM聚类集成(SGMM-CE)算法。首先,对原始大规模高维数据集进行随机样本划分(RSP)以得到多个数据子集,... 针对高斯混合模型(GMM)聚类算法在处理大规模高维数据聚类时出现的性能受限和参数敏感的问题,提出一种基于最大均值差异(MMD)的子空间GMM聚类集成(SGMM-CE)算法。首先,对原始大规模高维数据集进行随机样本划分(RSP)以得到多个数据子集,从样本量的角度缩小聚类问题的规模;其次,根据特征对最优GMM构件数的影响,在每一个数据子集对应的高维特征空间中进行子空间学习,得到每个高维特征空间对应的多个低维特征子空间,并在各个子空间上进行GMM聚类,从而得到一系列异构的GMM;再次,利用所提出的平均共享隶属概率(ASAP),重标记与融合来自同一个数据子集的不同特征子空间上的聚类结果;最后,利用扩展的子空间MMD(SubMMD)作为不同数据子集的聚类结果中2个簇之间的分布一致性的度量准则,据此重标记并融合这些数据子集的聚类结果,进而得到原始数据集的最终聚类集成结果。通过详尽的实验验证SGMM-CE算法的有效性,实验结果显示,相较于对比算法中最好的元簇聚类算法(MCLA),SGMM-CE算法在选用的数据集上的平均标准化互信息(NMI)、聚类精度(CA)和调整兰德系数(ARI)值分别提升了19%,20%和52%。此外,可行性和合理性的实验结果证实了SGMM-CE算法的参数收敛性与时间高效性,表明该算法具备高效处理大规模高维数据聚类问题的能力。 展开更多
关键词 无监督学习 集成学习 子空间学习 最大均值差异 高斯混合模型
在线阅读 下载PDF
并发式Spark消息分发器
6
作者 何玉林 林泽杰 +2 位作者 徐毓阳 成英超 黄哲学 《深圳大学学报(理工版)》 北大核心 2025年第3期317-325,I0012,I0013,共11页
在大数据计算框架Spark中,驱动器采用迭代式消息分发机制,会增加任务提交的时间开销,影响任务执行的启动时间,限制了任务执行的并发性,导致多个执行器处于空闲等待状态,造成计算资源的浪费.使用线程池调度策略,构建一种高效且轻量级的... 在大数据计算框架Spark中,驱动器采用迭代式消息分发机制,会增加任务提交的时间开销,影响任务执行的启动时间,限制了任务执行的并发性,导致多个执行器处于空闲等待状态,造成计算资源的浪费.使用线程池调度策略,构建一种高效且轻量级的并发式Spark消息分发器.与迭代式Spark消息分发器不同,并发式消息分发器更加关注且更适合调度开销较大的细粒度任务作业,通过解析包含执行器重要信息的元数据,获取任务列表及各个任务对应的执行器标识,创建线程池并为每个任务启动异步计算,从而实现并发式任务分发,在保证系统稳定和任务顺利执行的前提下,最大程度地减少任务分发的时间开销.在虚拟机构建的仿真集群环境上,通过与迭代式消息分发器进行对比,证实了并发式消息分发器的良好效果.实验结果表明,在内存保持不变的前提下,并发式Spark消息分发器可减少约9%的任务执行时间,同时能提高约5%的中央处理器的利用率.并发式Spark消息分发器有效解决了迭代式消息分发机制针对细粒度任务分发的时间开销过大和计算资源浪费的问题. 展开更多
关键词 并行处理 大数据计算 Spark通信机制 消息分发 细粒度任务 线程池调度
在线阅读 下载PDF
求解多模概率分布Gamma混合模型的半EM算法
7
作者 陈佳琪 何玉林 +1 位作者 成英超 黄哲学 《计算机应用》 北大核心 2025年第7期2153-2161,共9页
期望最大化(EM)算法在混合模型参数估计中发挥着重要作用,然而现有的EM算法在求解Gamma混合模型(GaMM)参数时存在局限性,主要体现在因近似计算导致的低质量参数估计,以及由于大量数值计算造成的计算效率低下问题。为了克服这些局限,并... 期望最大化(EM)算法在混合模型参数估计中发挥着重要作用,然而现有的EM算法在求解Gamma混合模型(GaMM)参数时存在局限性,主要体现在因近似计算导致的低质量参数估计,以及由于大量数值计算造成的计算效率低下问题。为了克服这些局限,并充分利用数据的多模性质,提出一种半EM(Semi-EM)算法求解用于估计多模概率分布的GaMM。首先,通过聚类探测数据的空间分布特性,以初始化GaMM参数,进而更准确地刻画数据的多模性;其次,在EM算法框架的基础上,对于缺乏封闭更新表达式而导致的参数更新困难问题,采用自定义的启发式策略对GaMM形状参数进行更新,使它们朝着最大化对数似然值的方向逐步调整,同时以封闭形式更新其他参数。经过一系列具有说服力的实验,验证了Semi-EM算法的可行性、合理性和有效性。实验结果表明,Semi-EM算法在精确估计多模概率分布方面优于对比的4种算法,具有更低的误差指标以及更高的对数似然值,表明该算法能提供更准确的模型参数估计,从而更精确地刻画数据的多模性质。 展开更多
关键词 多模概率密度函数 Gamma混合模型 期望最大化算法 聚类 对数似然函数
在线阅读 下载PDF
以标注确定性增强为导向的正类-无标签学习算法
8
作者 何玉林 何芃 +2 位作者 黄哲学 解为成 PHILIPPE Fournier-Viger 《计算机应用》 北大核心 2025年第7期2101-2112,共12页
正类-无标签学习(PUL)是在负例样本未知时,利用已知的少量正类样本和大量无标签样本训练出性能可被实际应用接受的分类器。现有的PUL算法存在共性的缺陷,即对无标签样本标注的不确定性较大,这将导致分类器学习到的分类边界不准确,并且... 正类-无标签学习(PUL)是在负例样本未知时,利用已知的少量正类样本和大量无标签样本训练出性能可被实际应用接受的分类器。现有的PUL算法存在共性的缺陷,即对无标签样本标注的不确定性较大,这将导致分类器学习到的分类边界不准确,并且限制了所训练分类器在新数据上的泛化能力。为了解决这一问题,提出一种以无标签样本标注确定性增强为导向的PUL(LCE-PUL)算法。首先,通过验证集的后验概率均值和正类样本集中心点的相似程度筛选出可靠的正类样本,并通过多轮迭代逐步精细化标注过程,以提升对无标签样本初步类别判断的准确性,从而提高无标签样本标注的确定性;其次,把这些可靠的正类样本与原始正类样本集合并,以形成新的正类样本集,之后从无标签样本集中将它剔除;然后,遍历新的无标签样本集,并利用每个样本与若干近邻点的相似程度再次筛选可靠正类样本,以更准确地推断无标签样本的潜在标签,从而减少误标注的可能性,并提升标注的确定性;最后,更新正类样本集,并把未被选中的无标签样本视为负类样本。在具有代表性的数据集上对LCE-PUL算法的可行性、合理性和有效性进行验证。随着迭代次数的增加,LCE-PUL算法的训练呈现收敛的特性,且当正类样本比例为40%、35%和30%时,LCE-PUL算法构建的分类器测试精度相较于基于特定成本函数的偏置支持向量机(BiasedSVM)算法、基于Dijkstra的PUL标签传播(LP-PUL)算法和基于标签传播的PUL(PU-LP)算法等5种代表性对比算法中最多提升了5.8、8.8和7.6个百分点。实验结果表明,LCE-PUL是一种有效处理PUL问题的机器学习算法。 展开更多
关键词 正类-无标签学习 标注确定性增强 后验概率 贝叶斯分类器 两步法
在线阅读 下载PDF
自适应的Spark数据均衡分区方法
9
作者 何玉林 吴东彤 黄哲学 《电子学报》 北大核心 2025年第8期2764-2778,共15页
Spark作为通用的计算引擎,以其简单、快速、可扩展的优势,被广泛地应用于大数据的处理和分析中.然而,Spark默认采用哈希分区或范围分区对数据进行划分,导致其在处理键倾斜分布的数据时,常常出现各分区数据量严重不均衡的问题.诸多优化... Spark作为通用的计算引擎,以其简单、快速、可扩展的优势,被广泛地应用于大数据的处理和分析中.然而,Spark默认采用哈希分区或范围分区对数据进行划分,导致其在处理键倾斜分布的数据时,常常出现各分区数据量严重不均衡的问题.诸多优化方法被提出,如迁移分区、贪心分区、反馈分区等,但往往存在数据传输量大、额外计算成本高、运行时间长等问题.为更好地缓解键倾斜分布问题带来的影响,本文提出了一种自适应的Spark数据均衡分区方法.该方法引入了奖惩思想对数据分区过程进行适当调控,同时对于数据量较大的键进行分割,使得各个分区的数据量相对均衡.该方法首先对数据采样并预估键权重.其次,按照键权重对样本数据降序排列,确保所有分区都有初始数据.再次,根据奖惩分配策略,自适应地更新各个分区的分配概率,并将待分配的键指向分配概率最高的分区.对于超过分区容量的键的数据,则分割为多个部分且指向不同分区.在所有样本数据分配完成后,获得自适应分区方案.在实际分区时,对于样本中出现的键对应的数据按照自适应分区方案进行分配;对于未出现的键对应的数据,则按照哈希方法进行分区.最后,通过实验验证,基于新方法设计的自适应均衡分区器(Adaptive Data Balanced Partitioner,ADBP)能够有效缓解键倾斜的负面影响.在真实数据集上,ADBP的WordCount程序总运行时间比自带分区器Hash、Range分别平均缩短了1.51%、29.90%,比现有基于学习自动机的自适应哈希分区器(Learning Automata Hash Partitioner,LAHP)、对倾斜的中间数据块进行拆分合并(Splitting and Combination algorithm for skew Intermediate Data block,SCID)算法、粗粒度放置和细粒度放置(Fined-Coarse Grained Intermediate Data Placement,FCGIDP)算法分别平均缩短了8.12%、21.64%、19.62%. 展开更多
关键词 数据倾斜 均衡分区 自适应分区 奖惩分配 SPARK
在线阅读 下载PDF
基于节点抽样的分布式二阶段聚类方法
10
作者 张曼静 何玉林 +1 位作者 李旭 黄哲学 《计算机科学》 北大核心 2025年第2期134-144,共11页
针对大数据聚类中存在的计算资源消耗大、聚类效率低的问题,提出了一种新的基于节点抽样的分布式二阶段聚类方法。该方法首先在各个本地节点对节点上的数据执行局部聚类操作,并基于局部聚类结果,从每个节点中抽取代表性的数据样本,然后... 针对大数据聚类中存在的计算资源消耗大、聚类效率低的问题,提出了一种新的基于节点抽样的分布式二阶段聚类方法。该方法首先在各个本地节点对节点上的数据执行局部聚类操作,并基于局部聚类结果,从每个节点中抽取代表性的数据样本,然后将各节点选定的样本数据传输至中央节点。之后,在中央节点上,对合并的样本数据进行进一步的聚类分析,并将样本聚类的结果传回各个本地节点。最后,各本地节点结合自身的局部聚类结果和中央节点的样本聚类结果,完成最终的聚类标签统一。通过以上流程,所提方法实现了对集中式聚类算法的分布式改造,能够快速一致地完成对全局数据的聚类分析。理论分析和数值实验均表明,与传统的全量数据集中式聚类方法相比,二阶段聚类方法有效地结合了并行处理的高效性和集成分析的准确性,在保证聚类质量的前提下能够显著降低计算资源的消耗,是一种可行的大数据聚类分布式解决方案。 展开更多
关键词 大数据聚类 分布式计算 节点抽样 并行计算 二阶段聚类
在线阅读 下载PDF
针对模相近数据的启发式核密度估计器
11
作者 何玉林 陈纯佳 +2 位作者 黄哲学 李俊杰 FOURNIER-VIGER Philippe 《数据采集与处理》 北大核心 2025年第3期711-729,共19页
区别于经典的基于Parzen窗口法的概率密度函数估计器构建策略,提出了基于近邻误差度量函数的启发式核密度估计器(Heuristic kernel density estimator,HKDE),用以提升对模相近数据概率密度函数拟合的准确性。首次从数据不确定性和模型... 区别于经典的基于Parzen窗口法的概率密度函数估计器构建策略,提出了基于近邻误差度量函数的启发式核密度估计器(Heuristic kernel density estimator,HKDE),用以提升对模相近数据概率密度函数拟合的准确性。首次从数据不确定性和模型不确定性的角度分析了传统核密度估计器解决模相近数据概率密度函数估计问题时的缺陷:利用概率密度值对于直方图箱宽参数的收敛性确定观测数据的启发式概率密度值,降低数据概率密度值计算的不确定性;基于启发式概率密度值构建用于确定核密度估计器最优带宽的目标函数,降低最优带宽优化过程中的不确定性。在18个模相近数据集上对新估计器HKDE的可行性、合理性和有效性进行了系统性的验证。实验结果表明,与7种具有代表性的概率密度函数估计器相比,HKDE能够获得更加优异的概率分布近似表现,具有比其他估计器更低的估计误差,能够确定出更接近真实值的概率密度函数估计值。 展开更多
关键词 核密度估计器 模相近观察值 不确定性 启发式概率密度值 直方图箱宽
在线阅读 下载PDF
面向大数据的海云数据系统关键技术研究 被引量:63
12
作者 黄哲学 曹付元 +1 位作者 李俊杰 陈小军 《网络新媒体技术》 2012年第6期20-26,共7页
由于数据产生成本的急速下降,人类社会产生的数据不仅以指数级别增长,而且数据的结构变得日趋复杂,使得传统的数据分析技术遇到了极大的挑战。如何对大量复杂数据进行分析和挖掘,从中提取有价值的知识用于决策,已经成为产业界和学术界... 由于数据产生成本的急速下降,人类社会产生的数据不仅以指数级别增长,而且数据的结构变得日趋复杂,使得传统的数据分析技术遇到了极大的挑战。如何对大量复杂数据进行分析和挖掘,从中提取有价值的知识用于决策,已经成为产业界和学术界的广泛关注问题,在一些国家已上升到国家战略层面。本文介绍了大数据的基本概念、特征和面临的科学问题,总结了中国科学院战略性先导科技专项"面向感知中国的新一代信息技术研究"中"海云数据系统关键技术研究与系统研制"课题的一些先期成果,为开发大数据管理、分析和挖掘系统提供一些参考依据。 展开更多
关键词 大数据系统 大数据分析 数据挖掘 可视分析
在线阅读 下载PDF
面向服务的大数据分析平台解决方案 被引量:15
13
作者 黄哲学 陈小军 +1 位作者 李俊杰 王强 《科技促进发展》 2014年第1期52-59,共8页
本文针对日益增长的大数据分析与信息服务的应用需求,提出基于数据中心和互联网、面向服务的大数据分析平台解决方案,为开展大数据分析相关的研究和实践提供借鉴和参考。首先对国内外大数据技术的产业现状进行回顾,然后给出基于数据中... 本文针对日益增长的大数据分析与信息服务的应用需求,提出基于数据中心和互联网、面向服务的大数据分析平台解决方案,为开展大数据分析相关的研究和实践提供借鉴和参考。首先对国内外大数据技术的产业现状进行回顾,然后给出基于数据中心和互联网的大数据分析平台拓扑架构,讨论大数据分析平台的系统功能和关键技术,最后阐述该平台系统的应用和产业化前景。 展开更多
关键词 大数据 大数据分析 大数据平台 互联网服务
原文传递
一种新的以服务质量为导向的Spark作业调度器
14
作者 何玉林 莫沛恒 +1 位作者 Philippe Fournier-Viger 黄哲学 《大数据》 2025年第4期154-177,共24页
Spark大数据计算框架被广泛用于处理和分析爆发式增长的大数据。云端能够提供按需和按量付费的计算资源来满足用户的请求。当前,许多组织将大数据计算集群部署在云端上开展大数据计算任务,其需要高效地处理Spark作业调度问题以满足各种... Spark大数据计算框架被广泛用于处理和分析爆发式增长的大数据。云端能够提供按需和按量付费的计算资源来满足用户的请求。当前,许多组织将大数据计算集群部署在云端上开展大数据计算任务,其需要高效地处理Spark作业调度问题以满足各种用户对QoS的要求,如降低使用资源的花费和缩短作业的响应时间。而现有研究大多未能统一考虑多用户要求,忽略了Spark集群环境和工作负载的特性,导致资源浪费和用户对QoS的要求得不到满足等。为此,通过对部署在云端的Spark集群作业调度问题进行建模,设计了一种新的基于DRL技术的Spark作业调度器来满足多个QoS要求。搭建了DRL集群仿真环境,用于对作业调度器的核心DRL Agent进行训练。在调度环境中实现了基于绝对深度Q值网络、基于近端策略优化与广义优势估计联合的训练方法,使DRL Agent可以自适应地学习不同类型作业,以及动态、突发的集群环境特征,实现对Spark作业的合理调度,以降低集群总使用成本、缩短作业的平均响应时间。在基准套件上对DRL Agent测试的结果表明,与其他现有的Spark作业调度解决方案相比,本文设计的DRL Agent作业调度器在集群总使用成本、作业平均响应时间以及QoS达成率上具有显著的优越性,证明了其有效性。 展开更多
关键词 大数据计算 服务质量 Spark作业调度器 云环境 深度强化学习
在线阅读 下载PDF
大数据随机样本划分模型及相关分析计算技术 被引量:19
15
作者 黄哲学 何玉林 +1 位作者 魏丞昊 张晓亮 《数据采集与处理》 CSCD 北大核心 2019年第3期373-385,共13页
设计了一种新的适用于大数据的管理和分析模型大数据随机样本划分(Random samplepartition,RSP)模型,它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上。RSP的生成操作使每个RSP数据块的分布与大数据的分布保持... 设计了一种新的适用于大数据的管理和分析模型大数据随机样本划分(Random samplepartition,RSP)模型,它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上。RSP的生成操作使每个RSP数据块的分布与大数据的分布保持统计意义上的一致,因此,每个RSP数据块是大数据的一个随机样本数据,可以用来估计大数据的统计特征,或建立大数据的分类和回归模型。基于RSP模型,大数据的分析任务可以通过对RSP数据块的分析来完成,不需要对整个大数据进行计算,极大地减少了计算量,降低了对计算资源的要求,提高了集群系统的计算能力和扩展能力。本文首先给出RSP模型的定义、理论基础和生成方法;然后介绍基于RSP数据块的渐近式集成学习Alpha计算框架;之后讨论基于RSP模型和Alpha框架的大数据分析相关计算技术,包括:数据探索与清洗、概率密度函数估计、有监督子空间学习、半监督集成学习、聚类集成和异常点检测;最后讨论RSP模型在分而治之大数据分析和抽样方法上的创新,以及RSP模型和Alpha计算框架实现大规模数据分析的优势。 展开更多
关键词 大数据 随机样本划分 渐近式集成学习 人工智能
在线阅读 下载PDF
服务网格中的事务服务及基于Petri网的正确性分析 被引量:11
16
作者 唐飞龙 李明禄 +1 位作者 黄哲学 王卓立 《计算机学报》 EI CSCD 北大核心 2005年第4期667-676,共10页
面向服务的的架构(SOA)推动着网格技术从科学计算走向商业领域,大部分商业应用需要事务的支持.该文提出了服务网格环境下用于事务管理的网格事务服务,它能够动态地发现执行子事务的网格服务;根据事务类型调用原子事务或聚合事务协调算... 面向服务的的架构(SOA)推动着网格技术从科学计算走向商业领域,大部分商业应用需要事务的支持.该文提出了服务网格环境下用于事务管理的网格事务服务,它能够动态地发现执行子事务的网格服务;根据事务类型调用原子事务或聚合事务协调算法以保证这些服务在行动上实现期望的一致性.通过 Petri 网分析技术,将两种协调算法模型化为Petri网并验证了它们的正确性.网格事务服务可以提供较强的事务管理能力并将复杂的处理过程对用户透明,为网格技术的商业化提供了有效的支持. 展开更多
关键词 服务网格 事务服务 PETRI网 模型 算法
在线阅读 下载PDF
基于RFM购买树的客户分群 被引量:5
17
作者 明勇 张文斌 +1 位作者 黄哲学 陈小军 《深圳大学学报(理工版)》 EI CAS CSCD 北大核心 2017年第3期306-312,共7页
针对通过零售交易数据进行客户分群时传统方法未考虑商品的价值问题,提出用RFM(recency frequency monetary)表达交易数据的方法,该方法将客户购买的商品和商品类别组成一棵RFM购买树(recency frequency monetary purchase tree,RFMPT)... 针对通过零售交易数据进行客户分群时传统方法未考虑商品的价值问题,提出用RFM(recency frequency monetary)表达交易数据的方法,该方法将客户购买的商品和商品类别组成一棵RFM购买树(recency frequency monetary purchase tree,RFMPT).提出基于RFM购买树的快速聚类算法(based recency frequency monetary purchase tree clustering,BRFMPTC),把购买树构建为Cover Tree(CT)索引结构,利用CT结构快速选择k个密度最大的购买树作为中心,将其他对象划分到距它最近的类中心.实验结果表明,在距离加权下,BRFMPTC算法较传统算法在整体上能产生质量更高的聚类结果,性能得到较大提升. 展开更多
关键词 计算机感知 零售数据 客户分群 RFM购买树 聚类 覆盖树 Dunn指数
在线阅读 下载PDF
大数据分析平台建设与应用综述 被引量:32
18
作者 王强 李俊杰 +2 位作者 陈小军 黄哲学 陈国良 《集成技术》 2016年第2期2-18,共17页
大数据分析平台是开展大数据处理与分析应用所必需的基础设施。文章基于课题组开展大数据分析平台建设的科研成果与实践经验,结合大型企业实施行业应用项目的切身感受,从大数据分析平台设计、主流热点技术、行业应用案例三个方面进行介... 大数据分析平台是开展大数据处理与分析应用所必需的基础设施。文章基于课题组开展大数据分析平台建设的科研成果与实践经验,结合大型企业实施行业应用项目的切身感受,从大数据分析平台设计、主流热点技术、行业应用案例三个方面进行介绍。文章首先分析了大数据分析平台的主要功能和体系架构,然后介绍了大数据分析平台的关键技术,重点介绍了Spark技术的体系架构及核心组件,最后介绍了大数据技术在大规模制造业、零售业和智能电网三个领域的应用案例。 展开更多
关键词 大数据平台 大数据分析 大数据应用 内存计算
在线阅读 下载PDF
电子商务环境下供应商绩效评价体系的构建研究 被引量:4
19
作者 于昕 赵凯 黄哲学 《技术经济与管理研究》 2007年第4期35-36,共2页
本文分析了在电子商务环境下构建新的供应商绩效评价体系的必要性,论述了评价体系中基于平衡记分卡建立体系结构,使用关键绩效指标确定评价标准,以粗糙集为工具进行决策的解决方案。系统性的提出了以供应商关系为导向,信息共享为基础,... 本文分析了在电子商务环境下构建新的供应商绩效评价体系的必要性,论述了评价体系中基于平衡记分卡建立体系结构,使用关键绩效指标确定评价标准,以粗糙集为工具进行决策的解决方案。系统性的提出了以供应商关系为导向,信息共享为基础,数据分析为手段,能够充分适应电子商务环境的供应商绩效评估体系的构建模型。 展开更多
关键词 电子商务 供应商绩效评价 平衡记分卡 关键绩效指标 粗糙集
在线阅读 下载PDF
基于子空间聚类的供应商分类方法研究 被引量:3
20
作者 于昕 王道平 黄哲学 《工业工程》 2007年第3期76-79,共4页
根据动态交易行为对供应商分类,更好地为供应商提供服务,是大型企业供应商关系管理的核心问题之一。针对供应商行为的交易数据最大、表达复杂的特点,提出基于k-均值子空间聚类算法对供应商分类的数据挖掘方法,解决高维和稀疏数据的分析... 根据动态交易行为对供应商分类,更好地为供应商提供服务,是大型企业供应商关系管理的核心问题之一。针对供应商行为的交易数据最大、表达复杂的特点,提出基于k-均值子空间聚类算法对供应商分类的数据挖掘方法,解决高维和稀疏数据的分析问题,并通过实例验证该方法的准确性和高效性。结果表明该方法是优化供应商关系,提高企业能力的有效方法。 展开更多
关键词 供应商关系管理 供应商分类 数据挖掘 子空间聚类
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部