期刊文献+
共找到373篇文章
< 1 2 19 >
每页显示 20 50 100
基于离散度分析的Top-k组合Skyline查询算法
1
作者 董雷刚 刘国华 +1 位作者 王鑫 崔晓微 《计算机应用与软件》 北大核心 2025年第2期72-80,共9页
现有的组合Skyline查询算法不能区分组合中数据的离散度,且输出结果集很大。针对这种情况,提出基于数据离散度分析的Top-k组合Skyline查询算法。提出基于权重的组合离散系数概念及其计算方法;设置分类器将组合划分至不同的组合队列;采... 现有的组合Skyline查询算法不能区分组合中数据的离散度,且输出结果集很大。针对这种情况,提出基于数据离散度分析的Top-k组合Skyline查询算法。提出基于权重的组合离散系数概念及其计算方法;设置分类器将组合划分至不同的组合队列;采用并行处理方式对各组合队列进行计算。实验结果表明,该算法可以根据用户自定义条件准确有效地返回结果,能满足实际应用的需要。 展开更多
关键词 组合Skyline 离散度分析 top-k 离散系数 分类器 并行处理
在线阅读 下载PDF
不确定时间序列Top-k窗口聚合查询方法
2
作者 张航 熊浩然 何震瀛 《计算机工程》 北大核心 2025年第7期161-170,共10页
近年来,如何分析挖掘不确定时间序列数据逐渐受到业界关注。Top-k查询作为数据库领域研究的热点问题,旨在从大规模数据中检索出最符合用户查询条件的前k项结果。然而,尽管Top-k查询在其他领域已被广泛应用,针对不确定时间序列的Top-k查... 近年来,如何分析挖掘不确定时间序列数据逐渐受到业界关注。Top-k查询作为数据库领域研究的热点问题,旨在从大规模数据中检索出最符合用户查询条件的前k项结果。然而,尽管Top-k查询在其他领域已被广泛应用,针对不确定时间序列的Top-k查询研究仍然较少。这种查询可以有效帮助用户从不确定时间序列提取重要信息。提出一种新的Top-k查询问题——不确定时间序列Top-k窗口聚合查询,并针对该问题给出高效的查询方法。这个查询可以作为一个基础工具,辅助用户探索和分析不确定时间序列数据。现有能够支持这个查询的方法均存在查询效率较低或所需存储空间过高的问题。针对该问题,提出一种基于子窗口拼接策略的两级Top-k查询方法,并提出高效计算阈值上界方法解决基于子窗口拼接策略引入的阈值计算复杂难题。该方法能够以较少的预计算存储空间,高效支持不确定时间序列Top-k窗口聚合查询。为了验证所提方法的有效性,在真实和人造数据集上进行实验。实验结果表明,所提方法与基于TA的Top-k查询方法相比,明显降低了预计算列表的存储空间;与基于遍历的FSEC-S方法相比,所提方法以及使用计算阈值上界优化方法的平均查询效率分别提升了7.27倍和20.04倍。 展开更多
关键词 不确定时间序列 top-k查询 窗口 聚合查询 有序列表 阈值
在线阅读 下载PDF
top-k频繁挖掘下电力敏感数据差分隐私保护 被引量:1
3
作者 奚增辉 王卫斌 +2 位作者 屈志坚 姚嵘 陆嘉铭 《电子设计工程》 2025年第10期112-115,120,共5页
由于电力系统中的数据量庞大且具有动态变化的特性,敏感性和非敏感性的电力数据都存储在数据库中。如果用户在查询数据对象时发生错误,就会造成敏感数据的隐私泄露问题。为避免上述情况的发生,提出top-k频繁挖掘下电力敏感数据差分隐私... 由于电力系统中的数据量庞大且具有动态变化的特性,敏感性和非敏感性的电力数据都存储在数据库中。如果用户在查询数据对象时发生错误,就会造成敏感数据的隐私泄露问题。为避免上述情况的发生,提出top-k频繁挖掘下电力敏感数据差分隐私保护方法。通过设置top-k项目,对电力敏感数据频繁挖掘处理。引入差分隐私,创建电力敏感数据私有账本,分析其隐私性,完善差分隐私保护方案,实现对电力敏感数据差分隐私保护。实验结果表明,在top-k频繁挖掘算法作用下,主机元件不会出现错误查询到敏感性电力数据的情况,能够较好地保护敏感数据的差分隐私。 展开更多
关键词 top-k频繁挖掘 电力敏感数据 差分隐私 私有账本
在线阅读 下载PDF
ACCF:时间预测机制驱动的top-k流测量
4
作者 胡永庆 杨含 +2 位作者 刘子源 秦广军 戴庆龙 《计算机科学》 北大核心 2025年第10期98-105,共8页
针对当前top-k流测量过滤算法依赖固定计数器阈值的问题,提出了基于活跃度预测机制的ACCF(Activity Counting Cuckoo Filter)测量结构。ACCF通过引入活跃度预测机制,利用时间序列分析和指数加权移动平均(Exponentially Weighted Moving ... 针对当前top-k流测量过滤算法依赖固定计数器阈值的问题,提出了基于活跃度预测机制的ACCF(Activity Counting Cuckoo Filter)测量结构。ACCF通过引入活跃度预测机制,利用时间序列分析和指数加权移动平均(Exponentially Weighted Moving Average,EWMA)机制,动态计算网络流的活跃度,实现对潜在的top-k流的实时识别与提前过滤。针对哈希冲突可能导致的精度损失,ACCF引入了自刷新存储表(Self-Refreshing Storage Table,SRST),用于存储踢出路径上的网络流信息。当踢出操作达到设定的MaxNumKicks值时,SRST会在局部范围内优先踢出活跃度最小的网络流项,避免重要流量信息丢失。实验结果证明,ACCF与SRST在合适的参数组合条件下,可以提前过滤65%左右的大流并减少41%左右的插入操作,并显著提升了在top-k流量测量中的精度,尤其是在与传统的Space Saving(SS),CM Sketch,LUSketch和Cuckoo Counter算法对比时,展现了明显的优势。 展开更多
关键词 top-k 活跃度 时间序列 EWMA SRST SKETCH
在线阅读 下载PDF
基于Top-k查询算法的国际贸易数据高速检索研究
5
作者 汤陈燕 《湖南邮电职业技术学院学报》 2025年第3期62-67,共6页
传统数据高速检索方法的数据检索准确率易受数据相似度高的影响,基于此,引进Top-k查询算法,以国际贸易数据为例,设计了一种针对该数据的高速检索方法。运用小波分解技术对自整合的国际贸易数据进行除杂去噪处理,基于Top-k查询算法融合... 传统数据高速检索方法的数据检索准确率易受数据相似度高的影响,基于此,引进Top-k查询算法,以国际贸易数据为例,设计了一种针对该数据的高速检索方法。运用小波分解技术对自整合的国际贸易数据进行除杂去噪处理,基于Top-k查询算法融合相似国际贸易数据,并引进Solr数据检索引擎,从多个方面对高速检索行为进行概述,由此完成国际贸易数据高速检索方法设计。对比实验验证:所提出的高速检索方法在实际应用中的检索时间和检索正确率均优于传统方法。 展开更多
关键词 top-k查询算法 国际贸易 数据检索 小波分解
在线阅读 下载PDF
基于效用表的Top-k高效用挖掘算法TKUL
6
作者 高敏节 张美春 《电脑编程技巧与维护》 2025年第10期38-40,共3页
针对现有高效用项集挖掘算法存在的阈值提升缓慢、剪枝效用差等问题,提出了一种能够更加高效地挖掘效用值最大的前k个项集的算法。TKUL(minging Top-K high Utility itemsets based List)算法综合采用RIUQ、CUDQ和EPB阈值提升策略,加快... 针对现有高效用项集挖掘算法存在的阈值提升缓慢、剪枝效用差等问题,提出了一种能够更加高效地挖掘效用值最大的前k个项集的算法。TKUL(minging Top-K high Utility itemsets based List)算法综合采用RIUQ、CUDQ和EPB阈值提升策略,加快最小阈值获取的速度,大大减少了生成的非高效用项集的数量,并通过RUI和EUCPM策略进行剪枝,有效缩小了搜索空间的规模,从而提高了高效用项集的挖掘效率。 展开更多
关键词 关联规则 高效用项集 top-k项集
在线阅读 下载PDF
基于Top-k查询算法的电力营销数据智能检索方法
7
作者 李颖昕 王其吉 +2 位作者 岳莹 许炳灿 聂明军 《工业控制计算机》 2025年第7期117-118,共2页
在面对海量、复杂且多变的电力营销数据时,简单的关键词匹配只能提取和利用较少的数据中的关键信息,导致电力营销数据检索效率低,为此研究基于Top-k查询算法的电力营销数据智能检索方法。首先,通过聚类技术将电力营销数据进行融合,实现... 在面对海量、复杂且多变的电力营销数据时,简单的关键词匹配只能提取和利用较少的数据中的关键信息,导致电力营销数据检索效率低,为此研究基于Top-k查询算法的电力营销数据智能检索方法。首先,通过聚类技术将电力营销数据进行融合,实现数据的初步分类和组织。接着,从聚类后的数据中提取关键特征量,这些特征量能够准确反映电力营销数据的核心信息和规律。然后,在数据特征量提取的基础上,利用Top-k查询算法对电力营销数据进行可信度分配。Topk查询算法能够基于用户查询请求,从海量数据中快速筛选出与用户需求最匹配的前k个结果。最后,充分考虑电力营销数据的特性和查询需求,标定索引结构实现智能检索。实验结果表明:提出的方法在检索效率上具有显著的优势,能够更好地满足电力营销数据检索的需求。 展开更多
关键词 top-k查询算法 电力营销数据 数据检索 数据智能检索 智能检索方法
在线阅读 下载PDF
分布式网络中连续时间周期的全局top-K频繁流测量 被引量:1
8
作者 毛晨宇 黄河 +1 位作者 孙玉娥 杜扬 《计算机科学》 CSCD 北大核心 2024年第4期28-38,共11页
在分布式网络中,测量top-K频繁流对资源分配、安全监控等应用至关重要。现有的top-K频繁流测量工作存在不适用于测量分布式网络流量或只考虑单时间周期等局限。为此,提出了分布式网络中连续时间周期的全局top-K频繁流测量方案,在分布节... 在分布式网络中,测量top-K频繁流对资源分配、安全监控等应用至关重要。现有的top-K频繁流测量工作存在不适用于测量分布式网络流量或只考虑单时间周期等局限。为此,提出了分布式网络中连续时间周期的全局top-K频繁流测量方案,在分布节点中布置了紧凑的概率数据结构来记录网络流信息,每个时间周期结束后分布节点向中心节点发送必要信息,中心节点汇聚得到从测量开始至当前时间周期的全局top-K频繁流。考虑到每条流可能出现在一个或多个测量节点,使用了不同的方法来减少传输开销。对于每条流只会出现在单一节点的情况,采用传输分段最小值的方法来获得阈值,实验结果表明这种方法减少了全量传输超过50%的传输开销。对于每条流会出现在多个节点的情况,提出了多阶段无误差处理方法和单阶段快速处理方法,分别应对不能容忍误差的场景和实际高速网络流量,相比每个时间周期都使用已有单周期方法,传输开销的实验表现降低了两个数量级。最后还提出了一种利用历史平均增值信息降低通信延迟的方法,实验结果表明该方法有效降低了限制信息的平均相对误差。 展开更多
关键词 流量测量 top-k频繁流 分布式网络 连续时间周期 SKETCH
在线阅读 下载PDF
一次性条件下top-k高平均效用序列模式挖掘算法 被引量:2
9
作者 杨克帅 武优西 +2 位作者 耿萌 刘靖宇 李艳 《计算机应用》 CSCD 北大核心 2024年第2期477-484,共8页
针对传统序列模式挖掘(SPM)不考虑模式重复性且忽略各项的效用(单价或利润)与模式长度对用户兴趣度影响的问题,提出一次性条件下top-k高平均效用序列模式挖掘(TOUP)算法。TOUP算法主要包括两个核心步骤:平均效用计算和候选模式生成。首... 针对传统序列模式挖掘(SPM)不考虑模式重复性且忽略各项的效用(单价或利润)与模式长度对用户兴趣度影响的问题,提出一次性条件下top-k高平均效用序列模式挖掘(TOUP)算法。TOUP算法主要包括两个核心步骤:平均效用计算和候选模式生成。首先,提出基于各项出现位置与项重复关系数组的CSP(Calculation Support of Pattern)算法计算模式支持度,从而实现模式平均效用的快速计算;其次,采用项集扩展和序列扩展生成候选模式,并提出了最大平均效用上界,基于该上界实现对候选模式的有效剪枝。在5个真实数据集和1个合成数据集上的实验结果表明,相较于TOUP-dfs和HAOP-ms算法,TOUP算法的候选模式数分别降低了38.5%~99.8%和0.9%~77.6%;运行时间分别降低了33.6%~97.1%和57.9%~97.2%。TOUP的算法性能更优,能更高效地挖掘用户感兴趣的模式。 展开更多
关键词 数据挖掘 序列模式挖掘 高平均效用 一次性条件 top-k
在线阅读 下载PDF
大图中多样化Top-k模式挖掘算法研究 被引量:1
10
作者 何宇昂 王欣 沈玲珍 《计算机科学》 CSCD 北大核心 2024年第5期70-84,共15页
频繁模式挖掘(Frequent Pattern Mining,FPM)是图数据挖掘领域的一项重要任务。该任务的目标是从图数据中找到出现频次大于给定阈值的所有模式。近年来,随着社交网络等大规模图数据的涌现,单一大图上的FPM问题受到广泛关注,并得到了较... 频繁模式挖掘(Frequent Pattern Mining,FPM)是图数据挖掘领域的一项重要任务。该任务的目标是从图数据中找到出现频次大于给定阈值的所有模式。近年来,随着社交网络等大规模图数据的涌现,单一大图上的FPM问题受到广泛关注,并得到了较为充分的研究,取得了一系列研究成果。然而,已有技术大都存在着计算成本高、挖掘结果理解困难以及并行计算难等问题。针对上述问题,文中提出了一种从大规模图数据中挖掘多样化top-k模式的方法。首先设计了一个多样化函数,用于度量模式集合的多样性;随后设计了一种面向分布式图数据,具有提前终止特性的分布式挖掘算法DisTopk,以实现多样化top-k模式高效挖掘。在真实图数据和合成图数据上进行了大量实验,结果表明,与传统分布式挖掘算法相比,DisTopk算法能更高效地挖掘多样化top-k模式。 展开更多
关键词 频繁模式挖掘 top-k模式 结果多样性 分布式挖掘 提前终止
在线阅读 下载PDF
PeakSketch:检测网络流中的top-k流的无偏和通用草图
11
作者 李旭 王超 +1 位作者 尹慰民 周萍 《南华大学学报(自然科学版)》 2024年第2期73-81,共9页
通过对现有Sketch结构的研究,提出一种新的Sketch结构:PeakSketch,本文将其应用于三种任务:检测top-k频繁流,检测top-k重变化流,检测top-k持久流,从理论上证明了PeakSketch可以提供无偏估计,并且给出了算法的误差界。实验结果表明,PeakS... 通过对现有Sketch结构的研究,提出一种新的Sketch结构:PeakSketch,本文将其应用于三种任务:检测top-k频繁流,检测top-k重变化流,检测top-k持久流,从理论上证明了PeakSketch可以提供无偏估计,并且给出了算法的误差界。实验结果表明,PeakSketch的各项性能优秀,在检测top-k频繁流任务中,PeakSketch的吞吐量显著提升,特别是在分配内存小于200 kB以下时,吞吐量最高提升可以达到50%,准确率最高提升一倍,PeakSketch也展现突出的性能。 展开更多
关键词 网络流测量 SKETCH 无偏估计 top-k流检测 频繁流 重变化流 持久流
在线阅读 下载PDF
Top-k空间偏好查询方法研究
12
作者 田春 鲍金玲 +1 位作者 张志威 刘刚 《长春师范大学学报》 2024年第4期43-53,共11页
随着无线通信技术的发展和智能移动终端的广泛普及,基于位置的服务已经融入了人们生活的方方面面。其中,Top-k空间偏好查询在地理信息系统、城市建设规划、资源调度与分配、旅游规划等领域具有重要的意义。Top-k空间偏好查询是根据空间... 随着无线通信技术的发展和智能移动终端的广泛普及,基于位置的服务已经融入了人们生活的方方面面。其中,Top-k空间偏好查询在地理信息系统、城市建设规划、资源调度与分配、旅游规划等领域具有重要的意义。Top-k空间偏好查询是根据空间对象周围的特征对空间对象进行等级评价,并返回具有最高等级评价的k个空间对象。目前,对于Top-k空间偏好查询的研究主要集中在欧式空间和路网环境,本文对欧式空间和路网环境下的Top-k空间偏好查询方法进行分析和比较。 展开更多
关键词 top-k空间偏好查询 欧式空间 路网环境 R-tree索引 网络索引
在线阅读 下载PDF
一种针对反向空间偏好top-k查询的高效处理方法 被引量:4
13
作者 李淼 谷峪 +1 位作者 陈默 于戈 《软件学报》 EI CSCD 北大核心 2017年第2期310-325,共16页
随着地理位置定位技术的蓬勃发展,基于在线位置服务技术的应用也越来越多.提出一种查询类型——反向空间偏好top-k查询.类似于传统的反向空间top-k查询,对于给定的空间查询对象,该查询返回使该对象满足top-k属性得分的那些用户.但不同的... 随着地理位置定位技术的蓬勃发展,基于在线位置服务技术的应用也越来越多.提出一种查询类型——反向空间偏好top-k查询.类似于传统的反向空间top-k查询,对于给定的空间查询对象,该查询返回使该对象满足top-k属性得分的那些用户.但不同的是,该对象的属性不是自身具有的特性,而是通过计算该对象与其他偏好对象之间的空间关系(如距离)而确定.这种查询在市场分析等许多重要领域具有需求,例如,根据查询结果,分析出某个地区中某个设施受欢迎的程度.但是,由于大量空间对象的存在导致对象之间空间关系的计算代价非常高,如何实时地计算出对象的空间属性得分,给查询处理带来很大的挑战.针对该问题提出优化的查询处理算法包括:数据集剪枝、数据集批量处理、基于权重的用户分组等策略.通过理论分析和充分的实验验证,证明了所提出方法的有效性.与普通方法相比,这些方法能够大幅度提高查询处理的执行时间和I/O效率. 展开更多
关键词 top-k查询 反向top-k查询 四叉树 分组 查询优化
在线阅读 下载PDF
基于本地差分隐私的网络测量Top-k目的地址估计研究
14
作者 宋绮梦 《计算机应用文摘》 2024年第10期122-124,共3页
针对网络测量中的Top-k目的地址问题,设计了基于布谷鸟过滤器的ε-本地差分隐私Top-k目的地址估计机制。在保护隐私的前提下,该机制能够提高对Top-k目的地址的估计效果。采用了多轮迭代方法,将布谷鸟过滤器和本地差分隐私模型结合,在服... 针对网络测量中的Top-k目的地址问题,设计了基于布谷鸟过滤器的ε-本地差分隐私Top-k目的地址估计机制。在保护隐私的前提下,该机制能够提高对Top-k目的地址的估计效果。采用了多轮迭代方法,将布谷鸟过滤器和本地差分隐私模型结合,在服务器端和客户端进行了一轮交互。理论分析部分证明了所提出的机制符合本地差分隐私模型,并在数据集上进行了实验,对比了F1分数、NCR分数以及L1误差,验证了所提机制的有效性。 展开更多
关键词 网络测量 隐私保护 top-k目的地址 本地差分隐私
在线阅读 下载PDF
不确定性Top-K查询处理 被引量:55
15
作者 李文凤 彭智勇 李德毅 《软件学报》 EI CSCD 北大核心 2012年第6期1542-1560,共19页
高效Top-K查询处理在涉及大量数据交互的应用中是一项重要技术,随着应用中不确定性数据的大量涌现,不确定性数据的管理逐渐引起人们的重视.不确定性数据上Top-K查询从语义和处理上都呈现出与传统Top-K查询不同的特点.在主流不确定性数... 高效Top-K查询处理在涉及大量数据交互的应用中是一项重要技术,随着应用中不确定性数据的大量涌现,不确定性数据的管理逐渐引起人们的重视.不确定性数据上Top-K查询从语义和处理上都呈现出与传统Top-K查询不同的特点.在主流不确定性数据模型和可能世界语义模型下,学者们已经提出了多种不确定性Top-K查询的语义和处理方法.介绍了当前不确定性Top-K查询的研究工作,并对其进行分类,讨论包括语义、排序标准、算法以及应用等方面的技术.最后提出不确定性Top-K查询面临的挑战和下一步的发展方向. 展开更多
关键词 Top—K查询语义 top-k查询处理 排序标准 不确定性数据 可能世界
在线阅读 下载PDF
带间隔约束的Top-k对比序列模式挖掘 被引量:22
16
作者 杨皓 段磊 +3 位作者 胡斌 邓松 王文韬 秦攀 《软件学报》 EI CSCD 北大核心 2015年第11期2994-3009,共16页
对比序列模式能够表达序列数据集合间的差异,在商品推荐、用户行为分析和电力供应预测等领域有广泛的应用.已有的对比序列模式挖掘算法需要用户设定正例支持度阈值和负例支持度阈值.在不具备足够先验知识的情况下,用户难以设定恰当的支... 对比序列模式能够表达序列数据集合间的差异,在商品推荐、用户行为分析和电力供应预测等领域有广泛的应用.已有的对比序列模式挖掘算法需要用户设定正例支持度阈值和负例支持度阈值.在不具备足够先验知识的情况下,用户难以设定恰当的支持度阈值,从而可能错失一些对比显著的模式.为此,提出了带间隔约束的top-k对比序列模式挖掘算法k DSP-Miner(top-k distinguishing sequential patterns with gap constraint miner).k DSP-Miner中用户只需设置期望发现的对比最显著的模式个数,从而避免了直接设置对比支持度阈值.相应地,挖掘算法更容易使用,并且结果更易于解释.同时,为了提高算法执行效率,设计了若干剪枝策略和启发策略.进一步设计了k DSP-Miner的多线程版本,以提高其对高维序列元素情况的处理能力.通过在真实世界数据集上的详实实验,验证了算法的有效性和执行效率. 展开更多
关键词 序列模式 top-k 对比挖掘
在线阅读 下载PDF
差分隐私保护下一种精确挖掘top-k频繁模式方法 被引量:29
17
作者 张啸剑 王淼 孟小峰 《计算机研究与发展》 EI CSCD 北大核心 2014年第1期104-114,共11页
频繁模式挖掘是分析事务数据集常用技术.然而,当事务数据集含有敏感数据时(如用户行为记录、电子病例等),直接发布频繁模式及其支持度计数会给个人隐私带来相当大的风险.对此提出了一种满足ε-差分隐私的top-k频繁模式挖掘算法DP-topkP(... 频繁模式挖掘是分析事务数据集常用技术.然而,当事务数据集含有敏感数据时(如用户行为记录、电子病例等),直接发布频繁模式及其支持度计数会给个人隐私带来相当大的风险.对此提出了一种满足ε-差分隐私的top-k频繁模式挖掘算法DP-topkP(differentially private top-kpattern mining).该算法利用指数机制从候选频繁模式集合中挑选出top-k个携带真实支持度计数的模式;采用拉普拉斯机制产生的噪音扰动所选模式的真实支持度计数;为了增强输出模式的可用性,采用后置处理技术对top-k个模式的噪音支持度计数进行求精处理.从理论角度证明了该算法满足ε-差分隐私,并符合(λ,δ)-useful要求.实验结果证明了DP-topkP算法具有较好的准确性、可用性和可扩展性. 展开更多
关键词 频繁模式挖掘 top-k模式 差分隐私 拉普拉斯机制 指数机制
在线阅读 下载PDF
微博网络地域Top-k突发事件检测 被引量:19
18
作者 仲兆满 管燕 +1 位作者 李存华 刘宗田 《计算机学报》 EI CSCD 北大核心 2018年第7期1504-1516,共13页
传统的事件检测不考虑地域特性,面对的是媒体的整个信息流,是一种广域事件检测,会引起局部地域事件检测的失效.随着Web2.0及GPS技术的推广应用,很多社交媒体生成的内容体现了地理信息和时间标记.社交媒体中地域性突发事件的检测是近期... 传统的事件检测不考虑地域特性,面对的是媒体的整个信息流,是一种广域事件检测,会引起局部地域事件检测的失效.随着Web2.0及GPS技术的推广应用,很多社交媒体生成的内容体现了地理信息和时间标记.社交媒体中地域性突发事件的检测是近期新兴的研究热点.针对地域突发事件检测的需求,在合理利用社交媒体及突发事件表现的特性等方面,已有的研究仍有较大的不足.微博网络作为实时性、交互性很强的社交媒体,已经成为人们爆料事件、发表观点的首选媒体.该文面向微博网络,给出了地域Top-k突发事件检测的系统框架,包含地域博文采集、博文预处理、词突发值计算、突发词聚类、突发事件排序及突发事件可视化等部分.根据微博的时空特点,在综合考虑微博博文及社交关系的基础上,利用词出现频率、词关联用户、词分布地域及词社交行为4类指标,提出了新颖的微博网络词突发值计算模型.结合微博网络的特点以及地域Top-k突发事件检测的需求,提出了融合突发词地域、频率、关联博文、关联博文产生的影响力以及关联用户5类指标的突发事件热度计算方法.选取新浪微博作为真实的检测环境,以北京、南京、连云港和日照4个城市为地域范围,使用了5种方法比对了突发事件检测的准确率,这5种方法分别为HBED(2011年)、GeoSED(2013年)、EvenTweet(2013年)、GeoBurst(2016年)和该文提出的方法 LocTBED.结果表明,文中所提方法在地域Top-k突发事件的检测上有较好的性能. 展开更多
关键词 微博网络 也理标签博文 也域突发事件检测 司突发值计算 top-k突发事件排序
在线阅读 下载PDF
TKEP:海量数据上一种有效的Top-K查询处理算法 被引量:16
19
作者 韩希先 杨东华 李建中 《计算机学报》 EI CSCD 北大核心 2010年第8期1405-1417,共13页
在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合.文中详细地分... 在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合.文中详细地分析了NRA算法的执行行为,确定了增长阶段和收缩阶段中每个文件需要扫描的元组个数.文中发现在海量数据环境中,NRA在增长阶段需要维护大量的候选元组,严重影响了算法的执行效率.所以,文中提出一种新的海量数据上的top-k查询算法TKEP,该算法在查询的增长阶段就执行早剪切,从而大大减少增长阶段需要维护的候选元组.文中给出了早剪切操作的数学分析,确定了早剪切操作的理论和实际剪切效果.据作者所知,该文是第一篇提出在top-k查询的增长阶段执行早剪切的文章.实验结果表明,和传统的NRA相比,TKEP在增长阶段维护的元组数量减少3个数量级,需要的内存量减少1个数量级,TKEP算法获得1个数量级的加速比. 展开更多
关键词 海量数据 top-k 早剪切 TKEP
在线阅读 下载PDF
一种云环境下的大数据Top-K查询方法 被引量:17
20
作者 慈祥 马友忠 孟小峰 《软件学报》 EI CSCD 北大核心 2014年第4期813-825,共13页
Top-K查询在搜索引擎、电子商务等领域有着广泛的应用.Top-K查询从海量数据中返回最符合用户需求的前K个结果,主要目的是消除信息过载带来的负面影响.大数据背景下的Top-K查询,给数据管理和分析等方面带来新的挑战.结合MapReduce的特点... Top-K查询在搜索引擎、电子商务等领域有着广泛的应用.Top-K查询从海量数据中返回最符合用户需求的前K个结果,主要目的是消除信息过载带来的负面影响.大数据背景下的Top-K查询,给数据管理和分析等方面带来新的挑战.结合MapReduce的特点,从数据划分、数据筛选等方面对云环境下的大数据Top-K查询问题进行深入研究.实验结果表明,该方法具有良好的性能和扩展性. 展开更多
关键词 top-k查询 云计算 MAPREDUCE
在线阅读 下载PDF
上一页 1 2 19 下一页 到第
使用帮助 返回顶部