基于本地差分隐私的图聚类工作成为近年来的一个研究热点.已有工作主要针对的是无向图,且大多利用位向量技术通过模块化聚合实现.由于噪声量与向量维度成线性关系,使得聚类质量和隐私性难以很好地兼顾.此外,针对无向图中边的有/无设计的...基于本地差分隐私的图聚类工作成为近年来的一个研究热点.已有工作主要针对的是无向图,且大多利用位向量技术通过模块化聚合实现.由于噪声量与向量维度成线性关系,使得聚类质量和隐私性难以很好地兼顾.此外,针对无向图中边的有/无设计的2元扰动机制在面对有向图时,因无法对边的方向性进行处理而无法适用.针对上述问题,提出一种基于本地边差分隐私(edge local differential privacy,Edge-LDP)的有向图聚类算法DGC-LDP(directed graph clustering under LDP).具体来说,为了降低噪音量同时适用于有向图,基于直接编码方式设计了一种适用于有向星型图的动态扰动机制,通过自适应添加噪声来平衡隐私性和统计效用.在此基础上,在终端和收集者之间构建迭代机制.收集者依据终端上传的噪声数据提取节点间的相似性信息,并设计基于轮廓系数测量模型的节点聚合算法,通过迭代机制不断地优化节点聚合形式形成高质量簇.理论分析和实验结果表明,所提算法在满足Edge-LDP的同时能够有效兼顾聚类精度.展开更多
基于本地差分隐私的用户数据收集与分析得到了研究者的广泛关注.用户数据的值域大小、编码机制以及扰动机制直接制约着空间范围查询的精度.针对现有编码机制与扰动机制难以有效响应空间范围查询的不足,提出了一种基于网格分割与四分树...基于本地差分隐私的用户数据收集与分析得到了研究者的广泛关注.用户数据的值域大小、编码机制以及扰动机制直接制约着空间范围查询的精度.针对现有编码机制与扰动机制难以有效响应空间范围查询的不足,提出了一种基于网格分割与四分树索引的空间范围查询响应方法GT-R(grid-based quadtree range query),该方法利用网格对用户数据的值域进行均匀分割,产生大小均等的单元格区域.同时利用四分树结构对所有单元格区域进行索引.每个用户结合服务器共享的四分树副本,对所拥有的数据进行编码.借助于编码后的四分树进行层次随机采样,并利用优化随机应答机制对所采层次中的结点进行本地扰动处理.服务器利用每个用户的报告值重构四分树索引结构,并响应空间范围查询.GT-R与现有的编码机制与扰动机制在真实的大规模空间数据集上实验结果表明,其分割精度以及响应范围查询效果优于同类算法.展开更多
基于差分隐私的时间序列模式挖掘方法中,序列的最大长度以及添加拉普拉斯噪声的多少直接制约着挖掘结果的可用性.针对现有时间序列模式挖掘方法全局敏感度过高、挖掘结果可用性较低的不足问题,提出了一种基于序列格的差分隐私下时间序...基于差分隐私的时间序列模式挖掘方法中,序列的最大长度以及添加拉普拉斯噪声的多少直接制约着挖掘结果的可用性.针对现有时间序列模式挖掘方法全局敏感度过高、挖掘结果可用性较低的不足问题,提出了一种基于序列格的差分隐私下时间序列模式挖掘方法PrivTSM(Differentially Private Time Series Pattern Mining).该方法首先利用最长路径的策略对原始数据库进行截断处理;在此基础上,采用表连接操作生成满足差分隐私的序列格;结合序列格结构本身的特性,合理分配隐私预算,提高输出模式的可用性.理论分析表明PrivTSM方法满足ε-差分隐私,基于真实数据库上实验结果表明,PrivTSM方法的准确率TPR(True Postive Rate)和平均相对误差ARE(Average Relative Error)明显优于N-gram和Prefix-Hybrid方法.展开更多
文摘基于本地差分隐私的图聚类工作成为近年来的一个研究热点.已有工作主要针对的是无向图,且大多利用位向量技术通过模块化聚合实现.由于噪声量与向量维度成线性关系,使得聚类质量和隐私性难以很好地兼顾.此外,针对无向图中边的有/无设计的2元扰动机制在面对有向图时,因无法对边的方向性进行处理而无法适用.针对上述问题,提出一种基于本地边差分隐私(edge local differential privacy,Edge-LDP)的有向图聚类算法DGC-LDP(directed graph clustering under LDP).具体来说,为了降低噪音量同时适用于有向图,基于直接编码方式设计了一种适用于有向星型图的动态扰动机制,通过自适应添加噪声来平衡隐私性和统计效用.在此基础上,在终端和收集者之间构建迭代机制.收集者依据终端上传的噪声数据提取节点间的相似性信息,并设计基于轮廓系数测量模型的节点聚合算法,通过迭代机制不断地优化节点聚合形式形成高质量簇.理论分析和实验结果表明,所提算法在满足Edge-LDP的同时能够有效兼顾聚类精度.
文摘基于本地差分隐私的用户数据收集与分析得到了研究者的广泛关注.用户数据的值域大小、编码机制以及扰动机制直接制约着空间范围查询的精度.针对现有编码机制与扰动机制难以有效响应空间范围查询的不足,提出了一种基于网格分割与四分树索引的空间范围查询响应方法GT-R(grid-based quadtree range query),该方法利用网格对用户数据的值域进行均匀分割,产生大小均等的单元格区域.同时利用四分树结构对所有单元格区域进行索引.每个用户结合服务器共享的四分树副本,对所拥有的数据进行编码.借助于编码后的四分树进行层次随机采样,并利用优化随机应答机制对所采层次中的结点进行本地扰动处理.服务器利用每个用户的报告值重构四分树索引结构,并响应空间范围查询.GT-R与现有的编码机制与扰动机制在真实的大规模空间数据集上实验结果表明,其分割精度以及响应范围查询效果优于同类算法.
文摘基于差分隐私的时间序列模式挖掘方法中,序列的最大长度以及添加拉普拉斯噪声的多少直接制约着挖掘结果的可用性.针对现有时间序列模式挖掘方法全局敏感度过高、挖掘结果可用性较低的不足问题,提出了一种基于序列格的差分隐私下时间序列模式挖掘方法PrivTSM(Differentially Private Time Series Pattern Mining).该方法首先利用最长路径的策略对原始数据库进行截断处理;在此基础上,采用表连接操作生成满足差分隐私的序列格;结合序列格结构本身的特性,合理分配隐私预算,提高输出模式的可用性.理论分析表明PrivTSM方法满足ε-差分隐私,基于真实数据库上实验结果表明,PrivTSM方法的准确率TPR(True Postive Rate)和平均相对误差ARE(Average Relative Error)明显优于N-gram和Prefix-Hybrid方法.