支持本地化差分隐私保护的k-modes聚类方法被引量：15

k-modes Clustering Guaranteeing Local Differential Privacy

下载PDF

导出

摘要如何在保护数据隐私的同时进行可用性的数据挖掘已成为热点问题。鉴于在很多实际应用场景中,很难找到一个真正可信的第三方对用户的敏感数据进行处理,文中首次提出了一种支持本地化差分隐私技术的聚类方案——LDPK-modes(Local Differential Privacy K-modes)。与传统的基于中心化差分隐私的聚类算法相比,其不再需要一个可信的第三方对数据进行收集和处理,而由用户担任数据隐私化的工作,极大地降低了第三方窃取用户隐私的可能性。用户使用满足本地d-隐私(带有距离度量的本地差分隐私技术)定义的随机响应机制对敏感数据进行扰动,第三方收集到用户扰动数据后,恢复其统计特征,生成合成数据集,并进行k-modes聚类。在聚类过程中,将数据集上频繁出现的特征分配给初始聚类中心点,进一步提高了聚类结果的可用性。理论分析和实验结果表明了LDPK-modes的隐私性和聚类可用性。 How to conduct usability data mining while protecting data privacy has become a hot issue.In many practical scena-rios,it is difficult to find a trusted third party to process the sensitive data.This paper proposes the first locally differentially private k-modes mechanism(LDPK-modes)under this distributed scenario.Differing from standard differentially private clustering mechanisms,the proposed mechanism doesn’t need any trusted third party to collect and preprocess users data.Users disturb their data using a random response mechanism that satisfies the definition of local d-privacy(local differential privacy with distance metric).When the third party collects the user’s disturbed data,it restores its statistical features and generates a synthetic data set.The frequent attributes on the data set are assigned to the initial cluster center and then start k-modes clustering.Theoretical analysis shows that the proposed algorithm satisfies local d-privacy.Experimental results show that our proposal can well preserve the quality of clustering results without a trusted third-party data collector.

作者彭春春陈燕俐荀艳梅 PENG Chun-chun;CHEN Yan-li;XUN Yan-mei(College of Computer Science,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)

机构地区南京邮电大学计算机学院、软件学院、网络空间安全学院

出处《计算机科学》 CSCD 北大核心 2021年第2期105-113,共9页 Computer Science

基金国家自然科学基金(61572263,61272084)。

关键词本地化差分隐私 k-modes d-隐私聚类隐私保护 Local differential privacy k-modes d-privacy Clustering Privacy preserving

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1叶青青,孟小峰,朱敏杰,霍峥.本地化差分隐私研究综述[J].软件学报,2018,29(7):1981-2005. 被引量：86
2傅彦铭,李振铎.基于拉普拉斯机制的差分隐私保护k-means++聚类算法研究[J].信息网络安全,2019(2):43-52. 被引量：22
3胡闯,杨庚,白云璐.面向差分隐私保护的聚类算法[J].计算机科学,2019,46(2):120-126. 被引量：14

二级参考文献13

1李杨,郝志峰,温雯,谢光强.差分隐私保护k-means聚类方法研究[J].计算机科学,2013,40(3):287-290. 被引量：50
2张啸剑,孟小峰.面向数据发布和分析的差分隐私保护[J].计算机学报,2014,37(4):927-949. 被引量：144
3刘雅辉,张铁赢,靳小龙,程学旗.大数据时代的个人隐私保护[J].计算机研究与发展,2015,52(1):229-247. 被引量：275
4孟小峰,张啸剑.大数据隐私管理[J].计算机研究与发展,2015,52(2):265-281. 被引量：96
5吴伟民,黄焕坤.基于差分隐私保护的DP-DBScan聚类算法研究[J].计算机工程与科学,2015,37(4):830-834. 被引量：28
6张付霞,蒋朝惠.一种基于网格聚类的查询隐私匿名算法研究[J].信息网络安全,2015(8):53-58. 被引量：4
7芦天亮,王侨,刘颖卿.不安全通信中的用户隐私泄露问题[J].信息网络安全,2015(9):119-123. 被引量：9
8李洪成,吴晓平,陈燕.MapReduce框架下支持差分隐私保护的k-means聚类方法[J].通信学报,2016,37(2):124-130. 被引量：25
9任奎.云计算中图像数据处理的隐私保护[J].网络与信息安全学报,2016,2(1):12-17. 被引量：5
10方跃坚,朱锦钟,周文,李同亮.数据挖掘隐私保护算法研究综述[J].信息网络安全,2017(2):6-11. 被引量：26

共引文献114

1唐迪,顾健,俞优,杨元原.基于等级保护的个人信息安全分级方法研究[J].信息网络安全,2020(S02):13-16. 被引量：3
2刘丹青,高瑜,吴振强.基于距离贡献率的隐私保护框架下k-medoids算法研究[J].青海师范大学学报（自然科学版）,2022,38(1):4-13.
3孟小峰,王雷霞,刘俊旭.人工智能时代的数据隐私、垄断与公平[J].大数据,2020,6(1):35-46. 被引量：21
4孙慧中,杨健宇,程祥,苏森.一种基于随机投影的本地差分隐私高维数值型数据收集算法[J].大数据,2020,6(1):3-11. 被引量：4
5宋海娜,罗涛,韩新宇,李剑峰.面向多敏感值的个性化随机响应机制设计与分析[J].电子学报,2019,47(6):1236-1243. 被引量：1
6马方方,刘树波,熊星星,牛晓光.可穿戴设备数值型敏感数据本地差分隐私保护[J].计算机应用,2019,39(7):1985-1990. 被引量：13
7崔燚,臧国全.大数据环境下的图书馆数据隐私风险评估模型构建及实证研究[J].河南图书馆学刊,2019,39(7):128-132. 被引量：2
8初广辉,王晓利.一种改进的基于差分隐私的k-means聚类算法[J].软件导刊,2019,18(8):71-74. 被引量：5
9赵莉,付世凤.一种改进的面向差分隐私保护的k-means聚类算法[J].信息与电脑,2019,0(14):49-52. 被引量：2
10曹永知.概率系统差分隐私研究综述[J].广州大学学报（自然科学版）,2019,18(4):75-82.

同被引文献149

1田芫,宗序平.双参数离散偏拉普拉斯分布的若干性质和参数估计[J].天津理工大学学报,2020,0(1):54-59. 被引量：3
2周水庚,李丰,陶宇飞,肖小奎.面向数据库应用的隐私保护研究综述[J].计算机学报,2009,32(5):847-861. 被引量：222
3李仁侃,叶东毅.粗糙K-Modes聚类算法[J].计算机应用,2011,31(1):97-100. 被引量：6
4钱萍,吴蒙.同态加密隐私保护数据挖掘方法综述[J].计算机应用研究,2011,28(5):1614-1617. 被引量：32
5朱郁筱,吕琳媛.推荐系统评价指标综述[J].电子科技大学学报,2012,41(2):163-175. 被引量：254
6李杨,郝志峰,温雯,谢光强.差分隐私保护k-means聚类方法研究[J].计算机科学,2013,40(3):287-290. 被引量：50
7熊平,朱天清,王晓峰.差分隐私保护及其应用[J].计算机学报,2014,37(1):101-122. 被引量：184
8王璐,孟小峰.位置大数据隐私保护研究综述[J].软件学报,2014,25(4):693-712. 被引量：152
9张啸剑,孟小峰.面向数据发布和分析的差分隐私保护[J].计算机学报,2014,37(4):927-949. 被引量：144
10孟祥武,纪威宇,张玉洁.大数据环境下的推荐系统[J].北京邮电大学学报,2015,38(2):1-15. 被引量：71

引证文献15

1张亚迪,孙悦,刘锋,朱二周.结合密度参数与中心替换的改进K-means算法及新聚类有效性指标研究[J].计算机科学,2022,49(1):121-132. 被引量：16
2孔钰婷,谭富祥,赵鑫,张正航,白璐,钱育蓉.基于差分隐私的K-means算法优化研究综述[J].计算机科学,2022,49(2):162-173. 被引量：15
3王豪石,张淑芬,董燕灵,李帅.面向差分隐私的BIRCH算法研究[J].软件导刊,2022,21(4):116-120. 被引量：2
4马淑华,尤海荣,唐亮,何平.一种自适应的密度峰值聚类算法[J].东北大学学报（自然科学版）,2022,43(6):761-768. 被引量：7
5张国鹏,陈学斌,王豪石,翟冉,马征.面向本地差分隐私的K-Prototypes聚类方法[J].计算机应用,2022,42(12):3813-3821. 被引量：9
6周慧鑫,姜合,王艳梅.非独立同分布下的K-Modes算法[J].计算机工程与设计,2023,44(1):182-187.
7冯晗,伊华伟,李晓会,李锐.推荐系统的隐私保护研究综述[J].计算机科学与探索,2023,17(8):1814-1832. 被引量：10
8从传锋.云计算下去中心化双重差分隐私数据保护算法[J].吉林大学学报（信息科学版）,2024,42(1):14-19. 被引量：1
9赵乌吉斯古楞,凃云杰.基于证据理论的三向密度峰值聚类[J].计算机应用与软件,2024,41(5):264-273.
10陈予雯.基于加权深度森林算法的公安敏感数据流动态挖掘研究[J].中国人民警察大学学报,2024,40(6):23-28. 被引量：4

二级引证文献70

1王一帆,邵开丽,徐志文,叶鸿鑫.基于大数据的突发事件网络舆情动态分类研究[J].物联网技术,2022,12(8):46-49. 被引量：3
2王豪石,张淑芬,董燕灵,徐超.基于本地差分隐私的BIRCH混合数据算法[J].华北理工大学学报（自然科学版）,2023,45(1):89-98.
3郑岳,韩娟,杜丽洁,于丽梅,仝天,孙源.基于大数据分析的支撑智能催费的客户分群方法研究[J].电力大数据,2022,25(8):55-61. 被引量：3
4王睿.基于K-means算法的网络主动安全防御系统研究与设计[J].网络安全技术与应用,2022(11):31-33. 被引量：3
5李宣达,张丹妮,薛亮,王林.一种智能开窗控制系统的设计与实现[J].物联网技术,2022,12(12):83-88.
6张喜梅,解滨,徐童童,张春昊.基于反向K近邻和密度峰值初始化的加权Kmeans聚类入侵检测算法[J].南京理工大学学报,2023,47(1):56-65. 被引量：13
7陈羽.一种基于测地距离的密度峰值聚类改进算法[J].伊犁师范大学学报（自然科学版）,2023,17(1):56-65.
8罗绍辉,罗奕俊.融合KMeans++与DBSCAN算法的工程车辆轨迹聚类研究[J].城市勘测,2023(2):27-30. 被引量：2
9刘昉,叶华芳,李奇临,梁传彬,刘湘,严桂珍,张俊.重庆双偏振天气雷达(CINRAD/SAD)径向干扰去除及补偿算法研究[J].现代电子技术,2023,46(9):115-119. 被引量：1
10王圣节,巫朝霞.基于密度权重的优化差分隐私K-medoids聚类算法[J].智能计算机与应用,2023,13(5):126-130. 被引量：2

1李玉强,陈鋆昊,李琦,刘爱华.基于差分隐私下包外估计的随机森林算法[J].哈尔滨工业大学学报,2021,53(2):146-154. 被引量：8
2黄保华,程琪,袁鸿,黄丕荣.基于距离与误差平方和的差分隐私K-means聚类算法[J].信息网络安全,2020(10):34-40. 被引量：9
3杨云鹿,周亚建,宁华.支持差分隐私的图像数据挖掘方法研究[J].数据采集与处理,2021,36(1):85-94. 被引量：12
4郭祯,张银,安方林,赵科杰,张文杰,叶俊.基于区块链的具有隐私保护的多项式外包计算方案[J].信息安全学报,2021,6(1):78-89. 被引量：2
52021年科技预测:云、物联网与新常态技术[J].信息技术,2021,45(1). 被引量：2
6韩瑞霞.网络地方社群用户参与行为影响因素研究[J].南京邮电大学学报（社会科学版）,2020,22(6):45-58.
7齐继伟.秦代官徒调配问题初探[J].古代文明,2021,15(1):91-100. 被引量：8
8张可铧,成卫青.基于空间动态划分的差分隐私聚类算法[J].计算机工程与应用,2021,57(2):97-103. 被引量：3
9吴锋,孟丽娟.参数微扰法中基态能量与近似级数的关系[J].大学物理,2021,40(2):23-24. 被引量：1
10雷贤临.仿制人造皮革地板线裁切废料及样件取出设备的研发及应用[J].科学技术创新,2021(1):161-162.

计算机科学

2021年第2期

浏览历史

内容加载中请稍等...

支持本地化差分隐私保护的k-modes聚类方法被引量：15

参考文献3

二级参考文献13

共引文献114

同被引文献149

引证文献15

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

支持本地化差分隐私保护的k-modes聚类方法 被引量：15

参考文献3

二级参考文献13

共引文献114

同被引文献149

引证文献15

二级引证文献70

相关作者

相关机构

相关主题

浏览历史

支持本地化差分隐私保护的k-modes聚类方法被引量：15