位置信息记录中基于期望最大化的名称消重算法

Expectation Maximization Based Name Deduplicating Algorithm in Spatial Records

下载PDF

导出

摘要在包含位置信息的签到记录中,每条记录仅包含名称和位置(经纬度)两个属性。传统的名称消重算法通过匹配实体的属性值或者计算实体间的名称相似性进行消重,忽略了位置信息的特殊性。为了提高位置信息记录中名称消重的质量,提出了一种基于期望最大化的位置名称消重算法。首先,提出了一种包含核心单词和背景单词的文本名称模型,并给出了计算模型参数值的期望最大化算法。其次,在文本名称模型中引入位置信息,将整个地图划分为若干个网格,分别计算每个网格中核心单词和背景单词的分布情况,并提出了一种考虑位置的文本名称模型。最后,将位置文本名称模型用于位置信息记录中的名称消重,并给出了相应的名称消重算法。实验表明,与传统的名称消重模型相比,提出的位置名称消重模型可以更好地识别出名称中包含的核心词汇,因而在名称消重时具有更好的性能。 In check-in records with corresponding locations,each record only contains the attributes of name and location,i.e.,longitude and latitude.Traditional name deduplicating algorithms deduplicate names by matching attributes between two entities or computing similarity between names of the two entities,and thus neglect the particularity of locations.In order to improve the quality of name deduplicating in spatial records,this paper proposed an expectation maximization based name deduplicating algorithm.Firstly,we proposed a text name model containing core and background words,and gave an expectation maximization algorithm for computing parameters of the model.Secondly,we introduced location into the text name model,partitioned the whole world into tiles,computed the distributions of core and background words in each tile,and proposed a text name model including location.Finally,we used the location text name model to deduplicate names in location records,and presented corresponding name deduplicating algorithrr.The experiments show that,our proposed algorithm can better recognize core word in a name than related works,and thus performs better while deduplicating name in location records.

作者孙晓玲郑勉李伟勤罗恩韬

机构地区西南石油大学电气信息学院中南大学信息科学与工程学院

出处《计算机科学》 CSCD 北大核心 2016年第3期238-241,251,共5页 Computer Science

基金国家重大专项资助项目(2008zx05026-001-09) 国家自然科学基金项目(6140060035) 四川省教育厅自然科学一般项目(16ZB0074)资助

关键词签到位置期望最大化名称消重 Check-in Location Expectation maximization Name deduplicating

分类号 TP319 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：23
2郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082. 被引量：281
3庞雄文,姚占林,李拥军.大数据量的高效重复记录检测方法[J].华中科技大学学报（自然科学版）,2010,38(2):8-11. 被引量：15
4许一震,王永成,沈洲.一种快速的多模式字符串匹配算法[J].上海交通大学学报,2002,36(4):516-520. 被引量：29
5孙德才,孙星明,张伟,刘玉玲.基于匹配区域特征的相似字符串匹配过滤算法[J].计算机研究与发展,2010,47(4):663-670. 被引量：10
6黄林晟,邓志鸿,唐世渭,王文清,陈凌.基于编辑距离的中文组织机构名简称-全称匹配算法[J].山东大学学报（理学版）,2012,47(5):43-48. 被引量：14
7陈庆枝,陈国龙,郭文忠,陈仕涛.信息安全评估日志数据的一种混合聚类算法[J].重庆工学院学报（自然科学版）,2009,23(10):77-82. 被引量：2

二级参考文献164

1车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：66
2陈伟,丁秋林.一种XML相似重复数据的清理方法研究[J].北京航空航天大学学报,2004,30(9):835-838. 被引量：7
3曹忠升,万劲伟.基于语义的数据清理技术[J].华中科技大学学报（自然科学版）,2005,33(2):76-78. 被引量：2
4韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
5邹旭楷.汉字／字符串编辑距离和编辑路径的有效求解技术[J].计算机研究与发展,1996,33(8):574-580. 被引量：5
6陈伟,丁秋林.可扩展数据清理软件平台的研究[J].电子科技大学学报,2006,35(1):100-103. 被引量：10
7朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
8陆凤霞,王静秋,王宁生.一种开放式数据清理框架[J].南京航空航天大学学报,2006,38(4):459-463. 被引量：3
9陈卓,贺明霞,刘相双.基于扩展凝聚点和网格的增量聚类算法[J].哈尔滨工业大学学报,2006,38(8):1382-1385. 被引量：5
10夏骄雄,徐俊,吴耿锋.数据清理中同体不同源数据的数化算法研究[J].计算机工程,2007,33(1):71-73. 被引量：5

共引文献363

1梁莉莉,布瑞丰.非遗视频直播的技术逻辑及其潜在风险——基于抖音平台的“田野”观察[J].青海民族研究,2022,33(3):136-141. 被引量：13
2王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147. 被引量：2
3丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：6
4唐坚,刘海燕.作战文书中部队番号的自动识别方法[J].兵器装备工程学报,2020,0(2):143-147. 被引量：1
5赵丽,王凤先,刘振鹏,常卓.计算机免疫系统中沙盒主机的构建[J].大连理工大学学报,2003,43(z1):9-11. 被引量：5
6周力,张勃.向Oracle进行数据移植的方法[J].沈阳大学学报,2003,15(2):38-39. 被引量：3
7宋峥嵘,朴春梅.数据质量与数据清理浅谈[J].今日科苑,2009(17).
8毕锟,刘军.ETL系统的设计及其研究[J].软件导刊,2010,9(5):173-175. 被引量：9
9曹建军,刁兴春,陈爽,邵衍振.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211. 被引量：32
10刘永楠,邹兆年,李建中,王海洁.数据完整性的评估方法[J].计算机研究与发展,2013,50(S1):230-238. 被引量：11

1卡卡.开心网和你的朋友一起分享[J].电脑迷,2008,0(19):16-17.
2征服高考场中难度系数TOP30核心词汇[J].大学（高考金刊）,2016,0(11):80-82.
3不是异类而是未来——2008年春天的个性台式电脑[J].微电脑世界,2008(4):46-65.
4倪凌云.科技改变教育——BYOD在加拿大中小学[J].中国信息技术教育,2015(2):93-94. 被引量：2
5周长利,马春光,杨松涛,李增鹏.一种保护隐私的LBS近邻兴趣点低通信查询方法[J].四川大学学报（工程科学版）,2015,47(3):114-122. 被引量：2
6邱磊.基于A＊算法的游戏地图寻路实现及性能比较[J].陕西科技大学学报（自然科学版）,2011,29(6):89-93. 被引量：17
7何鹏,陈豫.一种基于特征的实体统一算法在数据集成中的应用研究[J].情报理论与实践,2015,38(7):119-122. 被引量：2
8雷碧波.基于CEKF的SLAM算法研究与分析[J].工业控制计算机,2015,28(10):14-16. 被引量：2
9何晓莹.基于微博的数据挖掘方案[J].生物技术世界,2014,11(1):175-175.
10李艳,周振华,赵文举.一种考虑地图分布信息的分层路径搜索算法[J].小型微型计算机系统,2013,34(11):2607-2611. 被引量：1

计算机科学

2016年第3期

浏览历史

内容加载中请稍等...

位置信息记录中基于期望最大化的名称消重算法

参考文献7

二级参考文献164

共引文献363

相关作者

相关机构

相关主题

浏览历史