期刊文献+

位置信息记录中基于期望最大化的名称消重算法

Expectation Maximization Based Name Deduplicating Algorithm in Spatial Records
在线阅读 下载PDF
导出
摘要 在包含位置信息的签到记录中,每条记录仅包含名称和位置(经纬度)两个属性。传统的名称消重算法通过匹配实体的属性值或者计算实体间的名称相似性进行消重,忽略了位置信息的特殊性。为了提高位置信息记录中名称消重的质量,提出了一种基于期望最大化的位置名称消重算法。首先,提出了一种包含核心单词和背景单词的文本名称模型,并给出了计算模型参数值的期望最大化算法。其次,在文本名称模型中引入位置信息,将整个地图划分为若干个网格,分别计算每个网格中核心单词和背景单词的分布情况,并提出了一种考虑位置的文本名称模型。最后,将位置文本名称模型用于位置信息记录中的名称消重,并给出了相应的名称消重算法。实验表明,与传统的名称消重模型相比,提出的位置名称消重模型可以更好地识别出名称中包含的核心词汇,因而在名称消重时具有更好的性能。 In check-in records with corresponding locations,each record only contains the attributes of name and location,i.e.,longitude and latitude.Traditional name deduplicating algorithms deduplicate names by matching attributes between two entities or computing similarity between names of the two entities,and thus neglect the particularity of locations.In order to improve the quality of name deduplicating in spatial records,this paper proposed an expectation maximization based name deduplicating algorithm.Firstly,we proposed a text name model containing core and background words,and gave an expectation maximization algorithm for computing parameters of the model.Secondly,we introduced location into the text name model,partitioned the whole world into tiles,computed the distributions of core and background words in each tile,and proposed a text name model including location.Finally,we used the location text name model to deduplicate names in location records,and presented corresponding name deduplicating algorithrr.The experiments show that,our proposed algorithm can better recognize core word in a name than related works,and thus performs better while deduplicating name in location records.
出处 《计算机科学》 CSCD 北大核心 2016年第3期238-241,251,共5页 Computer Science
基金 国家重大专项资助项目(2008zx05026-001-09) 国家自然科学基金项目(6140060035) 四川省教育厅自然科学一般项目(16ZB0074)资助
关键词 签到 位置 期望最大化 名称消重 Check-in Location Expectation maximization Name deduplicating
  • 相关文献

参考文献7

二级参考文献164

共引文献363

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部