基于中文地址类信息的分词处理被引量：3

A segment method of chinese address information

下载PDF

导出

摘要数据仓库中脏数据处理的热点问题是识别与消除相似重复记录。针对中文地址类重复信息的处理,提出了一种基于特征字符的分词策略,在建立了包含分词规则的元数据库基础上,描述了基于特征字符的分词算法。实验结果表明分词所用的时间随着数据集的增长变化不大。因此,将分词方法应用于中文地址类重复记录的检测,也不会增加检测的时间。 It＇s a hot issue to eliminate approximately duplicated records in cleansing dirty data of data warehouse.Aiming at processing of Chinese address information,a segment mechanism based on the feature word is proposed.The meta-database of segment rules is established,and the feature word based segment algorithm is presented.The experiment results indicate that the segment time is invariable along with the data set growing.So this method can be used in detecting approximately duplicated records,but the detecting time will not increase.

作者刘哲夏秀峰周福才

机构地区沈阳师范大学计算中心沈阳航空工业学院计算机学院东北大学信息科学与工程学院

出处《沈阳航空工业学院学报》 2008年第4期63-66,共4页 Journal of Shenyang Institute of Aeronautical Engineering

关键词相似重复记录中文地址特征字符分词 Approximately duplicated records Chinese address information Tagged word Segment

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1佘春红.数据清理方法[J].计算机应用,2002,22(12):128-130. 被引量：4
2D. Bitton, D.J. DeWitt. Duplicate record elimination in large data files [ J ]. ACM Transactions on Database Systems. 1983,8 (2) :255 -265
3曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
4刘哲,夏秀峰,宋晓燕,林桐.一种中文地址类相似重复信息的检测方法[J].小型微型计算机系统,2008,29(4):726-729. 被引量：7

二级参考文献16

1鲍玉斌,孙焕良,冷芳玲,王大玲,于戈.数据仓库环境下以用户为中心的数据清洗过程模型[J].计算机科学,2004,31(5):52-55. 被引量：15
2黄昌宁.统计语言模型能做什么?[J].语言文字应用,2002(1):77-84. 被引量：31
3[1]Erhard R., Do H.H. Data Cleaning:Problem and Current Approaches[J]. IEEE Techn. Bulletin Data Engineering,2000,23(4).
4[2]Hern′andez M.A.,Stolfo S.J. The merge/purge problem for large databases[A]. Proceedings of the ACM SIGMOD,International Conference on Management of Data[C]. ACM Press,May 1995. 127-138.
5[3]Monge A.E. An adaptive and efficient algorithm for detecting approximately duplicate database records[J]. Submitted for journal publication, June 2000.
6[4]Monge A. E.,Elkan C.P. The field matching problem: Algorithms and applications[A]. Proc. 2nd Intl. Conf. Knowledge Discovery and Data Mining[C]. Portland, Oregon,1996.
7[5]Lee M.L.,Lu H., Ling T.W. et al. Cleansing Data for Mining and Warehousing[A]. 10th International Conference and Workshop on Database and Expert Systems Applications (DEXA99)[C]. Florence, Italy, August 30 - September 3,1999.
8MANNING C, SCHüTZE H. Foundations of Statistical Natural Language Processing[M] MIT Press. Cambridge, MA: 1999.
9ZHANG HP. Chinese Lexical Analysis Using Hierarchical Hidden Markov Model[A]. Second SIGHAN workshop affiliated with 41th ACL[C], 2003.63 -70.
10Bitton D,DeWitt D J. Duplicate record elimination in large data files[J]. ACM Transactions on Database Systems,1983, 8(2): 255-265.

共引文献17

1刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
2陆凤霞,王静秋,王宁生.一种开放式数据清理框架[J].南京航空航天大学学报,2006,38(4):459-463. 被引量：3
3冯素琴,陈惠明.利用上下文信息解决汉语组合型歧义[J].电脑开发与应用,2007,20(1):23-25. 被引量：1
4冯素琴,陈惠明.一种自组织的汉语组合型歧义消歧方法[J].计算机工程与设计,2007,28(3):737-739. 被引量：3
5冯素琴,陈惠明.基于语境信息的汉语组合型歧义消歧方法[J].中文信息学报,2007,21(6):13-16. 被引量：7
6冯素琴,陈惠明.一种基于搭配信息的汉语组合型消歧方法[J].山西大学学报（自然科学版）,2008,31(2):173-176.
7张严虎,潘璐璐,彭子平,张靖波,于中华.基于规则挖掘和Nave Bayes方法的组合型歧义字段切分[J].计算机应用,2008,28(7):1686-1688. 被引量：5
8李明,卢煜,苏振中.数据预处理中填补空缺值的方法技术[J].电脑知识与技术,2009,5(3):1546-1548. 被引量：4
9何国斌,赵晶璐.汉语文本自动分词算法的研究[J].计算机工程与应用,2010,46(3):125-127. 被引量：13
10何国斌,赵晶璐.基于最大匹配的中文分词概率算法研究[J].计算机工程,2010,36(5):173-175. 被引量：16

同被引文献33

1王凌云,李琦,江洲.国内地理编码数据库系统开发与研究[J].计算机工程与应用,2004,40(21):167-168. 被引量：33
2洪圆,孙未未,施伯乐.一种使用双阈值的数据仓库环境下重复记录消除算法[J].计算机工程与应用,2005,41(1):168-170. 被引量：9
3高红,黄德根,杨元生.汉语自动分词中中文地名识别[J].大连理工大学学报,2006,46(4):576-581. 被引量：10
4吴昊,潘无名,王硕,杨博.一种基于变型B-树的中文自动分词词典机制[J].技术与市场,2007,14(4):37-38. 被引量：1
5US Census Bureau[EB/OL].[2012-10-20].http ://www.census. gov/geo/www/tiger.
6Christen P.A probabilistic geocoding system based on a national address file[C]//Proceedings of the 3rd Austral- asian Data Mining Conference,2004.
7Goldberg D W.From text to geographic coordinates:the current state of geocoding[J].URISA Journal, 2007, 19( 1 ) : 33-46.
8Leidner J L.Toponym resolution in text:annotation,eval- uation and applications of spatial grounding of place names[D].Edinburgh: University of Edinburgh, 2007.
9Hemandez M A, Stolfo S J.Real-world data is dirty: data cleansing and the merge/purge problem[J].Data Mining and Knowledge Discovery, 1998,2( 1 ) :9-37.
10Hernandez M, Stolfo S.The merge/purge problem for large databases[C]//Proceedings of the ACM SIGMOD International Conference on Management of Data, San Jose,California, 1995: 127-138.

引证文献3

1郭文龙.数据清洗中中文地址分词技术研究[J].齐齐哈尔大学学报（自然科学版）,2012,28(5):14-18.
2郭文龙.基于SNM算法的大数据量中文地址清洗方法[J].计算机工程与应用,2014,50(5):108-111. 被引量：8
3李晓林,张懿,李霖.基于地址语义理解的中文地址识别方法[J].计算机工程与科学,2019,41(3):551-558. 被引量：8

二级引证文献16

1李春霞,许键,彭艳兵.基于语义关联融合的案件识别[J].数字技术与应用,2024,42(3):155-160.
2赵卫锋,张勤.非结构化中文自然语言地址描述的自动识别[J].计算机工程与应用,2016,52(23):19-24. 被引量：4
3李晓林,黄爽,卢涛,李霖.非规范化中文地址的行政区划提取算法[J].计算机应用,2017,37(3):876-882. 被引量：7
4宋国兴,周喜,马博,赵凡.基于R-树索引的高维相似重复记录检测改进算法[J].微电子学与计算机,2017,34(9):97-102. 被引量：3
5张苗苗,苏勇.基于SNM算法的大数据量中文商品清洗方法[J].计算机与数字工程,2019,47(3):625-627. 被引量：1
6李晓林,张懿,李霖.基于地址语义理解的中文地址识别方法[J].计算机工程与科学,2019,41(3):551-558. 被引量：8
7姚路.中文分词算法在地址标准化清洗中的应用[J].中国高新科技,2020(20):126-128. 被引量：3
8王兴宝,雷琴辉,梅林海,张亚,邢猛.汽车语音交互技术发展趋势综述[J].汽车文摘,2021(2):9-15. 被引量：9
9徐卓,王宁娜,穆琳.基于地理信息的数据清洗探讨与实践[J].信息工程大学学报,2021,22(3):321-325. 被引量：1
10殷滋伟,张伟,王佳慧,马利民.面向地址数据基于ISM理论构建数据清洗规则链方法研究[J].北京信息科技大学学报（自然科学版）,2021,36(6):87-92. 被引量：3

1刘哲,夏秀峰,宋晓燕,林桐.一种中文地址类相似重复信息的检测方法[J].小型微型计算机系统,2008,29(4):726-729. 被引量：7
2陈锦凯,吴允平,苏伟达,李汪彪,吴燕,林霞,关健,蔡声镇.基于功能分析的多协议转换器的设计[J].微计算机应用,2010,31(11):47-51. 被引量：1
3木马病毒的识别与消除方法[J].网管员世界,2002(9):90-92.
4万晓榆,杨波,樊自甫.改进的Sunday模式匹配算法[J].计算机工程,2009,35(7):125-126. 被引量：13
5杨锐.特征字符串匹配在P2P流量控制中的应用[J].科技信息,2006,0(11):158-159.
6李兴鹏,王涛.Word的深度—巧用Word域实现字处理[J].硅谷,2011,4(10):189-189. 被引量：1
7高东发.Word域在数学文档中的应用和技巧[J].当代继续教育,2000,30(3):70-72. 被引量：1
8符明.局域网中BitTorrent协议流的鉴别与控制[J].网络与信息,2008,22(2):18-18.
9常传文,茅文深.集合游程编码算法介绍与实验分析[J].计算机与数字工程,2008,36(12):32-34.
10李斌斌,冯涛,谷丽.串口波特率与数据位参数自适应算法的研究与实现[J].计算机光盘软件与应用,2014,17(3):279-280. 被引量：1

沈阳航空工业学院学报

2008年第4期

浏览历史

内容加载中请稍等...

基于中文地址类信息的分词处理被引量：3

参考文献4

二级参考文献16

共引文献17

同被引文献33

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于中文地址类信息的分词处理 被引量：3

参考文献4

二级参考文献16

共引文献17

同被引文献33

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于中文地址类信息的分词处理被引量：3