基于MapReduce的术语权重计算方法研究被引量：1

Research on Term Weighting Based on MapReduce

下载PDF

导出

摘要术语识别在本体构建、词典构建等领域应用广泛,而术语权重计算是术语识别中的关键步骤。本文通过改进TF-IDF公式,将组成术语词条的长度作为权重因素之一,同时考虑术语在文档集中的领域相关性。整个过程基于MapReduce编程模型实现,在Hadoop云平台中以分布式方式计算候选领域术语的权重。实验结果表明,该方法不仅简化了术语权重计算的实施步骤,也提高了算法执行效率。 Term recognition is widely used in the ontology construction,dictionary construction and other fields.And term weighting is a key step in the term recognition.In this paper,several improvements have been made to TF-IDF algorithm,e.g.,the length of terms is considered in weighting,also with terms＇ correlations to documentation set.The candidate term weight is calculated in a distributed manner based on MapReduce on Hadoop.Experimental results show that the method proposed not only simplifies the steps of term weighting,but also improves the efficiency of the algorithm.

作者王锴施水才王涛吕学强

机构地区北京信息科技大学中文信息处理研究中心北京拓尔思信息技术股份有限公司

出处《电信科学》北大核心 2011年第11期62-65,共4页 Telecommunications Science

基金国家自然科学基金资助项目(No.60872133) 北京市自然科学基金资助项目(No.4092015) 北京市教委科技发展计划资助项目(No.KM201010772023)

关键词术语权重 TF-IDF MAPREDUCE 分布式 term weight TF-IDF MapReduce distributed

分类号 TP393.03 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1王强军李芸张普.信息技术领域术语提取的初步研究[J].自然语言处理,2002,:32-33.
2mcard0Baeza-Yates.BerthierRibefio-Neto.M0rdem InformmionRetfievM.北京:机械工业出版社,2005.
3Christina Hoffa, Gaurang Mehta, Timothy Freeman. On the use of cloud computing for scientific workflows, http://wenku.baidu. corn/view eea16c2a3169a4517623a305.html, 2008.
4Jeffrey Dean,Sanjay Ghemawat. MapReduce: simplified data processing on large clusters.In:OSDI,2004.
5孙广中,肖锋,熊曦.MapReduce模型的调度及容错机制研究[J].微电子学与计算机,2007,24(9):178-180. 被引量：26
6许春玲,张广泉.分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析[J].苏州大学学报（工科版）,2010,30(4):5-9. 被引量：19
7高志翔.一种基于TF-IDF算法的本体关联度算法[J].中国科技论文在线,2010,.

二级参考文献4

1John Howard,Michael Kazar,Sherri Menees,et al.Scale and performance in a distributed file system[J].ACM Transactions on Computer Systems,1988,6(1).
2Luiz A Barroso,Jeffrey Dean,Urs H¨olzle.Web search for a planet:the Google cluster architecture[J].IEEE Micro,2003,23(2).
3Jeffrey Dean,Sanjay Ghemawat.Map Reduce:simplified data processing on large cluster[C].OSDI,2004
4Sun Guangzhong,Fan Bin,Chen Guoliang,et al.Study on scheduling strategy for global computing application[C].PDCAT,2006:368-372

共引文献43

1曾理,王以群.Hadoop集群和单机数据处理的耗时对比实验[J].硅谷,2009,2(19):55-56. 被引量：9
2刘乃嘉,王茜,程志锐,居立.基于分布式文件系统的高校存储平台探索与实践[J].计算机科学,2012,39(S2):54-56.
3陈欢欢,刘宴兵.基于自适应调度的网格容错机制研究[J].微电子学与计算机,2010,27(2):145-148. 被引量：1
4多雪松,张晶,高强.基于Hadoop的海量数据管理系统[J].微计算机信息,2010,26(13):202-204. 被引量：27
5胡光民,周亮,柯立新.基于Hadoop的网络日志分析系统研究[J].电脑知识与技术,2010,6(8):6163-6164. 被引量：17
6许春玲,张广泉.基于主流云计算技术的集群三元空间提取方法[J].电信科学,2010,26(10):35-40.
7李成华,张新访,金海,向文.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33(3):129-135. 被引量：113
8包盛,段保通,邵锋军.三网融合下基于云计算的实时转码技术研究和应用[J].电信科学,2011,27(3):12-16. 被引量：9
9王宏宇.Hadoop平台在云计算中的应用[J].软件,2011,32(4):36-38. 被引量：42
10李远方,邓世昆,闻玉彪,韩月阳.Hadoop-MapReduce下的PageRank矩阵分块算法[J].计算机技术与发展,2011,21(8):6-9. 被引量：13

同被引文献10

1龚静,周经野.一种基于多重因子加权的文本特征项权值计算方法[J].计算技术与自动化,2007,26(1):81-83. 被引量：10
2张玉芳,陈小莉,熊忠阳.基于信息增益的特征词权重调整算法研究[J].计算机工程与应用,2007,43(35):159-161. 被引量：33
3张瑜,张德贤.一种改进的特征权重算法[J].计算机工程,2011,37(5):210-212. 被引量：20
4李彬.基于Hadoop框架的TF-IDF算法改进[J].微型机与应用,2012,31(7):14-16. 被引量：12
5李学明,李海瑞,薛亮,何光军.基于信息增益与信息熵的TFIDF算法[J].计算机工程,2012,38(8):37-40. 被引量：48
6张瑾.基于改进TF-IDF算法的情报关键词提取方法[J].情报杂志,2014,33(4):153-155. 被引量：67
7慕慧鸽,张军.国内情报学领域信息检索相关性研究进展分析[J].图书馆学研究,2016(6):10-14. 被引量：6
8姚卫国,张东波.基于Hadoop分布式平台的Web文本关键词提取方案[J].湘潭大学自然科学学报,2016,38(2):79-83. 被引量：5
9贺科达,朱铮涛,程昱.基于改进TF-IDF算法的文本分类方法研究[J].广东工业大学学报,2016,33(5):49-53. 被引量：25
10周源,刘怀兰,杜朋朋,廖岭.基于改进TF-IDF特征提取的文本分类模型研究[J].情报科学,2017,35(5):111-118. 被引量：56

引证文献1

1高军,黄献策.基于Hadoop平台的相关性权重算法设计与实现[J].计算机工程,2019,45(3):26-31. 被引量：8

二级引证文献8

1李文信,周晓波,徐仁海,齐恒,李克秋.一种近似最小有效瓶颈优先的Coflow调度机制[J].计算机工程,2019,45(10):19-25. 被引量：1
2杨莉,王敏,程宇.基于LDA和XGBoost模型的环境公共服务微博情感分析[J].南京邮电大学学报（社会科学版）,2019,21(6):23-39. 被引量：13
3李希敏.基于SQL数据库的多源空间数据差异性检测方法[J].信息技术,2020,44(8):98-102. 被引量：2
4杨洋.基于B/S技术的医院电子健康档案安全管理系统设计[J].信息技术,2020,44(8):121-125. 被引量：16
5巫冬.基于模拟攻击的Windows系统漏洞提权攻击检测方法[J].四川职业技术学院学报,2021,31(2):153-157. 被引量：4
6姚晓龙.基于大数据Hadoop的公安视频处理研究[J].信息与电脑,2021,33(18):191-194.
7陈星,刘静,狄雪平.基于支持向量机的医院动态财务信息预警优化[J].自动化技术与应用,2022,41(1):133-136. 被引量：4
8白雨珂,卢胜男.基于改进的TF-IDF标签权重算法的电商用户画像构建[J].信息技术与信息化,2024(8):48-51. 被引量：2

1杨泳.Dijkstra算法和Bellman-Ford算法生成印尼文本摘要的比较[J].科技广场,2015(7):16-20.
2杨国泰,陈启安.一种预测文本情感分类词语权值的算法[J].电脑知识与技术,2013,9(4X):2879-2881.
3李力沛,罗颖.基于修正TF-IDF的搜索引擎查询扩展模型[J].福建电脑,2012,28(10):3-5.
4付德宇,代成琴,仲玮.基于关键资源的网站自动分类系统[J].哈尔滨工业大学学报,2006,38(1):19-21. 被引量：1
5昝红英,许鸿飞,张坤丽,穗志方.网络用语词典的构建及问题分析[J].中文信息学报,2016,30(6):133-139. 被引量：7
6张华,叶娜,周俏丽,蔡东风.基于分类策略的术语识别系统融合[J].小型微型计算机系统,2015,36(2):385-390. 被引量：2
7杨雅娜,刘胜奇.基于TValue融合领域度的术语抽取法[J].情报工程,2015,1(5):25-31. 被引量：4
8罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：56
9王卫民,贺冬春,符建辉.基于种子扩充的专业术语识别方法研究[J].计算机应用研究,2012,29(11):4105-4107. 被引量：6
10王鑫,李璐.基于特征选择与谱聚类的视觉词典构建算法[J].计算机工程与应用,2014,50(7):133-138. 被引量：1

电信科学

2011年第11期

浏览历史

内容加载中请稍等...

基于MapReduce的术语权重计算方法研究被引量：1

参考文献7

二级参考文献4

共引文献43

同被引文献10

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的术语权重计算方法研究 被引量：1

参考文献7

二级参考文献4

共引文献43

同被引文献10

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的术语权重计算方法研究被引量：1