期刊文献+

藏文网页抓取及编码统一转换的系统研究 被引量:4

在线阅读 下载PDF
导出
摘要 藏文文本资源的收集对藏语信息处理研究有着至关重要的作用.文章在分析国内外藏文网页主要编码方式的基础上,提出了藏文网页的编码识别、自动获取与过滤,文本编码统一转换的算法.系统主要包括网页编码识别网页、自动获取、文本过滤、编码转换等几个模块.在windows平台下对系统的测试结果良好,为藏语电子文本的收集和整理提供了方便、快捷的平台.
出处 《西北民族大学学报(自然科学版)》 2009年第2期22-26,共5页 Journal of Northwest Minzu University(Natural Science)
基金 国家自然科学基金(60773052) 国家教育部基金项目(MZ115-78)
  • 相关文献

参考文献7

  • 1于洪志.计算机藏文编码概述[J].西北民族学院学报(自然科学版),1999,20(3):15-19. 被引量:9
  • 2国家技术监督局.信息技术·信息交换用藏文编码字符集(基本集)[M].北京:中国标准出版社,1998..
  • 3中华人民共和国家标准GB16959-19971信息技术信息交换用藏文编码字符集基本集.
  • 4Information technology - Tibetan coded character sets for information interchange.
  • 5李永宏,何向真,艾金勇,于洪志.藏文编码方式及其相互转换[J].计算机应用,2009,29(7):2016-2018. 被引量:5
  • 6刘汇丹,芮建武,吴健.中文信息处理前沿进展[C].中国中文信息学会二十五周年学术会议论文集,2006年.
  • 7刘刚,于力超.搜索引擎中网络蜘蛛的设计与实现[J].电脑与信息技术,2007,15(4):36-39. 被引量:8

二级参考文献14

  • 1于洪志.藏文编码字符集国家标准的讨论.国际第三届中文多文种信息处理学术交流会论文集[M].北京,1992,10..
  • 2于洪志.藏文中字符集编码的可行性.第六届少数民族文字信息处理全国学术交流会论文集[M].南宁,1995,5..
  • 3于洪志.藏文信息处理的问题与对策.中国中文信息学会汉字编码专业委员会第七届年会暨学术交流会论文集[M].,1996..
  • 4国家技术监督局.信息技术:信息交换用藏文编码字符集[M].北京:中国标准出版社,1998.
  • 5Heaton J.网络机器人Java编程指南[M].北京:电子工业出版社,2002.
  • 6李晓明,闷宏飞,王继民.搜索引擎—原理、技术与系统[M].北京:科学出版社,2004.
  • 7Shaffer C.数据结构与算法分析(JAVA版)[M].北京:电子工业出版社,2002.
  • 8Osterloh H.TCP/IP Primer Plus[M].北京:人民邮电出版社,2000.
  • 9于洪志.计算机藏文编码性能指标分析[J].西北民族学院学报(自然科学版),1997,18(2):15-20. 被引量:4
  • 10于洪志.全藏文编码体系[J].西北民族大学学报(自然科学版),1998,23(1):5-10. 被引量:4

共引文献20

同被引文献29

  • 1刘汇丹,芮建武,吴健.藏文网页的编码识别与转换[G]//中文信息处理前沿进展:中国中文信息学会二十五周年学术会议论文集.北京:中国中文信息学会,2006.
  • 2孙媛,罗桑强巴,杨锐,等.藏语自动分词方案的设计[c]//第十二届中国少数民族语言文字信息处理学术研讨会论文集,2009.
  • 3Huidan Liu, Minghua Nuo, Longlong Ma, et al. Ti- betan Word Segmentation as Syllable Tagging Using Conditional Random Fields [C]//Proceedings of the 25th Pacific Asia Conference on Language, Informa- tion and Computation. 2011:168-177.
  • 4孙萌,才智杰,姜文斌,等.基于判别式分类和重排序技术的藏文分词[c]//第十三届中国少数民族语言文字信息处理学术研讨会论文集,2011.
  • 5戴玉刚.藏文网页采集技术研究[c]//第十一届全国民族语言文字信息学术研讨会论文集.2007:527-535.
  • 6刘汇丹,芮建武,吴健,等.藏文网页的编码识别与转换[c]//中文信息处理前沿进展--中国中文信息学会二十五周年学术会议,2006:573-580.
  • 7黄昌宁,李涓子.语料库语言学[M].北京:商务印书馆.2002.
  • 8曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量:40
  • 9珠杰,欧珠,格桑多吉.基于DOM修剪的藏文Web信息提取[J].计算机工程,2008,34(24):58-60. 被引量:7
  • 10荣光,张化祥.一种Deep Web爬虫的设计与实现[J].计算机与现代化,2009(3):31-34. 被引量:5

引证文献4

二级引证文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部