藏文网页抓取及编码统一转换的系统研究被引量：4

下载PDF

导出

摘要藏文文本资源的收集对藏语信息处理研究有着至关重要的作用.文章在分析国内外藏文网页主要编码方式的基础上,提出了藏文网页的编码识别、自动获取与过滤,文本编码统一转换的算法.系统主要包括网页编码识别网页、自动获取、文本过滤、编码转换等几个模块.在windows平台下对系统的测试结果良好,为藏语电子文本的收集和整理提供了方便、快捷的平台.

作者陈琪李永宏于洪志

机构地区西北民族大学中国民族信息技术研究院

出处《西北民族大学学报（自然科学版）》 2009年第2期22-26,共5页 Journal of Northwest Minzu University(Natural Science)

基金国家自然科学基金(60773052) 国家教育部基金项目(MZ115-78)

关键词藏文网页抓取编码识别编码转换

分类号 TP393.02 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1于洪志.计算机藏文编码概述[J].西北民族学院学报（自然科学版）,1999,20(3):15-19. 被引量：9
2国家技术监督局.信息技术·信息交换用藏文编码字符集(基本集)[M].北京:中国标准出版社,1998..
3中华人民共和国家标准GB16959-19971信息技术信息交换用藏文编码字符集基本集.
4Information technology - Tibetan coded character sets for information interchange.
5李永宏,何向真,艾金勇,于洪志.藏文编码方式及其相互转换[J].计算机应用,2009,29(7):2016-2018. 被引量：5
6刘汇丹,芮建武,吴健.中文信息处理前沿进展[C].中国中文信息学会二十五周年学术会议论文集,2006年.
7刘刚,于力超.搜索引擎中网络蜘蛛的设计与实现[J].电脑与信息技术,2007,15(4):36-39. 被引量：8

二级参考文献14

1于洪志.藏文编码字符集国家标准的讨论.国际第三届中文多文种信息处理学术交流会论文集[M].北京,1992,10..
2于洪志.藏文中字符集编码的可行性.第六届少数民族文字信息处理全国学术交流会论文集[M].南宁,1995,5..
3于洪志.藏文信息处理的问题与对策.中国中文信息学会汉字编码专业委员会第七届年会暨学术交流会论文集[M].,1996..
4国家技术监督局.信息技术:信息交换用藏文编码字符集[M].北京:中国标准出版社,1998.
5Heaton J.网络机器人Java编程指南[M].北京:电子工业出版社,2002.
6李晓明，闷宏飞，王继民．搜索引擎—原理、技术与系统[M]．北京：科学出版社，2004．
7Shaffer C．数据结构与算法分析(JAVA版)[M]．北京：电子工业出版社，2002．
8Osterloh H．TCP／IP Primer Plus[M]．北京：人民邮电出版社,2000．
9于洪志.计算机藏文编码性能指标分析[J].西北民族学院学报（自然科学版）,1997,18(2):15-20. 被引量：4
10于洪志.全藏文编码体系[J].西北民族大学学报（自然科学版）,1998,23(1):5-10. 被引量：4

共引文献20

1郑志材,张晶.基于JAVA的网络蜘蛛的设计与实现[J].硅谷,2009,2(14):46-47.
2柳婷.网络蜘蛛的简单设计与研究[J].大众商务,2010(16):189-189.
3才华.藏文组字部件的自动识别与字排序研究[J].西藏大学学报（社会科学版）,2014,29(5):81-86. 被引量：2
4黄鹤鸣,契嘎.德熙嘉措(赵晨星 ).藏文编码中UNICODE数据库的应用[J].青海师范大学学报（自然科学版）,2005,21(1):45-50. 被引量：2
5丁婕.管窥“网络蜘蛛”之网上爬行[J].技术与市场,2008,15(8):49-49. 被引量：1
6李永宏,何向真,艾金勇,于洪志.藏文编码方式及其相互转换[J].计算机应用,2009,29(7):2016-2018. 被引量：5
7艾金勇,于洪志,李永宏.藏文字形结构计量统计分析[J].计算机应用,2009,29(7):2029-2031. 被引量：6
8武光利,于洪志,柳春.藏文同元码与基本集相互转换的规则与实现[J].计算机工程与应用,2009,45(29):134-136. 被引量：1
9安见才让.多编码环境下藏字内码识别算法的研究[J].微处理机,2009,30(5):69-71. 被引量：2
10蒋明原,孔令德.基于Lucene的藏文信息采集及检索系统研究[J].电脑开发与应用,2011,24(2):34-37. 被引量：3

同被引文献29

1刘汇丹,芮建武,吴健.藏文网页的编码识别与转换[G]//中文信息处理前沿进展:中国中文信息学会二十五周年学术会议论文集.北京:中国中文信息学会,2006.
2孙媛,罗桑强巴,杨锐,等.藏语自动分词方案的设计[c]//第十二届中国少数民族语言文字信息处理学术研讨会论文集,2009.
3Huidan Liu, Minghua Nuo, Longlong Ma, et al. Ti- betan Word Segmentation as Syllable Tagging Using Conditional Random Fields [C]//Proceedings of the 25th Pacific Asia Conference on Language, Informa- tion and Computation. 2011:168-177.
4孙萌,才智杰,姜文斌,等.基于判别式分类和重排序技术的藏文分词[c]//第十三届中国少数民族语言文字信息处理学术研讨会论文集,2011.
5戴玉刚.藏文网页采集技术研究[c]//第十一届全国民族语言文字信息学术研讨会论文集.2007:527-535.
6刘汇丹,芮建武,吴健,等.藏文网页的编码识别与转换[c]//中文信息处理前沿进展--中国中文信息学会二十五周年学术会议,2006:573-580.
7黄昌宁,李涓子.语料库语言学[M].北京:商务印书馆.2002.
8曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：40
9珠杰,欧珠,格桑多吉.基于DOM修剪的藏文Web信息提取[J].计算机工程,2008,34(24):58-60. 被引量：7
10荣光,张化祥.一种Deep Web爬虫的设计与实现[J].计算机与现代化,2009(3):31-34. 被引量：5

引证文献4

1张云洋,刘芳.基于Unicode的藏文网页搜索探讨[J].科技情报开发与经济,2014,24(11):143-144. 被引量：3
2刘汇丹,诺明花,马龙龙,吴健,贺也平.Web藏文文本资源挖掘与利用研究[J].中文信息学报,2015,29(1):170-177. 被引量：6
3余长春,拥措.基于HTTP协议面向藏文文本的实时监测技术研究[J].网络空间安全,2016,7(9):45-48.
4扎西吉,才智杰.一种藏语语料网页数据的采集方法[J].通讯世界,2017,23(9):115-116. 被引量：1

二级引证文献9

1任恺.计算机辅助少数民族语言文字学习[J].文教资料,2015(31):9-10.
2才让叁智,赵栋材.基于DIV标签分段的藏文网页正文提取研究[J].西藏大学学报（社会科学版）,2016,31(2):70-77. 被引量：4
3马宁,万福成.藏文客户关系管理系统的设计与实现[J].西北民族大学学报（自然科学版）,2016,37(3):20-23.
4扎西吉,才智杰.一种藏语语料网页数据的采集方法[J].通讯世界,2017,23(9):115-116. 被引量：1
5洛松求培,安见才让.基于文本密度的藏文网页正文提取方法[J].计算机时代,2017(8):46-47. 被引量：3
6邓有林.大型Web网络数据中心资源高效挖掘技术研究[J].现代电子技术,2018,41(3):120-123. 被引量：5
7凌霞.存储高可用性的技术标准与实现方法[J].电子技术与软件工程,2018(10):163-165.
8张晓.一种网络多模态语料库构建方法[J].软件导刊,2018,17(11):49-51.
9韦向峰,袁毅,张全,池哲洁.2015年中国少数民族地区蒙藏维言语录音数据集[J].中国科学数据（中英文网络版）,2016,1(2):62-68. 被引量：2

1高健.无线电台数传接口转换器的设计与应用[J].电脑与电信,2008(2):25-26.
2艾金勇.融合语义知识的藏文网页关键词提取方法研究[J].图书馆学研究,2017(3):59-64. 被引量：4
3木林森.在IE浏览器中实现文本文件的加密[J].网友世界,2004(9):36-36.
4高红梅,仁青诺布,普次仁.领域本体的藏文主题爬虫搜索策略研究[J].计算机应用与软件,2015,32(9):68-71. 被引量：1
5王金庭,杨敏.智能化监控系统信息处理研究[J].福建电脑,2008,24(7):78-79.
6罗敏.粒计算及其研究现状[J].计算机与现代化,2007(1):1-5. 被引量：1
7丁翠.无线传感器网络智能信息处理研究[J].数字技术与应用,2016,34(11):108-108. 被引量：1
8才让叁智,赵栋材.基于DIV标签分段的藏文网页正文提取研究[J].西藏大学学报（社会科学版）,2016,31(2):70-77. 被引量：4
9高红梅,陈金悬,潘佳平.藏文网页爬虫设计与实现[J].信息与电脑（理论版）,2012(9):36-37. 被引量：5
10高红梅,魏西峰,王崧华,扎西.语义词库关联的藏文Web语义检索系统研究与实现[J].西藏大学学报（社会科学版）,2015,30(5):90-95. 被引量：3

西北民族大学学报（自然科学版）

2009年第2期

浏览历史

内容加载中请稍等...

藏文网页抓取及编码统一转换的系统研究被引量：4

参考文献7

二级参考文献14

共引文献20

同被引文献29

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

藏文网页抓取及编码统一转换的系统研究 被引量：4

参考文献7

二级参考文献14

共引文献20

同被引文献29

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

藏文网页抓取及编码统一转换的系统研究被引量：4