摘要
藏文文本资源的收集对藏语信息处理研究有着至关重要的作用.文章在分析国内外藏文网页主要编码方式的基础上,提出了藏文网页的编码识别、自动获取与过滤,文本编码统一转换的算法.系统主要包括网页编码识别网页、自动获取、文本过滤、编码转换等几个模块.在windows平台下对系统的测试结果良好,为藏语电子文本的收集和整理提供了方便、快捷的平台.
出处
《西北民族大学学报(自然科学版)》
2009年第2期22-26,共5页
Journal of Northwest Minzu University(Natural Science)
基金
国家自然科学基金(60773052)
国家教育部基金项目(MZ115-78)