期刊文献+

基于词典的中文分词算法研究 被引量:22

Research on Chinese Word Segmentation Algorithm Based on the Dictionary
在线阅读 下载PDF
导出
摘要 中文分词是计算机自动处理文本的基础。通过比较常用的机械分词算法的优缺点,提出了分层逐字二分算法,综合了TRIE树和逐字二分分词的特点,以求通过较小的开销来实现较快的匹配速度。实验结果表明,该算法在综合性能上有显著提高。 Chinese word segmentation is the base for Chinese information processing. By comparison commonly the advantages and disadvantages of the machinery word segmentation algorithm, then a lied verbatim binary algorithm has been presented, which integrated TRIE trees and verbatim binary search's characteristics, try to take the smaller overhead to achieve faster match speed. The results show that the algorithm in the comprehensive performance has made significant increase.
出处 《计算机与数字工程》 2009年第3期68-71,87,共5页 Computer & Digital Engineering
关键词 中文分词 计算机应用 中文信息处理 Chinese word segmentation, computer application, Chinese information processing
  • 相关文献

参考文献5

二级参考文献28

  • 1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量:45
  • 2文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量:20
  • 3文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量:20
  • 4《中图法》编委会.中国分类主题词表[M].北京:华艺出版社,1994..
  • 5马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..
  • 6Choi A, Cheng C H, Ko Y L. Word extraction from Chinese documents by occurrence counts [ A].1988 International Conference on Computer Processing of Chinese and Oriental Languages, Toronto,Canada: 488 - 491.
  • 7Fan C K, Tsai W H. Automatic word identification in Chinese sentences by the relaxation technique[J]. Computer Processing of Chinese and Oriental Languages, 1988, 4(1):33-56.
  • 8Ji He,Ah-Hwee Tan,Chew-Lim Tan.A comparative Study on Chinese Text Categorization Methods[C].In:PRICAI 2000 Workshop on Text and Web Mining, Melbourne, 2000-08 : 24--25.
  • 9Ronen Feldman et al.Text Mining via Information Extraction[J].Principles of Data Mining and Knowledge Discover, 1999 : 165-174.
  • 10梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.

共引文献154

同被引文献163

引证文献22

二级引证文献120

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部