-
题名一种支持ANSI编码的中文文本压缩算法
被引量:5
- 1
-
-
作者
常为领
方滨兴
云晓春
王树鹏
余翔湛
-
机构
哈尔滨工业大学计算机网络与信息安全技术研究中心
中国科学院计算技术研究所
-
出处
《中文信息学报》
CSCD
北大核心
2010年第5期96-105,共10页
-
基金
国家重点基础研究发展计划"973"基金资助项目(2007CB311101)
国家863高技术研究发展计划基金资助项目(2009AA01A403
+2 种基金
2007AA01Z406
2007AA010501
2009AA01Z437)
-
文摘
该文提出了一种高效的中文文本压缩算法CRecode,算法根据中文文本中字词的概率分布特点,对中文字词根据其使用频率,采用8bit、16bit和24bit三种长度的编码重新编码,克服了Huffman编码在压缩中文数据时打乱数据中蕴含的语义信息,致使其压缩数据再压缩性差的缺点。测试中,CRecode在与现有主流压缩软件联合使用时,可提高压缩率4%到30%,最大平均压缩比可达2.86。CRecode作为独立压缩算法,压缩中文文本时可获得优于Huffman编码、接近于LZ系列算法的性能。
-
关键词
crecode
数据压缩
HUFFMAN
压缩算法
-
Keywords
crecode
data compression
Huffman
compression algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-