Zipf定律与汉字字频分布被引量：20

Zipf's Law and the Distribution of Chinese Character Frequency

下载PDF

导出

摘要本文证明了在以Zipf定律描述整个汉字字频分布时 ,不管如何精心挑选参数a和c,一些累计拟合频率都有明显的误差。针对这一现象 ,本文提出了一个解决办法 ,那就是以Zipf定律仅描述汉字字频分布的尾部的方法。 This paper first proves that when the Zipf's law is used to describe the total distribution of Chinese Character frequency,some fitting frequence accumulations take obvious errors no matter how elaborately the parameters a and care selected,and then presents a method to overcome the shortcoming by using the Zipf's law to describe only the tail of the distribution.

作者游荣彦

机构地区华南师范大学计算机科学系

出处《中文信息学报》 CSCD 北大核心 2000年第3期60-65,共6页 Journal of Chinese Information Processing

关键词计量语言模型汉字字频分布 Zipf定律拟合频率 Computationl language model Distribution of Chinese character frequency Zipf's law Fitting frequency

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1王绪龙，汉字信息处理，1990年，24页
2《语言和计算机》编写组，语言和计算机.3，1986年，132页
3关毅,王晓龙,张凯.现代汉语计算语言模型中语言单位的频度—频级关系[J].中文信息学报,1999,13(2):8-15. 被引量：15

二级参考文献1

1Li W，IEEE Trans Information Theory，1992年，38卷，6期，1842页

共引文献14

1彭波,李晓明.搜索引擎倒排文件的一种分块组织技术[J].电子学报,2005,33(2):358-362. 被引量：9
2李玉鑑,肖创柏.蛋白质序列中可能存在的Zipf定律[J].北京工业大学学报,2005,31(4):366-368. 被引量：1
3韦向峰,张全,熊亮.一种基于语义分析的汉语语音识别纠错方法[J].计算机科学,2006,33(10):152-155. 被引量：2
4赵亮.基于复合结构的高效索引在线更新策略[J].计算机工程,2008,34(2):75-77. 被引量：1
5王洋,刘宇凡,陈清华.汉语言文学作品中词频的Zipf分布[J].北京师范大学学报（自然科学版）,2009,45(4):424-427. 被引量：15
6刘宇凡,郭金忠,陈清华.唐代以来汉语文学作品中的字频演变[J].中文信息学报,2011,25(3):93-97. 被引量：4
7方应谦,王鲁.汉字识别中以词为分类单位的分类器研究[J].中文信息学报,2000,14(2):26-30. 被引量：2
8郑晨,胡满峰.莫言作品中字频、词频的Zipf分布[J].江南大学学报（自然科学版）,2013,12(3):347-350. 被引量：2
9谢思炜.汉语诗歌词语管窥——以《唐诗三百首》为样本[J].清华大学学报（哲学社会科学版）,2015,30(3):76-84. 被引量：1
10刘胜久,李天瑞,珠杰.Zipf定律与网络信息计量学[J].中文信息学报,2015,29(4):89-94. 被引量：5

同被引文献240

1赵卫娟,关虎,黄樱,张树武.文本水印技术研究综述[J].中国传媒大学学报（自然科学版）,2020(6):55-62. 被引量：7
2陈彦光,刘继生.城市规模分布的分形和分维[J].人文地理,1999,14(2):48-53. 被引量：103
3陈涛,刘继生.城市体系分形特征的初步研究[J].人文地理,1994,9(1):25-30. 被引量：81
4沈关龙.齐普夫定律与专题文献标题词频的研究及应用[J].情报理论与实践,1988,11(2):58-64. 被引量：8
5张仲梁.齐普夫定律的一个证明[J].科学学研究,1987,5(4):44-46. 被引量：2
6冯志伟.齐普夫定律的来龙去脉[J].情报科学,1983,4(2):37-42. 被引量：22
7马费城.布拉德福特—齐普夫分布系的概率模型[J].情报科学,1982,3(2):22-33. 被引量：11
8刘胜久,李天瑞,贾真,尹红风.元搜索引擎排序方法建模与算法研究[J].计算机科学,2012,39(S3):197-199. 被引量：4
9郦金花.应用数据对齐夫定律的分形特征的探讨[J].江苏师范大学学报（自然科学版）,1997,27(4):69-72. 被引量：3
10朱农,曾昭俊.中国城市人口增长的决定因素分析[J].中国人口科学,2004(5):9-18. 被引量：31

引证文献20

1李玉鑑,肖创柏.蛋白质序列中可能存在的Zipf定律[J].北京工业大学学报,2005,31(4):366-368. 被引量：1
2陈刚,卢炎生.BBS搜索引擎设计与实现[J].微计算机信息,2006,22(06X):34-36. 被引量：4
3吴晓刚,唐屹.基于变异特征的文本信息检测算法[J].计算机安全,2006(11):18-19.
4杨国良,张捷,艾南山,刘波.旅游流齐夫结构及空间差异化特征——以四川省为例[J].地理学报,2006,61(12):1281-1289. 被引量：125
5杨国良,张捷,刘波,任宣羽,王瑞霞.旅游景区分布约束下的四川旅游流齐夫(Zipf)结构发育特征[J].旅游学刊,2007,22(8):17-23. 被引量：21
6杨国良,张捷,刘波.旅游流规模结构的Zipf特征与差异度对比研究——以四川省为例[J].南京大学学报（自然科学版）,2007,43(3):318-328. 被引量：13
7王海鸿,安乐.中国入境旅游的齐夫准则研究[J].经济问题探索,2009(12):105-110. 被引量：2
8赵媛,牛海玲,杨足膺.我国石油资源流流量位序-规模分布特征变化[J].地理研究,2010,29(12):2121-2131. 被引量：27
9汪英姿,徐飞.文献资源主题向量表征方法分析及改进研究[J].情报杂志,2012,31(11):141-144. 被引量：1
10路高飞,韩普,沈思.两种Zipf定律拟合方法的对比实证研究[J].图书情报工作,2012,56(24):71-76.

二级引证文献246

1贺晓慧,白凯,卫海燕,路春燕.西安特殊时段旅游流规模分形结构特征研究——以“十一”黄金周为例[J].干旱区地理,2011,34(5):858-865. 被引量：27
2杨国良,张捷,刘波,李敏,万全友.旅游流流量位序—规模分布变化及其机理——以四川省为例[J].地理研究,2007,26(4):662-672. 被引量：81
3杨国良,张捷,刘波,任宣羽,王瑞霞.旅游景区分布约束下的四川旅游流齐夫(Zipf)结构发育特征[J].旅游学刊,2007,22(8):17-23. 被引量：21
4徐远超,刘江华,刘丽珍,关永.基于Web的网络爬虫的设计与实现[J].微计算机信息,2007,23(21):119-121. 被引量：36
5杨国良,张捷,艾南山,刘波,王瑞霞.旅游系统空间结构及旅游经济联系——以四川省为例[J].兰州大学学报（自然科学版）,2007,43(4):24-30. 被引量：42
6李大学,唐欢亮.基于搜索引擎的网络广告监测系统[J].微计算机信息,2007,23(27):171-172. 被引量：4
7杨国良,游勇,李海燕.旅游景区(点)系统空间分布的分形发育及演化特征——以四川省为例[J].自然资源学报,2007,22(6):963-973. 被引量：29
8黄震方,袁林旺,俞肇元,吴江,周年兴.生态旅游区旅游流的时空演变与特征——以盐城麋鹿生态旅游区为例[J].地理研究,2008,27(1):55-64. 被引量：23
9杨国良,钟亚秋,王李清潆,刘昕.四川省旅游流空间扩散方向及路径[J].地理科学进展,2008,27(1):56-63. 被引量：32
10郭晓东,肖星,房亮.新休假制度对国内旅游流时空结构及旅游开发的影响分析[J].旅游学刊,2008,23(5):38-41. 被引量：59

1张宁,饶婕,张书卿,陈虹,罗杨.新浪微博转发数的幂律分布现象[J].计算机时代,2015(3):33-35. 被引量：2
2刘胜久,李天瑞,珠杰.Zipf定律与网络信息计量学[J].中文信息学报,2015,29(4):89-94. 被引量：5
3路高飞,韩普,沈思.两种Zipf定律拟合方法的对比实证研究[J].图书情报工作,2012,56(24):71-76.
4王峰,王恩海,钱华林.DNS与关键词服务请求分布研究[J].计算机工程,2006,32(5):15-17. 被引量：5
5张艳,石磊,卫琳.Web缓存优化模型研究[J].计算机工程,2009,35(8):85-87. 被引量：10
6雷燕,丰雁.分布式系统失效检测器模型的研究[J].河南科学,2011,29(5):586-590. 被引量：1
7李功丽,赵晓焱,刘慧.一种云计算数据副本动态管理策略[J].河南师范大学学报（自然科学版）,2015,43(4):138-143. 被引量：6
8王荣,孙爱民,吴坤芳.基于Zipf定律的二值化Web聚类算法研究[J].河南科学,2012,30(3):345-347.
9侯自强.互联网视频技术进展[J].中兴通讯技术,2008,14(5):22-26. 被引量：2
10那日松,揭春雨,冯志伟.香港“双语法例资料系统”法律术语的统计分析[J].术语标准化与信息技术,2008(2):32-35. 被引量：2

中文信息学报

2000年第3期

浏览历史

内容加载中请稍等...

Zipf定律与汉字字频分布被引量：20

参考文献3

二级参考文献1

共引文献14

同被引文献240

引证文献20

二级引证文献246

相关作者

相关机构

相关主题

浏览历史

Zipf定律与汉字字频分布 被引量：20

参考文献3

二级参考文献1

共引文献14

同被引文献240

引证文献20

二级引证文献246

相关作者

相关机构

相关主题

浏览历史

Zipf定律与汉字字频分布被引量：20