基于语言知识的手写汉语文本自动识别初探被引量：4

AUTOMATIC RECOGNITION OF HANDWRITTEN CHINESE TEXT BASED ON LINGUISTIC KNOWLEDGE

下载PDF

导出

摘要文中首先从信息开销的角度分析了识别一个汉字所需要的信息量．研究表明，单字识别算法是一种等概模型，需要的信息最多．因此，可把汉字文本当作Ｍａｒｋｏｖ模型来处理，当前汉字的发生仅依赖于前ｍ个汉字．根据对文本的统计，得到许多语言统计信息，在此基础上，设计了利用语言知识基于句子的文本自动识别方法．识别时当前待识字的匹配仅在前一个字的后邻接字集里进行；当一个句子识别完后，对其进行语言知识处理后再输出结果．因而识别速度和识别率比单字识别方法都有明显提高． It is first analyzed how much information is used when recognizing a Chinese character. It is indicated that the single character recognition algorithm is an equal probability model and needs the most information. So the Chinese text is regarded as a Markov model, which means that the character is determined by the last m characters. On the basis of the statistics of the text, a lot of Chinese linguistic knowledge is obtained. An automatic recognition is designed, in which the character is matched in the next neighboring character set of the last character. After recognized, the sentence is treated as the linguistic knowledge before it is output. So the recognition speed and recognition rate are higher than that of the single character recognition algorithm.

作者杨经方应谦

机构地区郑州电子技术学院一系

出处《计算机研究与发展》 EI CSCD 北大核心 1998年第7期668-672,共5页 Journal of Computer Research and Development

关键词语言知识汉语文本汉字识别汉字信息处理 linguistic knowledge, Chinese text, Chinese character recognition, Markov model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1姜珊，第六届全国汉字识别学术会议论文集，1996年，44页
2罗振声，第六届全国汉字识别学术会议论文集，1996年，187页
3韩布新，中文信息学报，1993年，7卷，4期，61页
4张彩录，第四届全国汉字识别学术会议论文集，1992年，7页
5张忻中，第四届全国汉字识别学术会议论文集，1992年，15页
6吴佑寿，汉字识别.原理、方法与实现，1992年
7刘迎建，中文信息学报，1989年，2卷，4期，1页

同被引文献23

1张青,尹俊勋.小波变换在手写体汉字识别中的应用[J].电路与系统学报,1996,1(3):63-67. 被引量：8
2路浩如,杨源远.手写体汉字识别问题综论[J].计算机应用与软件,1994,11(2):1-8. 被引量：5
3[3]张忻中.汉字识别技术.北京:清华大学出版社,1992,129－132
4马少平,夏莹,朱小燕.基于模糊方向线素特征的手写体汉字识别[J].清华大学学报（自然科学版）,1997,37(3):42-45. 被引量：37
5张炘中.汉字识别技术[M].北京：清华大学出版社,1992..
6刘迎建戴如为.联机手写汉字识别的理论与实践[J].中文信息学报,1989,2(4):1-13.
7李国华等．基于词间字二元语法模型的汉字识别后处理方法[A]．第六届全国汉字识别学术会议论文集[C]，1996，181～186．
8杜林等．基于统计模型的汉字识别后处理[A]．第六届全国汉字识别学术会议论文集[c]，1996，175～180．
9姜珊．从单识别走向集群识别—手写汉字识别策略探讨[A]．第六届全国汉字识别学术会议论文集[C]，1996．44～48．
10张彩录，郭玉兰等．汉字识别的双信源模型[A]．第四届全国汉字识别学术会议论文集[C]．1992，7—12．

引证文献4

1方应谦,王鲁.汉字识别中以词为分类单位的分类器研究[J].中文信息学报,2000,14(2):26-30. 被引量：2
2张德喜.手写体汉字机器识别技术的现状分析[J].许昌师专学报,1999,18(3):91-95. 被引量：1
3方应谦,曹守建,牛光.利用语言知识的汉字识别分类策略[J].信息工程大学学报,2000,1(4):115-117.
4张卫,王昊,陈玥彤,范涛,邓三鸿.融合迁移学习与文本增强的中文成语隐喻知识识别与关联研究[J].数据分析与知识发现,2022,6(2):167-183. 被引量：7

二级引证文献10

1王建平,潘乐,王金玲.基于反馈的手写体汉字识别系统[J].合肥工业大学学报（自然科学版）,2008,31(7):1020-1025. 被引量：1
2陶斌.基于上下文的手写体汉字识别改进技术[J].福建电脑,2016,32(7):89-90.
3陶斌.手写体汉字识别中词库组织与匹配算法的设计[J].福建电脑,2016,32(8):130-131.
4刘兴丽,范俊杰,马海群.面向小样本命名实体识别的数据增强算法改进策略研究[J].数据分析与知识发现,2022,6(10):128-141. 被引量：7
5蒋彦廷.依据《中国图书馆分类法》的英文图书分类探索[J].北京大学学报（自然科学版）,2023,59(1):11-20. 被引量：2
6赵一鸣,潘沛,毛进.基于任务知识融合与文本数据增强的医学信息查询意图强度识别研究[J].数据分析与知识发现,2023,7(2):38-47. 被引量：13
7陆靓倩,王中卿,周国栋.结合多种语言学特征的中文隐式情感分类[J].计算机科学,2023,50(12):255-261. 被引量：5
8冯冉,陈丹蕾,化柏林.文本数据的增强方法研究综述[J].数据分析与知识发现,2025,9(5):19-32. 被引量：2
9韩坤,刘忠轶,潘宏鹏,张宁.基于多尺度特征提取与大语言模型增强的中文反讽识别[J].情报杂志,2025,44(9):104-111.
10张卫,王东波,刘浏.基于大语言模型的成语隐喻式构词方法及其应用:知识重组、回溯与发现[J].情报学报,2025,44(9):1083-1098.

1杨峰,张德跃.一种使用双簇首的分簇路由协议的研究[J].山东师范大学学报（自然科学版）,2007,22(3):27-29. 被引量：1
2张德跃,杨峰,展中华,杨子峰.传感器网络的一种能量感知分簇路由算法[J].计算机技术与发展,2007,17(11):67-69. 被引量：3
3丁有和,孙健.VC++控件的汉字及颜色的编程控制[J].计算机应用,1999,19(2):52-54. 被引量：1
4张炘中,阎昌德,刘秀英,王玉.印刷体汉字文本的微型计算机自动识别[J].中国科学（A辑）,1990,21(1):97-104. 被引量：4
5任清珍,黄天戍.用Turbo C实现应用系统软件中的汉字文本编辑器[J].计算机应用研究,1992,9(5):7-9.
6孙巨.Windows 3.x下西文绘图软件的汉字处理[J].计算机应用研究,1998,15(1):69-71.
7林仲明.在CorelDraw中使用汉字文本[J].微电脑世界,1997(7):93-93.
8李杰.如何统计汉字文本的字数[J].电脑,1994(9):37-37.
9刘丽娟,王旭.基于时间偏差补偿的传感器网络时间同步方法[J].光谱实验室,2011,28(1):41-46. 被引量：2
10张新,常义林,沈中,刘福杰,崔灿.分层多管理者网络故障监控策略[J].西安电子科技大学学报,2005,32(6):873-876. 被引量：7

计算机研究与发展

1998年第7期

浏览历史

内容加载中请稍等...

基于语言知识的手写汉语文本自动识别初探被引量：4

参考文献7

同被引文献23

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于语言知识的手写汉语文本自动识别初探 被引量：4

参考文献7

同被引文献23

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于语言知识的手写汉语文本自动识别初探被引量：4