基于深度学习的《辞海》分词方法被引量：3

A Method of Word Segmentation for Cihai Based on Deep Learning

下载PDF

导出

摘要《辞海》是中国文化重要资产之一,具有重大研究价值.分词是数字《辞海》的研究基础,而《辞海》内容比较复杂,具有古文类型广和知识领域广等特点,给分词任务带来一定挑战.针对《辞海》内容的特点,提出基于深度学习的分词方法,首先对《辞海》内容进行预处理,去除包括文言文、诗、歌等古文内容;其次,选择《新华字典》,并利用CBOW模型训练字向量;最后,选择BI-LSTM-CRF模型执行《辞海》分词任务.实验结果显示,提出的分词方法,准确率、召回率和F1值到分别达到94.18%、94.09%和94.13%,具有较好的分词表现. Cihai is one of the important assets of Chinese culture and has great research value.Word segmentation is the research foundation of the digital Cihai.The content of Cihai,which has the characteristics of types of ancient texts and kinds of knowledge fields and so on,is rela⁃tively complex and brings certain challenges to the task of word segmentation.According to the characteristics of the content of Cihai,puts forward a method of word segmentation based on deep learning.Firstly,the content of Cihai is preprocessed to remove the content of classi⁃cal Chinese,poetry,song and so on.Secondly,CBOW model is chosen to train Xinhua Dictionary to generate character vector.Finally,BI-LSTM-CRF model is selected to carry out the word segmentation task of Cihai.The experimental results show that the proposed segmen⁃tation method has better performance,and accuracy,recall and F1 reach 94.18%,94.09%and 94.13%respectively.

作者陈美李顿伟高洪美吴小丽 CHEN Mei;LI Dun-wei;GAO Hong-mei;WU Xiao-li(Shanghai Development Center of Computer Software Technology,Shanghai 201112)

机构地区上海计算机软件技术开发中心

出处《现代计算机》 2020年第16期60-64,82,共6页 Modern Computer

基金上海市科技人才计划项目(No.18PJ1431600)。

关键词辞海分词深度学习 BI-LSTM-CRF Cihai Word Segmentation Deep Learning BI-LSTM-CRF

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP391.1 [自动化与计算机技术—计算机应用技术] H13 [语言文字—汉语]

引文网络
相关文献

参考文献6

1张洪刚,李焕.基于双向长短时记忆模型的中文分词方法[J].华南理工大学学报（自然科学版）,2017,45(3):61-67. 被引量：12
2杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：506
3蒋卫丽,陈振华,邵党国,马磊,相艳,郑娜,余正涛.基于领域词典的动态规划分词算法[J].南京理工大学学报,2019,43(1):63-71. 被引量：16
4冯俐.中文分词技术综述[J].现代计算机,2018,24(23):17-20. 被引量：11
5金宸,李维华,姬晨,金绪泽,郭延哺.基于双向LSTM神经网络模型的中文分词[J].中文信息学报,2018,32(2):29-37. 被引量：40
6张敏.《辞海》的创新之路[J].出版与印刷,2019(1):49-53. 被引量：4

二级参考文献32

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：200
2崔尚森,冯博琴.最长前缀匹配查找的索引分离trie树结构及其算法[J].计算机工程与应用,2005,41(20):131-134. 被引量：5
3曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：49
4俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：167
5李荣,郑家恒.一种改进Viterbi算法的应用研究[J].计算机工程与设计,2007,28(3):530-531. 被引量：7
6黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：251
7赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
8张赢,万仲保.对专业搜索引擎中未登录词的识别研究[J].计算机技术与发展,2009,19(5):134-136. 被引量：2
9罗彦彦,黄德根.基于CRFs边缘概率的中文分词[J].中文信息学报,2009,23(5):3-8. 被引量：19
10李月伦,常宝宝.基于最大间隔马尔可夫网模型的汉语分词方法[J].中文信息学报,2010,24(1):8-14. 被引量：8

共引文献583

1吴煌,杨智成,李梦华.基于长短期记忆神经网络的矿井涌水量预测[J].中国水运（下半月）,2023,23(3):25-27. 被引量：4
2姚晨明,姚磊.基于智能感知与数据决策的疏浚与通航预警系统研发[J].中国水运（下半月）,2022,22(9):35-36. 被引量：1
3孙铭,魏守科,王莹洁,赵金东,袁梅雪.基于小波分解的LSTM水质预测模型[J].计算机系统应用,2020,29(12):55-63. 被引量：13
4唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：53
5许昱旻,郭春.基于移动平均和神经网络的公路隧道运营通风折减率修正研究[J].现代隧道技术,2022,59(S01):121-127. 被引量：5
6秦帅波.中医知识智能诊断系统的研究[J].计算机产品与流通,2020,9(1):142-142.
7程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：27
8董建宁,张淇钧,陈衡,冯福媛,潘佩媛,徐钢,王修彦,刘彤.基于GRU门控循环单元的火电AGC数据建模及应用[J].洁净煤技术,2024,30(S01):406-413. 被引量：1
9柴晋,乔加飞,孙灏,梁占伟,张千.神经网络算法在脱硫系统优化中的应用进展[J].洁净煤技术,2021,27(S02):27-32. 被引量：4
10李治甫,康帅,尹俊红,王楷诚.基于深度学习的框架结构损伤识别研究[J].河南大学学报（自然科学版）,2024,54(1):100-109. 被引量：3

同被引文献31

1俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：22
2马杰,付海波,刘菲.论《左传》的语言特色[J].辽宁工程技术大学学报（社会科学版）,2004,6(4):412-413. 被引量：2
3蔡灿民,吴晟,霍雪娜,赵莉楠.自动分词中智能词典的研究[J].科技广场,2007(3):34-36. 被引量：1
4黄建年,侯汉清.农业古籍断句标点模式研究[J].中文信息学报,2008,22(4):31-38. 被引量：31
5周程远,朱敏,杨云.基于词典的中文分词算法研究[J].计算机与数字工程,2009,37(3):68-71. 被引量：22
6石民,李斌,陈小荷.基于CRF的先秦汉语分词标注一体化研究[J].中文信息学报,2010,24(2):39-45. 被引量：76
7张颖杰,李斌,陈家骏,陈小荷.基于词典信息的先秦汉语全文词义标注方法研究[J].中文信息学报,2012,26(3):65-71. 被引量：5
8莫建文,郑阳,首照宇,张顺岚.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802-1807. 被引量：40
9钱智勇,周建忠,童国平,苏新宁.基于HMM的楚辞自动分词标注研究[J].图书情报工作,2014,58(4):105-110. 被引量：34
10陈之彦,李晓杰,朱淑华,付丹龙,邢诒海.基于Hash结构词典的双向最大匹配分词法[J].计算机科学,2015,42(B11):49-54. 被引量：18

引证文献3

1刘畅,王东波,胡昊天,张逸勤,李斌.面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(6):44-54. 被引量：31
2石玉敬,刘伟,葛晓舒,胡为,刘弋莲,易洋.《黄帝内经》文本语料库的构建与应用研究[J].计算机时代,2022(12):1-3. 被引量：4
3王来兵.基于上下文拓扑网络和文本属性网络的复合网络构建[J].佳木斯大学学报(自然科学版),2025,43(4):48-52.

二级引证文献35

1黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：11
2李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：7
3刘欢,刘浏,王东波.数字人文视角下的领域知识图谱自动问答研究[J].科技情报研究,2022,4(1):46-59. 被引量：8
4耿云冬,张逸勤,刘欢,王东波.面向数字人文的中国古代典籍词性自动标注研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(6):55-63. 被引量：16
5孙文龙,张逸勤,王凡铭,鱼汇沐,刘江峰,王东波.面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):31-41. 被引量：7
6徐润华,王东波,刘欢,梁媛,陈康.面向古籍数字人文的《资治通鉴》自动摘要研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(12):129-137. 被引量：13
7林立涛,王东波.古籍文本挖掘技术综述[J].科技情报研究,2023,5(1):78-91. 被引量：13
8史海燕,牛国艺.我国图情档领域数字人文研究现状与展望[J].河北科技图苑,2023,36(2):91-96. 被引量：3
9唐雪梅,苏祺,王军,杨浩.基于图卷积神经网络的古汉语分词研究[J].情报学报,2023,42(6):740-750. 被引量：11
10李明.数字人文驱动下我国古籍数字化研究的演进特征及内在逻辑分析[J].图书馆理论与实践,2023(4):121-127. 被引量：12

1曹帅.结合关联置信度与结巴分词的新词发现算法[J].计算机系统应用,2020,29(5):144-151. 被引量：5
2王宏,朱学立,曾涛,乔东玉,郭甲腾.一种基于统计的地质专业词语识别方法[J].软件导刊,2020,19(4):211-218. 被引量：1

现代计算机

2020年第16期

浏览历史

内容加载中请稍等...

基于深度学习的《辞海》分词方法被引量：3

参考文献6

二级参考文献32

共引文献583

同被引文献31

引证文献3

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于深度学习的《辞海》分词方法 被引量：3

参考文献6

二级参考文献32

共引文献583

同被引文献31

引证文献3

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于深度学习的《辞海》分词方法被引量：3