摘要
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略,运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上,开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
The booming digital humanities research provides a good platform for the in-depth development and display of ancient books.Accurate word segmentation is a priority in the processing of ancient books.Based on the most representative six official historical books from the Spring and Autumn period to the Wei and Jin Dynasties,this study constructs a corpus of ancient Chinese word segmentation.Combined with the two strategies of pretraining and dictionary information fusion,four deep learning models are used to conduct multiple groups of comparative experiments to determine the applicable scope of different deep learning models.On this basis,a word segmentation tool for traditional Chinese characters is developed to provide a simple and effective word segmentation method for researchers working in digital humanities.
作者
刘畅
王东波
胡昊天
张逸勤
李斌
LIU Chang;WANG Dongbo;HU Haotian;ZHANG Yiqin;LI Bin
出处
《图书馆论坛》
CSSCI
北大核心
2022年第6期44-54,共11页
Library Tribune
基金
国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331)
江苏省社会科学基金青年项目“人文计算视角下的先秦人物知识获取及分析研究”(项目编号:19TQC003)研究成果。
关键词
自动分词
数字人文
SikuBERT
预训练技术
词典信息融合
automatic word segmentation
digital humanities
SikuBERT
pre-training technology
dictionary information fusion