期刊文献+

面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例 被引量:31

Automatic Word Segmentation of Classic Books with External Featuresfor Digital Humanities :A Case Study of SikuBERT Pre-training Model
在线阅读 下载PDF
导出
摘要 数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略,运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上,开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。 The booming digital humanities research provides a good platform for the in-depth development and display of ancient books.Accurate word segmentation is a priority in the processing of ancient books.Based on the most representative six official historical books from the Spring and Autumn period to the Wei and Jin Dynasties,this study constructs a corpus of ancient Chinese word segmentation.Combined with the two strategies of pretraining and dictionary information fusion,four deep learning models are used to conduct multiple groups of comparative experiments to determine the applicable scope of different deep learning models.On this basis,a word segmentation tool for traditional Chinese characters is developed to provide a simple and effective word segmentation method for researchers working in digital humanities.
作者 刘畅 王东波 胡昊天 张逸勤 李斌 LIU Chang;WANG Dongbo;HU Haotian;ZHANG Yiqin;LI Bin
出处 《图书馆论坛》 CSSCI 北大核心 2022年第6期44-54,共11页 Library Tribune
基金 国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331) 江苏省社会科学基金青年项目“人文计算视角下的先秦人物知识获取及分析研究”(项目编号:19TQC003)研究成果。
关键词 自动分词 数字人文 SikuBERT 预训练技术 词典信息融合 automatic word segmentation digital humanities SikuBERT pre-training technology dictionary information fusion
  • 相关文献

参考文献21

二级参考文献174

共引文献531

同被引文献588

引证文献31

二级引证文献153

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部