期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例被引量：31

Automatic Word Segmentation of Classic Books with External Featuresfor Digital Humanities :A Case Study of SikuBERT Pre-training Model

下载PDF

导出

摘要数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略,运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上,开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。 The booming digital humanities research provides a good platform for the in-depth development and display of ancient books.Accurate word segmentation is a priority in the processing of ancient books.Based on the most representative six official historical books from the Spring and Autumn period to the Wei and Jin Dynasties,this study constructs a corpus of ancient Chinese word segmentation.Combined with the two strategies of pretraining and dictionary information fusion,four deep learning models are used to conduct multiple groups of comparative experiments to determine the applicable scope of different deep learning models.On this basis,a word segmentation tool for traditional Chinese characters is developed to provide a simple and effective word segmentation method for researchers working in digital humanities.

作者刘畅王东波胡昊天张逸勤李斌 LIU Chang;WANG Dongbo;HU Haotian;ZHANG Yiqin;LI Bin

机构地区南京农业大学信息管理学院南京大学信息管理学院南京师范大学文学院

出处《图书馆论坛》 CSSCI 北大核心 2022年第6期44-54,共11页 Library Tribune

基金国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331) 江苏省社会科学基金青年项目“人文计算视角下的先秦人物知识获取及分析研究”(项目编号:19TQC003)研究成果。

关键词自动分词数字人文 SikuBERT 预训练技术词典信息融合 automatic word segmentation digital humanities SikuBERT pre-training technology dictionary information fusion

分类号 G250.7 [文化科学—图书馆学] G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献21

1黄水清.人文计算与数字人文:概念、问题、范式及关键环节[J].图书馆建设,2019,0(5):68-78. 被引量：63
2朱本军,聂华.数字人文:图书馆实践的新方向[J].大学图书馆学报,2017,35(4):23-29. 被引量：67
3欧阳剑.面向数字人文研究的大规模古籍文本可视化分析与挖掘[J].中国图书馆学报,2016,42(2):66-80. 被引量：129
4于纯良,吴一平,白如江,王志民.数字人文视域下稷下学语义计算平台建设研究[J].图书馆建设,2022(2):141-149. 被引量：9
5李海涛,杨晗.多维视角下的少林寺档案内容挖掘与知识服务研究[J].山西档案,2021(5):159-166. 被引量：8
6王兆鹏,邵大为.数字人文在古代文学研究中的初步实践及学术意义[J].中国社会科学,2020(8):108-129. 被引量：62
7莫建文,郑阳,首照宇,张顺岚.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802-1807. 被引量：40
8陈之彦,李晓杰,朱淑华,付丹龙,邢诒海.基于Hash结构词典的双向最大匹配分词法[J].计算机科学,2015,42(B11):49-54. 被引量：18
9蔡灿民,吴晟,霍雪娜,赵莉楠.自动分词中智能词典的研究[J].科技广场,2007(3):34-36. 被引量：1
10周程远,朱敏,杨云.基于词典的中文分词算法研究[J].计算机与数字工程,2009,37(3):68-71. 被引量：22

二级参考文献174

1施仲添,姚叶.运用GIS技术创新规划审批档案管理的实践[J].浙江档案,2021(1):58-59. 被引量：2
2俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：22
3张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：21
4尹砥廷.浅谈《左传》对历史人物的刻划[J].吉首大学学报（社会科学版）,1985,6(3):40-46. 被引量：2
5韩嘉谷.渤海湾西岸古文化遗址调查[J].考古,1965(2):62-69. 被引量：26
6乔先之.论《红楼梦》人物的阶级关系[J].西北师大学报（社会科学版）,1974,12(3):139-153. 被引量：1
7何新文.《左传》的写人艺术[J].华中师院学报（哲学社会科学版）,1984,23(6):86-93. 被引量：5
8尉迟治平.计算机技术和汉语史研究[J].古汉语研究,2000(3):56-60. 被引量：19
9赵艳红,费洪晓.一个基于改进的反序分词词典的中文分词算法[J].深圳职业技术学院学报,2004,3(4):28-31. 被引量：2
10罗志田.走向国学与史学的“赛先生”——五四前后中国人心目中的“科学”一例[J].近代史研究,2000(3):59-94. 被引量：50

共引文献531

1吴夏平.古籍数字化与古代文学研究新变化[J].中外文化与文论,2024(2):158-173.
2刘石,李飞跃.大数据技术与传统文献学的现代转型[J].中国社会科学,2021(2):63-81. 被引量：47
3夏翠娟.构建数智时代社会记忆的多重证据参照体系:理论与实践探索[J].中国图书馆学报,2022,48(5):86-102. 被引量：39
4何湘,张雅晴.OMO教学模式下数字文学地图在古代文学课教学中的有效运用[J].新疆教育学院学报,2022,38(2):37-43. 被引量：2
5唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：53
6赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：41
7陈琳.基于知识图谱的国内数字人文研究现状分析[J].图书馆学刊,2020,0(1):89-94. 被引量：2
8陈慧,南梦洁.数字人文视域下大型体育赛事档案资源整合模式研究[J].山西档案,2022(1):27-39. 被引量：17
9张雨,张洪亮,边晓南,章广腾,丁玉芬.基于大数据的黄河地方人文建设探讨[J].人民黄河,2023,45(S01):36-37. 被引量：1
10曹树金,曹茹烨,李睿婧.数智时代的知识组织研究进展[J].情报学进展,2024(1):318-347. 被引量：3

同被引文献588

1張志清.推進古籍整理再造傳世大典——在《子藏》第五批成果發布會上的講話[J].诸子学刊,2021(1):287-290. 被引量：1
2柯永红,江琛.古代汉语词性标注语料库建设述评[J].语料库语言学,2021(1):97-111. 被引量：2
3马娜,张智雄,吴朋民.基于特征融合的术语型引用对象自动识别方法研究[J].数据分析与知识发现,2020,4(1):89-98. 被引量：10
4陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
5刘健.智慧博物馆发展中的数字人文建设——以上海博物馆的实践为例[J].数字人文研究,2022,2(3):39-49. 被引量：6
6雷珏莹,侯西龙,王晓光.数智时代古籍数字化再造的逻辑与进路[J].数字人文研究,2022,2(2):46-56. 被引量：36
7马开颜,萧瑶,陈骞,郝梦瑶,杨冠灿.数字人文视域下中国当代文学作品中的植物意象研究[J].数字人文研究,2022,2(2):35-45. 被引量：3
8吴元丰,李刚.中国满文档案工作70年——以中国第一历史档案馆为中心[J].满语研究,2019(2):81-87. 被引量：3
9李雄飞,顾千岳.满文古籍编目概述(中)[J].满语研究,2018(2):79-83. 被引量：1
10李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：7

引证文献31

1黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：11
2李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：7
3刘欢,刘浏,王东波.数字人文视角下的领域知识图谱自动问答研究[J].科技情报研究,2022,4(1):46-59. 被引量：8
4耿云冬,张逸勤,刘欢,王东波.面向数字人文的中国古代典籍词性自动标注研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(6):55-63. 被引量：16
5孙文龙,张逸勤,王凡铭,鱼汇沐,刘江峰,王东波.面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):31-41. 被引量：7
6徐润华,王东波,刘欢,梁媛,陈康.面向古籍数字人文的《资治通鉴》自动摘要研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(12):129-137. 被引量：13
7林立涛,王东波.古籍文本挖掘技术综述[J].科技情报研究,2023,5(1):78-91. 被引量：13
8史海燕,牛国艺.我国图情档领域数字人文研究现状与展望[J].河北科技图苑,2023,36(2):91-96. 被引量：3
9唐雪梅,苏祺,王军,杨浩.基于图卷积神经网络的古汉语分词研究[J].情报学报,2023,42(6):740-750. 被引量：11
10李明.数字人文驱动下我国古籍数字化研究的演进特征及内在逻辑分析[J].图书馆理论与实践,2023(4):121-127. 被引量：12

二级引证文献153

1武利红,侯惠宁,张丝雨.我国图书馆数字人文相关研究可视化分析[J].玉林师范学院学报,2023,44(3):115-122. 被引量：1
2张锦胜,林泽斐.数字人文视角下多日记人物关系联合挖掘及可视化研究——以西南联大相关日记为例[J].知识管理论坛,2023(3):171-182. 被引量：1
3曹树金,曹茹烨,李睿婧.数智时代的知识组织研究进展[J].情报学进展,2024(1):318-347. 被引量：3
4刘欢,刘浏,王东波.数字人文视角下的领域知识图谱自动问答研究[J].科技情报研究,2022,4(1):46-59. 被引量：8
5孙文龙,张逸勤,王凡铭,鱼汇沐,刘江峰,王东波.面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):31-41. 被引量：7
6徐润华,王东波,刘欢,梁媛,陈康.面向古籍数字人文的《资治通鉴》自动摘要研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(12):129-137. 被引量：13
7林立涛,王东波.古籍文本挖掘技术综述[J].科技情报研究,2023,5(1):78-91. 被引量：13
8孙燕,刘浏,王东波.《春秋左传正义》引书计算人文研究[J].图书情报工作,2023,67(2):119-130. 被引量：10
9张贞港,余传明.基于实体与关系融合的知识图谱补全模型研究[J].数据分析与知识发现,2023,7(2):15-25. 被引量：5
10史海燕,牛国艺.我国图情档领域数字人文研究现状与展望[J].河北科技图苑,2023,36(2):91-96. 被引量：3

1胡潇涛,吴浩,杨亮,顾小平,宋弘.基于伪标注样本融合的领域分词方法[J].四川轻化工大学学报（自然科学版）,2021,34(1):48-55. 被引量：1
2佟悦.从盛京皇子到宗室第一诗人——清太宗第六子高塞事迹述略[J].沈阳故宫博物院院刊,2020(1).
3刘文波.康乾时期的清帝北巡与木兰围场设置问题探析[J].内蒙古师范大学学报（哲学社会科学版）,2021,50(1):42-59. 被引量：4
4黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(三)——句长与词的分析比较[J].图书情报工作,2019,63(24):5-15. 被引量：8
5黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(二)——深度学习自动分词模型构建[J].图书情报工作,2019,63(23):5-12. 被引量：9
6邵党国,黄初升,马磊,贺建峰,易三莉.基于Bi-LSTM的医学文本分词模型[J].通信技术,2022,55(2):151-159. 被引量：1
7周好,王东波,黄水清.新时代人民日报分词语料库下关键词抽取及分析研究[J].文献与数据学报,2022,4(1):21-34. 被引量：2
8王生雷.人工智能背景下的初中创客校本课程的深度开发与有效实施研究[J].世纪之星—初中版,2021(20):141-142.
9耿云冬,张逸勤,刘欢,王东波.面向数字人文的中国古代典籍词性自动标注研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(6):55-63. 被引量：16
10惠晨阳,李晓东,李恒飞,肖明中.芍药甘草汤的古籍文献研究[J].中西医结合肝病杂志,2022,32(5):432-435. 被引量：17

图书馆论坛

2022年第6期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部