基于知识蒸馏的半监督古籍实体抽取被引量：2

Semi-Supervised Ancient Classic Entity Extraction Based on Knowledge Distillation

导出

摘要【目的】通过知识蒸馏将来源于无监督数据的额外知识以训练数据的形式注入学生实体抽取模型,缓解古籍实体抽取任务有监督数据稀缺的问题。【方法】使用大语言模型作为生成式知识教师模型,在无监督语料上进行知识蒸馏;基于《左传》和GuNer的有监督数据构造词典知识教师模型蒸馏词典知识,共同构建半监督古籍实体抽取数据集,将古籍实体抽取任务转换为序列到序列任务,再微调mT5、UIE等预训练模型。【结果】在《左传》和GuNer数据集上抽取4类实体的F1值分别达到89.15%和95.47%,与使用古籍语料增量微调的基线模型SikuBERT和SikuRoBERTa相比,分别提升8.15和9.27个百分点。【局限】未加入实体额外信息,受限于大模型生成的数据质量。【结论】本文方法在低资源情境下,利用预训练大语言模型和词典资源的知识优势,将知识有效蒸馏到学生实体抽取模型,能显著提升古籍实体抽取的效果。 [Objective]This work aims to address the challenge of scarce supervised data in classical Chinese entity extraction by leveraging knowledge distillation techniques to inject knowledge from unsupervised external sources into a student model.[Methods]A large language model is utilized as a generative knowledge teacher model to perform knowledge distillation on unsupervised corpora.Additionally,a dictionary knowledge teacher model is built using supervised data from the ZuoZhuan and GuNer datasets.The knowledge distilled from both teachers is integrated to compile a semi-supervised dataset for classical Chinese entity extraction.The task is then reformulated as a sequence-to-sequence problem,and pre-trained models such as mT5 and UIE are fine-tuned on this dataset.[Results]On the ZuoZhuan and GuNer datasets,the proposed method achieves F1-Score of 89.15%and 95.47%,respectively,outperforming the baseline models SikuBERT and SikuRoBERTa,which were incrementally fine-tuned on classical Chinese corpora,by 8.15%and 9.27%in F1-Score.[Limitations]The method does not incorporate additional entity type information,and the quality of data pre-retrieved by the LLMs may affectt extraction results.[Conclusions]In low-resource settings,the proposed approach effectively distills the knowledge advantages of pre-trained large language models and dictionary resources into the student entity extraction model,significantly improving the performance on classical Chinese entity extraction tasks.

作者唐朝陈波谭泽霖赵小兵 Tang Chao;Chen Bo;Tan Zelin;Zhao Xiaobing(School of Philosophy and Religious Studies,Minzu University of China,Beijing 100081,China;Institute of National Security,Minzu University of China,Beijing 100081,China;School of Information Engineering,Minzu University of China,Beijing 100081,China;School of Chinese Ethnic Minority Languages and Literatures,Minzu University of China,Beijing 100081,China;National Language Resource Monitoring and Research Center of Minority Languages,Beijing 100081,China)

机构地区中央民族大学哲学与宗教学学院中央民族大学国家安全研究院中央民族大学信息工程学院中央民族大学中国少数民族语言文学学院国家语言资源监测与研究少数民族语言中心

出处《数据分析与知识发现》北大核心 2025年第7期118-129,共12页 Data Analysis and Knowledge Discovery

基金国家社会科学基金项目(项目编号:22&ZD035)的研究成果之一。

关键词命名实体识别半监督学习大语言模型知识蒸馏 Named Entity Recognition Semi-supervised Learning LLMs Knowledge Distillation

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1王永友,骆丹.习近平关于历史文化遗产保护利用的重要论述研究[J].文化软实力,2023,8(2):14-22. 被引量：7
2刘耀,李冠霖,李浣青.面向中医古籍的单篇文本知识标引与结构解析技术[J].图书情报工作,2022,66(24):118-127. 被引量：5
3苏祺,胡韧奋,诸雨辰,严承希,王军.古籍数字化关键技术评述[J].数字人文研究,2021,1(3):83-88. 被引量：18
4王东波,刘畅,朱子赫,刘江峰,胡昊天,沈思,李斌.SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究[J].图书馆论坛,2022,42(6):30-43. 被引量：77
5肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：42
6谢靖,刘江峰,王东波.古代中国医学文献的命名实体识别研究——以Flat-lattice增强的SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):51-60. 被引量：30
7张君冬,杨松桦,刘江峰,黄奇.AIGC赋能中医古籍活化:Huang-Di大模型的构建[J].图书馆论坛,2024,44(10):103-112. 被引量：37
8石民,李斌,陈小荷.基于CRF的先秦汉语分词标注一体化研究[J].中文信息学报,2010,24(2):39-45. 被引量：76

二级参考文献81

1陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：15
2俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：22
3程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：27
4尉迟治平.计算机技术和汉语史研究[J].古汉语研究,2000(3):56-60. 被引量：19
5向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37
6徐琳,赵铁军.国家自然科学基金在自然语言处理领域近年来资助的已结题项目综述[J].软件学报,2005,16(10):1853-1858. 被引量：7
7孟庆云.宣明往范,昭示来学——论中医医案的价值、特点和研究方法[J].中医杂志,2006,47(8):568-570. 被引量：27
8王昊.基于层次模式匹配的命名实体识别模型[J].现代图书情报技术,2007(5):62-68. 被引量：8
9白拴虎.汉语词切分及词性标注一体化方法[C]//计算语言学进展与应用.北京:清华大学出版社,1995:56-61.
10Hwee Tou Ng and Jin Kiat Low. Chinese Part-of- Speech Tagging: One at-a-Time or All-at-Once? Word-Based or Character-Based? [C]//Proceedings of ACL-04: 277-284.

共引文献262

1雷珏莹,侯西龙,王晓光.数智时代古籍数字化再造的逻辑与进路[J].数字人文研究,2022,2(2):46-56. 被引量：37
2李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622. 被引量：3
3徐安迎,胡孔法,杨涛.基于Neo4j的肺癌中医诊疗知识图谱构建研究[J].世界科学技术-中医药现代化,2023,25(4):1456-1461. 被引量：19
4孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：9
5黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：11
6张景素,魏明珠.基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例[J].情报科学,2022,40(10):164-170. 被引量：2
7李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：7
8卢雪晖,徐会丹,李斌,陈思瑜.先秦词网构建及梵汉对比研究[J].中文信息学报,2023,37(3):36-45. 被引量：1
9俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：22
10程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：27

同被引文献33

1王伟斌,李敬华,于琦,王俊文,张润顺,黄燕,王映辉.基于古代医案的郁证用药规律分析[J].中国实验方剂学杂志,2020,0(5):162-167. 被引量：18
2程小恩,温川飙,许强,胡远樟,张小会.基于中医药人工智能技术探讨中医药大数据的典型特征[J].世界科学技术-中医药现代化,2020,22(4):1243-1248. 被引量：9
3陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-253. 被引量：9224
4张琳.期刊混合聚类的学科分类与交叉学科结构研究[J].图书情报工作,2013,57(3):78-84. 被引量：12
5朱亮,孟宪学.文献计量法与内容分析法比较研究[J].图书馆工作与研究,2013(6):64-66. 被引量：365
6李林澳,夏南强.2008-2017年我国典籍数字化研究综述[J].图书馆理论与实践,2019,0(11):38-44. 被引量：8
7吴地尧,章新友,张玉娇,牛晓录.分类算法在中药研究中的应用及其进展[J].科学技术与工程,2019,19(35):1-9. 被引量：13
8王慧敏,龚庆悦,胡孔法,周作建,于兴文,邵荣强.基于层次聚类的失眠处方用药分析[J].计算机时代,2020,0(3):28-31. 被引量：5
9陈菊,朱兆鑫,赵姝婷,赵亮,程小恩,温川飙.中医药信息工程技术研究及其进展[J].中华中医药杂志,2020,35(11):5375-5377. 被引量：11
10商洪才.临床“有毒”中药数智融合研究新模式:中药循证毒理学的提出[J].科学通报,2022,67(2):118-124. 被引量：11

引证文献2

1王纯,尹路修.诸子典籍英译本数据库的建设——宗旨、功能与应用前景[J].燕山大学学报(哲学社会科学版),2025,26(6):8-14.
2吴琼,张宇鹏,佟旭,王国为,吴朦,付高爽,王超.基于CiteSpace的中医药与人工智能融合研究的国内外趋势与前沿热点分析[J].中国中医基础医学杂志,2025,31(11):1946-1953.

1赵振宇,朱静静,张宇馨,刘梦珠,陈黎,琚生根.基于汉字上下文信息增强词典知识融入的中文命名实体识别[J].四川大学学报（自然科学版）,2024,61(4):104-112. 被引量：3
2李正锋,简凌志,史力睿.科技领军企业突破性技术创新能力的形成路径与跃迁机制[J].科技管理研究,2025,45(7):12-22.
3李佳斌,魏庭新,曲维光,李斌,冯敏萱,王东波.大语言模型下古诗笺注知识库的构建与应用[J].图书馆论坛,2025,45(3):99-109. 被引量：2
4Jennifer M.K.O'Keefe,Matthew J.Pound,Ingrid C.Romero,Noelia B.Nunez Otano,Martha E.Gibson,Jessica McCoy,Margaret E.Alden,CJolene Fairchild,Julia Fitzpatrick,Emily Hodgson,Taylor Horsfall,Savannah Jones,June E.Lennex-Stone,Christopher A.Marsh,Alyssa A.Patel,Tyler M.Spears,Laikin Tarlton,Liberty F.Smallwood,O.L.VanderEspt,Jeremyah R.Cabrera,Cortland F.Eble,William C.Rember,James E.Starnes,Mac H.Alford,liyson Brink,Sophie Warny.Summer-Wet Hydrologic Cycle during the Middle Miocene of the United States: New Evidence from Fossil Fungi[J].Research,2025(2):749-760.
5何东欢,李旸,王素格.基于交叉多头注意力的查询式文本摘要生成[J].中文信息学报,2025,39(7):138-147.
6朱世佳.人工智能翻译技术在跨境电商服饰产品描述中的应用[J].化纤与纺织技术,2025,54(4):48-50. 被引量：1
7卢珊,彭忠益,胡翱.国家矿产资源“大安全”管理实现路径研究[J].自然资源情报,2025(4):8-15. 被引量：3
8肖帅鹏,丁华,杨琨,刘泽平.专利知识图谱与TRIZ融合驱动的产品概念设计方法[J].计算机集成制造系统,2025,31(7):2324-2338.
9刘焕.实验室质量监督在产品质量检验检测中的关键作用[J].实验室检测,2025,3(15):106-108.
10吴麒瑞,田苗,谢忠,邱芹军,陈占龙,陶留锋.融合多模态数据的地震灾害知识图谱构建及应用[J].地质科技通报,2025,44(4):90-106. 被引量：4

数据分析与知识发现

2025年第7期

浏览历史

内容加载中请稍等...

基于知识蒸馏的半监督古籍实体抽取被引量：2

参考文献8

二级参考文献81

共引文献262

同被引文献33

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于知识蒸馏的半监督古籍实体抽取 被引量：2

参考文献8

二级参考文献81

共引文献262

同被引文献33

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于知识蒸馏的半监督古籍实体抽取被引量：2