-
题名基于BERT-RL的红色文献元数据标注研究
- 1
-
-
作者
武帅
何琳
杨秀璋
孙绍丹
桂思思
-
机构
南京农业大学信息管理学院
贵州大学公共大数据国家重点实验室
-
出处
《大学图书馆学报》
北大核心
2025年第4期76-89,共14页
-
基金
国家社会科学基金重点项目“雨花英烈文献知识组织及智能内容生成研究”(编号:23ATQ012)的研究成果之一。
-
文摘
红色文献普遍存在数量庞大、分散且类型复杂多样等特点,使得基于零基础训练的大语言模型较难实现高效应用。如何利用少量已标注数据来微调大型语言模型,从而实现红色文献领域元数据的自动化标注,是当前亟须解决的关键问题之一。文章设计了一种基于增量学习的大语言模型微调方法,并结合深度学习技术,实现了红色文献元数据表示体系的自动化标注。首先,根据红色文献的内容特征,将其归纳为事件叙述、人物评价、情感表达、文献摘录和场景描述五类文本数据集;其次,采用增量学习方式对大语言模型进行微调;最后,构建融合BERT-RL预训练模型和CNN-BiGRU-MHA-CRF的自动化标注模型,以实现对红色文献元数据的自动化标注。研究结果表明,目标领域数据集的数据特征多样性有助于提升基于增量学习微调大语言模型的效果。
-
关键词
增量学习
红色文献
元数据表示体系
自动化标注
bert-rl
-
Keywords
Incremental Learning
Red Literature
Metadata Representation System
Automated Labeling
bert-rl
-
分类号
G251.2
[文化科学—图书馆学]
-