-
题名中文重名规范记录结构化数据抽取及实体匹配研究
- 1
-
-
作者
陈辰
赵一冉
李春秋
周晓城
-
机构
河北大学管理学院
北京师范大学政府管理学院
香港中文大学统计系
-
出处
《国家图书馆学刊》
北大核心
2025年第4期102-112,F0003,共12页
-
基金
国家社会科学基金项目“名称规范控制向身份管理的转型研究”(项目编号:22BTQ038)的研究成果之一。
-
文摘
针对名称规范记录文本进行结构化数据抽取和实体匹配研究,可解决重名规范记录的实体识别和跨库聚簇难题。选取重名率最高的前50个中文个人名称样本,并从中文名称规范联合数据库中获取总计6149条规范记录。基于RDA标准和规范文档实际构建抽取框架,利用GPT-4o按特定规则从附注项和参考数据源等字段抽取结构化数据,基于数据抽取结果利用中文语言大模型计算嵌入向量,结合余弦相似性、权重设置和层次聚类进行实体匹配。数据抽取得到的实体属性总数为53,837个,其中“发表著作”“活动领域”等属性抽取率较高,不同数据库属性值抽取频率有差异。通过实体匹配,识别出540个聚簇,含2个记录的聚簇居多,NLC重复记录较多,跨库中NLC与CSS、JULAC匹配数量高。结果表明研究方法有效,可为解决中文名称规范文档的重名消歧问题提供新思路,有助于提升名称规范数据质量和维护效率。图4。表5。参考文献38。
-
关键词
名称规范记录
重名记录
实体匹配
数据抽取
-
Keywords
Name Authority record
homonym record
Entity Matching
Data Extraction
-
分类号
G254.3
[文化科学—图书馆学]
-