期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
中文重名规范记录结构化数据抽取及实体匹配研究
1
作者 陈辰 赵一冉 +1 位作者 李春秋 周晓城 《国家图书馆学刊》 北大核心 2025年第4期102-112,F0003,共12页
针对名称规范记录文本进行结构化数据抽取和实体匹配研究,可解决重名规范记录的实体识别和跨库聚簇难题。选取重名率最高的前50个中文个人名称样本,并从中文名称规范联合数据库中获取总计6149条规范记录。基于RDA标准和规范文档实际构... 针对名称规范记录文本进行结构化数据抽取和实体匹配研究,可解决重名规范记录的实体识别和跨库聚簇难题。选取重名率最高的前50个中文个人名称样本,并从中文名称规范联合数据库中获取总计6149条规范记录。基于RDA标准和规范文档实际构建抽取框架,利用GPT-4o按特定规则从附注项和参考数据源等字段抽取结构化数据,基于数据抽取结果利用中文语言大模型计算嵌入向量,结合余弦相似性、权重设置和层次聚类进行实体匹配。数据抽取得到的实体属性总数为53,837个,其中“发表著作”“活动领域”等属性抽取率较高,不同数据库属性值抽取频率有差异。通过实体匹配,识别出540个聚簇,含2个记录的聚簇居多,NLC重复记录较多,跨库中NLC与CSS、JULAC匹配数量高。结果表明研究方法有效,可为解决中文名称规范文档的重名消歧问题提供新思路,有助于提升名称规范数据质量和维护效率。图4。表5。参考文献38。 展开更多
关键词 名称规范记录 重名记录 实体匹配 数据抽取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部