-
题名基于标签特征强化的视觉富文档实体关系抽取
- 1
-
-
作者
曹劲然
卫俊俊
童哲
周晓阳
包岩
-
机构
中国移动紫金(江苏)创新研究院有限公司
-
出处
《江苏通信》
2025年第5期62-68,共7页
-
文摘
本文提出了一种基于标签特征强化的视觉富文档实体关系抽取方法。首先构造实体标注模型,融合语义特征和位置特征,结合ADKNN(Adaptive Density-based K-Nearest Neighbors,自适应密度分布K最近邻算法)对GAT(Graph Attention Networks,图注意力神经网络)结构优化,以达到更精确的识别。其次对实体特征进行强化,将识别的实体标签与其语义、位置特征融合,形成后续任务的实体输入特征。然后构建实体关系抽取模型,基于核心实体关系重构GAT中的图结构,提出基于类别特征差异化的2层MLP(Multilayer Perceptron,多层感知器)框架,进一步提升实体关系抽取模型性能。最后在FUNSD(Form Understanding in Noisy Scanned Documents,含噪声扫描文档表单理解)数据集上进行了实体标注和关系抽取任务对比验证。本文模型预测效果优于基线方法及其他改进模型,为VRD(Visually Rich Document,视觉富文档)的关键信息提取任务提供了有效支持。
-
关键词
视觉富文档
实体标注
关系抽取
GAT
funsd
-
Keywords
visual rich document
entity annotation
relationship extraction
GAT
funsd
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-