摘要
为了产生语义Web中的元数据,需要提取Web文档中的语义信息;面对海量的Web文档,自动语义标注相对人工和半自动的语义标注是可行的方法。提出的基于本体知识库的自动语义标注方法,旨在提高标注的质量。为识别出文档中的候选命名实体,设计了语义词典的逻辑结构,论述了以实体之间语义关联路径计算语义距离的方法;语义标注中的复杂问题是语义消歧,提出了基于最短路径的语义消歧方法和基于N-gram的语义消歧方法。针对构建的测试数据集,进行的标注实验表明该方法能够依据本体知识库,有效地对Web文档进行自动语义标注。
To recognize candidate named entities,designed the semantic dictionary and calculated semantic distance between entities by semantic relevance path.The most complex problem in semantic annotation was semantic disambiguation.This paper proposed a semantic disambiguation method based on the shortest path and N-gram.Experiments was made on a news corpus.The result shows that the method is effective for the task of automatic semantic annotation.
出处
《计算机应用研究》
CSCD
北大核心
2011年第5期1742-1744,1747,共4页
Application Research of Computers
基金
中央高校基本科研业务费专项资金资助项目(2010-IV-023)
关键词
语义标注
N-GRAM
语义消歧
有向图
知识库
semantic annotation
N-gram
semantic disambiguation
directed acyclic graph
knowledge base