摘要
自动标引是计算机文献管理中的一个重要过程。主题词的切分是自动标引的第一步。一般标引词均有标准主题词库 ,而自然主题词千差万别 ,使切分有一定的困难。本文利用自然主题词的特点 ,给出了一个基于自然主题词基本结构的切分方法。先使用相关信息对自然主题词的可能起始部分进行判断 ,再根据约束条件对自然主题词的整体进行判断 ,同时根据其出现的频率及位置施以加权处理 ,从而得到正确完整的自然主题词。通过标引系统的标引结果证明了方法可行。
Automatic indexing is a important procedure in computer management.The first step in automatic index is keyword segmentation.Normal index word has standard keyword library,while natural keyword is variable.It is difficult to segment natural keyword.According to the characteristics of natural keyword,an automatic segmentation methods based on basic structure of the natural keyword is present in this paper.The method starts from identification of possible beginning of natrual keyword,then identify the entire of natural keyword.In the meantime frequency and positions of the natural keyword are weighted.A complete and correct natural keyword is obtained from this procedure.Experiments show the method is achievable.
出处
《情报科学》
CSSCI
北大核心
2004年第3期337-339,共3页
Information Science