摘要
在句法分析中,已有研究工作表明,词汇依存信息对短语结构句法分析是有帮助的,但是已有的研究工作都仅局限于使用一阶的词汇依存信息.提出了一种使用高阶词汇依存信息对短语结构树进行重排序的模型,该模型首先为输入句子生成有约束的搜索空间(例如,N-best句法分析树列表或者句法分析森林),然后在约束空间内获取高阶词汇依存特征,并利用这些特征对短语结构候选树进行重排序,最终选择出最优短语结构分析树.在宾州中文树库上的实验结果表明,该模型的最高F1值达到了85.74%,超过了目前在宾州中文树库上的最好结果.另外,在短语结构分析树的基础上生成的依存结构树的准确率也有了大幅提升.
The existing works on parsing show that lexical dependencies are helpful for phrase tree parsing.However,only first-order lexical dependencies have been employed and investigated in previous research.This paper proposes a novel method for employing higher-order lexical dependencies for phrase tree evaluation.The method is based on a parse reranking framework,which provides a constrained search space(via N-best lists or parse forests) and enables the parser to employ relatively complicated lexical dependency features.The models are evaluated on the UPenn Chinese Treebank.The highest F1 score reaches 85.74% and has outperformed all previously reported state-of-the-art systems.The dependency accuracy of phrase trees generated by the parser has been significantly improved as well.
出处
《软件学报》
EI
CSCD
北大核心
2012年第10期2628-2642,共15页
Journal of Software
基金
国家自然科学基金(60975053
61003160)
中国科学院对外合作交流项目
关键词
短语结构
依存结构
句法重排序
高阶词汇依存关系
句法森林
phrase structure
dependency structure
parse reranking
higher-order lexical dependencies
parse forest