一种短语结构规则的自动获取方法被引量：3

A NEW APPROACH TO PHRASE STRUCTURE RULE ACQUISITION

下载PDF

导出

摘要文中提出一种新的知识获取方法，即从完全没有任何标注的生语料库中，采用ＮＡ假设自动构造带标训练数据，利用基于多特征的相似评估技术自动获取名词短语结构规则．该方法具有两个特点：①由于从没有任何标注的生语料库中自动获取带标训练数据，促使带标数据规模可以很大，且容易构造不同领域的带标语料库；②所获取的短语结构规则具有概率属性，可用于分类检索等应用中的名词短语抽取．为论证方法有效性，采用美国Ｂｅｒｌｉｔｚ公司的汽车配件真实语料进行测试，前５０个名词短语结构规则的准确率高达８０％． Here presented is a new approach to NP phrase structure rule acquisition based on multi\|feature similarity estimation from corpora without bracketed and nonterminal labels. By computing the distance between a rule and all feature rules based on their local contextual information, the system could sort all rules by their distances. The smaller the distance, the larger the similarity. Experiments using Berlitz corpus show that the approach presented achieves a relatively high accuracy: 80% in the first 50 rules. This result demonstrates that training data acquisition based on NA assumption is effective for rule acquisition and parsing.

作者朱靖波张玥杰姚天顺

机构地区东北大学信息科学与工程学院计算机科学系

出处《计算机研究与发展》 EI CSCD 北大核心 1999年第5期601-607,共7页 Journal of Computer Research and Development

基金国家自然科学基金国家教委博士点基金

关键词短语结构规则自然语言处理自动获取 noun phrase structure rule, distance function, multifeaturebased similarity estimation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1姚天顺，自然语言理解.一种让机器懂得人类语言的研究，1995年，220页

同被引文献9

1孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学,2000,2(2):74-83. 被引量：39
2[3]S. Amari and S. Wu. Improving support vector machine classifiers by modifying kernel functions [J].Neural Networks,1999. to appear.
3李国正王蒙曾华军译.支持向量机导论[M].北京:电子工业出版社,2004-03..
4周强.汉语短语的自动划分和标注[J].中文信息学报,1997,11(1):1-10. 被引量：21
5李晓黎,刘继敏,史忠植.概念推理网及其在文本分类中的应用[J].计算机研究与发展,2000,37(9):1032-1038. 被引量：57
6徐延勇,郭忠伟,周献中.基于最大熵方法的统计语言模型[J].计算机工程与应用,2002,38(5):53-55. 被引量：4
7李素建,刘群,白硕.统计和规则相结合的汉语组块分析[J].计算机研究与发展,2002,39(4):385-391. 被引量：21
8张昱琪,周强.汉语基本短语的自动识别[J].中文信息学报,2002,16(6):1-8. 被引量：41
9张健沛,徐华.支持向量机(SVM)主动学习方法研究与应用[J].计算机应用,2004,24(1):1-3. 被引量：52

引证文献3

1曹建芳,郑家恒.基于SVM的汉语动词短语识别[J].咸阳师范学院学报,2004,19(6):32-34. 被引量：3
2徐延勇,周献中,井祥鹤,郭忠伟.基于最大熵模型的汉语句子分析[J].电子学报,2003,31(11):1608-1612. 被引量：16
3钱揖丽,郑家恒.汉语语料词性标注自动校对方法的研究[J].中文信息学报,2004,18(2):30-35. 被引量：11

二级引证文献30

1王胜,朱明.基于最大熵马尔可夫模型的地址信息抽取[J].计算机工程与应用,2005,41(21):192-194. 被引量：8
2余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
3戴文华,焦翠珍,徐斌.基于统计的自然语言处理模型[J].咸宁学院学报,2005,25(3):79-82. 被引量：3
4李成城,白涛,赵述芳,钟义信.基于OCR的纵向文字校对的研究与实现[J].计算机应用研究,2006,23(4):234-236. 被引量：1
5吕琳,刘玉树.最大熵和Brill方法结合识别英语BaseNPs[J].北京理工大学学报,2006,26(6):500-503. 被引量：6
6姜维,关毅,王晓龙.基于条件随机域的词性标注模型[J].计算机工程与应用,2006,42(21):13-16. 被引量：12
7李荣,郑家恒.基于语料库的名词短语识别方法[J].济南大学学报（自然科学版）,2007,21(3):243-245. 被引量：2
8徐建军,吴玲达,司光亚,张昱,谢毓湘.战略态势叙事性表现技术研究[J].系统仿真学报,2007,19(11):2500-2502. 被引量：4
9许长志,闵帆.带权约简及其在汉语词性标注自动校对中的应用[J].控制与决策,2007,22(7):740-744. 被引量：1
10李荣,郑家恒.三种方法的NP识别比较实验研究[J].通化师范学院学报,2007,28(4):44-46.

1于晓锋,胡金春.基于帧结构的串行通讯编解帧研究[J].油气田地面工程,2005,24(9):42-43.
2罗宜元,苏庆刚.对单密钥Even-Mansour分组密码的简单安全性证明[J].上海电机学院学报,2015,18(5):272-276.
3谷丰.基于linux的机车显示系统平台的设计[J].机车电传动,2005(1):27-29. 被引量：3
4朱靖波,张玫杰,姚天顺.一种基于NA假设的训练数据自动构造方法[J].东北大学学报（自然科学版）,1999,20(4):366-368. 被引量：1
5柏禄一,徐长明,刘旭龙,于长永.基于XML的不确定时空数据模型[J].东北大学学报（自然科学版）,2016,37(11):1546-1550. 被引量：1
6乔峰,张慧欣.一种基于FPGA硬件求解函数的简化方法[J].电子科学技术,2015,2(5):532-537. 被引量：2
7刘凤春,王立亚,刘保相.复杂网络K-紧密概率属性子图高效挖掘算法[J].晓庄学院自然科学学报,2016,39(4):59-65.
8强静,张建.基于短语的统计机器翻译中短语抽取算法改进[J].计算机工程与应用,2008,44(13):147-149. 被引量：3
9诺明花,张立强,刘汇丹,吴健,丁治明.汉藏短语抽取[J].中文信息学报,2011,25(2):105-110. 被引量：5
10许俊.数据挖掘中的属性处理方法比较研究[J].福建电脑,2006,22(12):34-35.

计算机研究与发展

1999年第5期

浏览历史

内容加载中请稍等...

一种短语结构规则的自动获取方法被引量：3

参考文献1

同被引文献9

引证文献3

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

一种短语结构规则的自动获取方法 被引量：3

参考文献1

同被引文献9

引证文献3

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

一种短语结构规则的自动获取方法被引量：3