基于机械分词与统计学的新词识别研究被引量：6

Research on New Word Identification Based on Automatic Segmentation and Statistics

下载PDF

导出

摘要分词是所有中文信息处理工作的基础,也是汉语信息处理的难点之一,如何识别文中出现的新词更成为当前研究的重点之一。本文综合利用几种传统的机械分词方法,加上统计学的方法,提出了一种从文献中抽取新词的新方法。 Automatic segmentation is the foundation of Chinese information processing and also one of its difficult points. How to identify the new words in the articles has become one of the research focus at present. This paper puts forward a new method of taking out new words from articles by the comprehensive use of several traditional automatic segmentation methods and the method of statistics.

作者梁刚

机构地区南京农业大学信息科技学院

出处《情报理论与实践》 CSSCI 北大核心 2005年第5期475-477,共3页 Information Studies:Theory & Application

关键词信息处理技术自动分词/新词识别未登录词统计学新词分词识别机械信息处理工作汉语信息处理 information processing technology automatic segmentation / new word identification unlisted words

分类号 G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献8

1陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
2刘挺,吴岩,王开铸.最大概率分词问题及其解法[J].哈尔滨工业大学学报,1998,30(6):37-41. 被引量：16
3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：88
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
5宋柔.基于语料库和规则库的人名识别法[A]..计算语言学研究与应用[C].北京:北京语言学院出版社,1993..
6张普张光汉.现代汉语“有穷多层列举”自动分词方法的讨论[A]..语言自动处理[C].武汉:武汉大学出版社,1988..
7王开铸李俊杰吴岩.无词典自动分词的研究[A]..计算语言学进展与应用[C].北京:清华大学出版社,1995..
8沈达阳孙茂松黄昌宁.局部统计在汉语未登录词辨识中应用和实现方法[A]..语言工程[C].北京:清华大学出版社,1997..

二级参考文献75

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
3黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
6孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
7徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：16
8孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：88
9黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
10孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66

共引文献216

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：8
2周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
3王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
4张泉,曾国荪,王伟,孙明军,谷华楠.基于改进的模糊C-均值聚类的信任文摘[J].计算机研究与发展,2008,45(z1):268-273. 被引量：2
5张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
6郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
7王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
8陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
9黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
10洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.

同被引文献34

1张伟远.中、英、美三国开放与远程教育研究论文的比较研究[J].开放教育研究,1999,5(Z1):59-62. 被引量：33
2尹斌庸,方世增.词频统计的新概念和新方法[J].语言文字应用,1994(2):69-75. 被引量：37
3陈炳木.教学资源平台的共享性研究[J].现代远距离教育,2004(2):62-64. 被引量：25
4王晓东,高宏卿,张际平.基于Ontology疑难问题答疑系统的设计与实现[J].电化教育研究,2004,25(9):39-41. 被引量：1
5黄荣怀,李茂国,沙景荣.知识工程学:一个新的重要研究领域[J].电化教育研究,2004,25(10):1-7. 被引量：15
6陈刚.基于本体论的远程教学系统领域知识建模[J].中国远程教育,2004(12S):68-70. 被引量：3
7张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
8殷丙山,张柘,陈丽.中国远程教育学术研究现状——基于专业学术期刊的分析[J].中国远程教育,2005(02S):18-22. 被引量：30
9秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(B12):369-370. 被引量：13
10项国雄,熊秋娥,吴沧海.对网络教育交互研究趋势的元分析[J].中国电化教育,2005(3):37-39. 被引量：11

引证文献6

1魏顺平,何克抗.文本智能处理技术在远程教育元研究中的应用[J].中国远程教育,2007(08S):66-70. 被引量：1
2魏顺平.教育技术学科术语标准的制定:通用度计算的视角[J].现代教育技术,2008,18(2):49-53. 被引量：4
3傅骞,魏顺平,王斌,路秋丽.教育技术领域术语提取研究[J].现代教育技术,2008,18(5):60-65. 被引量：8
4魏顺平,何克抗.基于文本挖掘的领域本体半自动构建方法研究——以教学设计学科领域本体建设为例[J].开放教育研究,2008,14(5):95-101. 被引量：14
5程传鹏.一种基于位置信息的未登录词的识别方法[J].中原工学院学报,2008,19(6):31-33. 被引量：1
6钱黎.垃圾邮件防控与管理技术在企业中的应用[J].硅谷,2010,3(20):118-118.

二级引证文献26

1魏顺平,孙鸿飞,贺丹丹.中国广播电视大学远程教育研究成果内容分析[J].北京广播电视大学学报,2010(6):23-28.
2魏顺平,何克抗.基于文本挖掘的领域本体半自动构建方法研究——以教学设计学科领域本体建设为例[J].开放教育研究,2008,14(5):95-101. 被引量：14
3魏顺平,何克抗.教学设计电子绩效支持系统设计研究[J].中国电化教育,2009(3):96-100. 被引量：2
4唐一之.基于知网的领域概念抽取与关系分析研究[J].湘潭大学自然科学学报,2009,31(1):135-140. 被引量：6
5王冰洁,魏顺平.基于术语通用度计算的远程教育研究领域术语使用情况调查研究[J].远程教育杂志,2009,27(4):41-45. 被引量：3
6李素建,宋涛,高杰,幺鹏跃,李文捷.一种基于使用差异的词语领域性分析方法[J].中文信息学报,2009,23(6):72-78. 被引量：5
7魏顺平,路秋丽,何克抗,李宇翔.教学设计自动化语义模型及其实现方法[J].开放教育研究,2009,15(6):52-60. 被引量：5
8彭炜明,宋继华.《资治通鉴》历史领域本体构建及其应用研究[J].中文信息学报,2010,24(2):33-38. 被引量：12
9魏顺平.国外教育技术研究现状与趋势——基于国外教育技术研究领域期刊论文的分析[J].开放教育研究,2010,16(2):82-89. 被引量：23
10魏顺平.技术支持的文献研究法:数字化教育研究的一个尝试[J].现代教育技术,2010,20(6):29-34. 被引量：20

1韩景熙.中韩名量词对比研究[J].济南大学学报（社会科学版）,2002,12(3):63-65. 被引量：7
2《世界汉语教学》简介[J].世界汉语教学,1996,10(1):2-2. 被引量：1
3张普.论汉语信息处理技术与对外汉语教学[J].语言教学与研究,1991(1):111-129. 被引量：9
4洪佳伟.百事可乐的市场定位及营销战略研究[J].经营管理者,2014(30):286-286.
5王强.计算机应用与人力资源管理[J].梅山科技,2003(3):52-55. 被引量：1
6张普.汉语拼音与汉语信息处理[J].语言文字应用,2008(3):28-29.
7李秀琴.21世纪汉字文化面临的机遇和挑战[J].汉字文化,2003(3):1-3. 被引量：2
8戴昭铭.信息时代的语文规范化问题[J].求是学刊,1994,21(4):97-101. 被引量：2
9刘彦仕.论前景化理论在翻译中的适用性[J].绵阳师范学院学报,2008,27(1):145-148. 被引量：3
10王化玲,赵长英.如何识别主题句及其意义[J].黑龙江教育学院学报,2000,19(2):89-90.

情报理论与实践

2005年第5期

浏览历史

内容加载中请稍等...

基于机械分词与统计学的新词识别研究被引量：6

参考文献8

二级参考文献75

共引文献216

同被引文献34

引证文献6

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于机械分词与统计学的新词识别研究 被引量：6

参考文献8

二级参考文献75

共引文献216

同被引文献34

引证文献6

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于机械分词与统计学的新词识别研究被引量：6