面向Internet的中文新词语检测被引量：60

Internet-oriented Chinese New Words Detection

下载PDF

导出

摘要随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ,从中自动检测新词语 ,而后再根据构词规则对自动检测的结果进行进一步的过滤 ,最终抽取出采集语料中存在的新词语。根据该方法实现的系统 ,可以寻找不限长度和不限领域的新词语 ,目前正应用于《现代汉语新词语信息 (电子 )词典》的编纂 ,在实用中大大的减轻了人工查找新词语的负担。 With the fast development of the society,more and more new words come out in our life. It is one of the important topics in Chinese natural language processing to collect those new words. A method is presented for detecting these new words automaitcally in this paper. Through analysing webpages grabbed from the Internet, a large word and string set is built, which new words are detected from and filtered by rules. At last new words which exist in the webpages grabbed are extracted. The system built in this way can find new words in any length and in any field.Now it is applying to the compilation of Modern Chinese New Word Information Dictionary. It reduced human labor a lot in practise.

作者邹纲刘洋刘群孟遥于浩西野文人亢世勇

机构地区中科院计算技术研究所数字化实验室富士通研究开发中心有限公司烟台师范学院中文系

出处《中文信息学报》 CSCD 北大核心 2004年第6期1-9,共9页 Journal of Chinese Information Processing

关键词计算机应用中文信息处理新词语自动检测 computer application Chinese language processing new word automatic detection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1Hua- Ping ZHANG, Qun LIU. et al, Chinese Name Entity Recognition Using Role Model[ J]. Special issue ''Word Formation and Chinese Language processing'' of the International Journal of Computational Linguistics and Chinese Language Processing, 2003, 8(2):2
2Craig G. Nevill - Manning, Ian H. Witten. Identifying Hierarchical Structure in Sequences: A linear - time algorithm [J]. Journal of Artificial Intelligence Research, 1997, 7:67- 82

同被引文献520

1殷小丽.新时代网络新闻舆论的时代特征与引导策略[J].传媒论坛,2019,2(9):74-75. 被引量：1
2张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：21
3张瑞霞,肖汉.基于知网的词图构造[J].华北水利水电学院学报,2008(3):53-56. 被引量：6
4冯晋,李春平.基于统计学和语义信息的中文文本主题识别技术[J].清华大学学报（自然科学版）,2005,45(S1):1791-1794. 被引量：6
5许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量：13
6殷志平.构造缩略语的方法和原则[J].语言教学与研究,1999(2):73-82. 被引量：47
7张普.关于语感与流通度的思考[J].语言教学与研究,1999(2):83-96. 被引量：62
8高永伟.近20年英语国家对新词的研究[J].外语与外语教学,1998(11):9-11. 被引量：16
9刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：202
10孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：38

引证文献60

1崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
2任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
3胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
4何婷婷,朱薏,张勇,任函.基于词语属性的计算机辅助获取流行词语研究[J].中文信息学报,2006,20(6):38-45. 被引量：4
5姜韶华,党延忠.自动提取含字母词语的领域新术语的研究[J].计算机工程,2007,33(2):47-49. 被引量：3
6吕学强,黄河,李渝勤,施水才.BBS中文新词语自动挖掘[J].现代图书情报技术,2007(1):37-39. 被引量：2
7胡彧,苏雪峰.特定主题的相关概念挖掘研究与实现[J].电脑开发与应用,2007,20(2):14-16. 被引量：1
8张榕,宋柔.一种被定义项的识别策略[J].当代语言学,2007,9(1):33-38. 被引量：3
9贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
10刘竟,朱书梅,侯汉清.网络环境信息标引的测评与比较研究[J].中国索引,2007,5(3):2-7.

二级引证文献329

1张昱,罗年学.互联网突发事件监测信息分类方法研究[J].数字制造科学,2022(1):75-80.
2王曰芬,吴鹏,丁晟春,陈芬.社会舆情分析研究与进展综述[J].情报学进展,2016(1):132-185. 被引量：1
3那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
4祝帅,郑小林,陈德人.论坛中的意见领袖自动发现算法研究[J].系统工程理论与实践,2011,31(S2):7-12. 被引量：17
5施水才,程涛,王霞,吕学强.基于网页内容的广告推介研究[J].中文信息学报,2007,21(4):42-47. 被引量：1
6贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
7冯少卿,都云程.网页结构模板生成新方法研究[J].北京机械工业学院学报,2007,22(3):15-19. 被引量：2
8吴春颖,王士同,蔡崇超.一种基于新词发现的Web文本表示方法[J].计算机应用,2008,28(3):764-767. 被引量：4
9李钝,曹元大,万月亮.Internet中的新词识别[J].北京邮电大学学报,2008,31(1):26-29. 被引量：7
10张宇萌,刘传汉.一种基于逐层扫描的频繁字串快速提取算法[J].计算机科学,2008,35(5):127-130. 被引量：1

1吕学强,黄河,李渝勤,施水才.BBS中文新词语自动挖掘[J].现代图书情报技术,2007(1):37-39. 被引量：2
2讲解Linux服务器被黑的解决方法[J].计算机与网络,2010,36(8):31-31.
3张建鹏.Windows XP实用技巧[J].金融电子化,2003(2):75-75.
4邹倩颖.基于Hadoop的倒排索引的研究与实现[J].福建电脑,2016,32(1):124-124.
5鲍明凌,亢世勇.基于数据库的现代汉语新词语缩略语的研究[J].术语标准化与信息技术,2002(4):15-21. 被引量：1
6施水才,俞鸿魁,吕学强,李渝勤.基于大规模语料的新词语识别方法[J].山东大学学报（理学版）,2006,41(3):89-91. 被引量：5
7杨平,胡建陶,兰美辉.词法分析程序的设计与实现研究[J].科技视界,2014(24):18-19.
8杨柳.浅谈现代汉语新词语[J].科技视界,2013(30):143-144.
9赵龙,乔卫民,敬岚.基于加速器控制系统的输入法开发设计[J].微计算机信息,2009,25(34):198-199.
10许维俊.给WIN95/98创建新的汉字输入法[J].青海气象,1999(1):39-40.

中文信息学报

2004年第6期

浏览历史

内容加载中请稍等...

面向Internet的中文新词语检测被引量：60

参考文献2

同被引文献520

引证文献60

二级引证文献329

相关作者

相关机构

相关主题

浏览历史

面向Internet的中文新词语检测 被引量：60

参考文献2

同被引文献520

引证文献60

二级引证文献329

相关作者

相关机构

相关主题

浏览历史

面向Internet的中文新词语检测被引量：60