博客语料的新词发现方法被引量：17

Discovery method of new words in blog contents

下载PDF

导出

摘要新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的"时空"性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间域上的变化分析对词进行过滤;最后通过词的统计信息和词性规则对候选词进行排序以提高准确率;在此基础上建立新词发现系统。 The discovery of new words has been one of the hot issues and difficult problems in natural language processing.In order to extract new words from blog contents,the segmentation of words in blog contents is conducted first,and then new words are filtered according to the definition,＂space-time＂ nature,statistics,appearance frequency and distribution density of the new words,as well as contextual analysis and the change of the new words in the time domain.The candidate words are sorted based on the word statistical information and part of speech（POS） rules to improve accuracy rate.By doing this,the new words discovery system was established.

作者黄轩李熔烽

机构地区厦门大学智能科学与技术系漳州职业技术学院经济管理系

出处《现代电子技术》 2013年第2期144-146,149,共4页 Modern Electronics Technique

基金漳州职业技术学院科研计划资助项目(ZZY1107)

关键词新词词串统计上下文分析分词候选词 new word word string statistics contextual analysis segmentation of word candidate word

分类号 TN911.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献9

1林自芳,蒋秀凤.基于词内部模式的新词识别[J].计算机与现代化,2010(11):162-164. 被引量：17
2贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
3施水才,俞鸿魁,吕学强,李渝勤.基于大规模语料的新词语识别方法[J].山东大学学报（理学版）,2006,41(3):89-91. 被引量：5
4崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
5韩艳,姚建民,朱巧明,张晶.不限领域的中文新词的识别研究[J].郑州大学学报（理学版）,2008,40(3):67-71. 被引量：2
6吕红良.基于大规模语料库的中文新词识别[J].大连理工大学学报,2008(7) :49-53.
7贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
8张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量：40
9邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：60

二级参考文献71

1张普.关于大规模真实文本语料库的几点理论思考[J].语言文字应用,1999(1):35-44. 被引量：51
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：60
4贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
5曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：49
6崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
7施水才,俞鸿魁,吕学强,李渝勤.基于大规模语料的新词语识别方法[J].山东大学学报（理学版）,2006,41(3):89-91. 被引量：5
8黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
9刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
10周蕾,朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程,2007,33(8):196-198. 被引量：21

共引文献151

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
3崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
4刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
5任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
6胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
7何婷婷,朱薏,张勇,任函.基于词语属性的计算机辅助获取流行词语研究[J].中文信息学报,2006,20(6):38-45. 被引量：4
8孔晨妍,侯汉清.《中国图书馆分类法》类目更新途径之探讨[J].中国索引,2006,4(4):42-45.
9姜韶华,党延忠.自动提取含字母词语的领域新术语的研究[J].计算机工程,2007,33(2):47-49. 被引量：3
10孔晨妍,侯汉清.《中国图书馆分类法》类目更新途径之探讨[J].图书馆工作与研究,2007(1):22-25. 被引量：6

同被引文献124

1高永伟.近20年英语国家对新词的研究[J].外语与外语教学,1998(11):9-11. 被引量：16
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：85
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：60
4贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
5王东海.古文献数字语料库的异形字处理[J].语言文字应用,2005(4):116-120. 被引量：6
6刘希宋,杜春荣,王要武,满庆鹏.建设项目人力资源管理的绩效评价[J].哈尔滨工业大学学报,2006,38(3):436-438. 被引量：19
7崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
8施水才,俞鸿魁,吕学强,李渝勤.基于大规模语料的新词语识别方法[J].山东大学学报（理学版）,2006,41(3):89-91. 被引量：5
9刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
10任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22

引证文献17

1霍帅,张敏,刘奕群,马少平.基于微博内容的新词发现方法[J].模式识别与人工智能,2014,27(2):141-145. 被引量：25
2王琳琳.规则与统计相结合的中文新词识别研究[J].嘉兴学院学报,2014,26(6):124-130. 被引量：4
3唐波,陈光,王星雅,王非,陈小慧.微博新词发现及情感倾向判断分析[J].山东大学学报（理学版）,2015,50(1):20-25. 被引量：8
4郝晓玲,茅嘉惠,于秀艳.微博热词抽取及话题发现研究[J].情报杂志,2015,34(6):109-113. 被引量：12
5李文坤,张仰森,陈若愚.基于词内部结合度和边界自由度的新词发现[J].计算机应用研究,2015,32(8):2302-2304. 被引量：37
6雷一鸣,刘勇,霍华.面向网络语言基于微博语料的新词发现方法[J].计算机工程与设计,2017,38(3):789-794. 被引量：11
7符贤哲,刘胜全,刘艳,郭竹为,赵美玲.基于生存法则的稳定新词识别方法的研究[J].新疆大学学报（自然科学版）,2018,35(1):73-79. 被引量：1
8闻永毅,王治梅,杨婷.中医文献语料库自动分词中的新词发现研究[J].西部中医药,2018,31(9):71-74. 被引量：1
9李淑平.中文新词识别研究概述[J].科技资讯,2016,14(29):145-146.
10陈秋瑗,程光,李迪,张建.机械设计领域的命名实体识别研究[J].计算机工程与应用,2017,53(20):100-104. 被引量：6

二级引证文献101

1赵富平.大数据下高校财务预算精细化绩效评估方法研究[J].天水师范学院学报,2021,41(5):98-103. 被引量：3
2李利利,秦培巧,侯光耀.建设项目安全管理效率研究[J].江西建材,2023(6):387-388.
3何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
4王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7
5孙立远,周亚东,管晓宏.利用信息传播特性的中文网络新词发现方法[J].西安交通大学学报,2015,49(12):59-64. 被引量：5
6侯丽,李姣,侯震,陈松景.基于混合策略的公众健康领域新词识别方法研究[J].图书情报工作,2015,59(23):115-123. 被引量：2
7陈鑫,王素格,廖健.基于词语相关度的微博新情感词自动识别[J].计算机应用,2016,36(2):424-427. 被引量：5
8欧阳柳波,周伟光.基于位置标签与词性结合的组合词抽取方法[J].计算机应用研究,2016,33(4):1062-1065. 被引量：3
9牛萍,黄德根.TF-IDF与规则相结合的中文关键词自动抽取研究[J].小型微型计算机系统,2016,37(4):711-715. 被引量：36
10赵军,王红.融合情感极性和逻辑回归的虚假评论检测方法[J].智能系统学报,2016,11(3):336-342. 被引量：18

1其它通信设备及其技术[J].电子科技文摘,2001,0(12):75-76.
2宁飞,陈频.说话人识别的几种方法[J].电声技术,2001,25(12):9-14. 被引量：11
3编者语[J].音响世界,2004(7):1-1.
4罗静,汪敏.HFC网络计费管理的分析与研究[J].计算机工程,1999,25(8):97-98. 被引量：1
5刘琦,李耀芳,彭慧卿,崔军,刘宏伟.电子系统故障预测方法综述[J].天津城建大学学报,2016,22(4):298-301. 被引量：4
6杜晓东,舒明蕾,孟利民,华惊宇.基于QT的跨平台虚拟键盘设计与实现[J].微型机与应用,2015,34(17):18-20. 被引量：2
7罗杰.搜狗输入法在安卓迎升级实现无缝切换[J].计算机与网络,2015,41(23):35-35.
8马豪,张小林.基于未知信源数目改进DOA估计的研究[J].电子设计工程,2013,21(17):156-158.
9王仁华,倪晋富.从音联出发设计语音库语料[J].计算机应用与软件,1994,11(1):30-35. 被引量：1
10谢迎春.小波变换在说话人识别中的应用研究[J].武警工程学院学报,2009,25(2):11-15.

现代电子技术

2013年第2期

浏览历史

内容加载中请稍等...

博客语料的新词发现方法被引量：17

参考文献9

二级参考文献71

共引文献151

同被引文献124

引证文献17

二级引证文献101

相关作者

相关机构

相关主题

浏览历史

博客语料的新词发现方法 被引量：17

参考文献9

二级参考文献71

共引文献151

同被引文献124

引证文献17

二级引证文献101

相关作者

相关机构

相关主题

浏览历史

博客语料的新词发现方法被引量：17