因特网经济学未登录词计算机辅助挖掘试验被引量：2

A Computer-Aided Mining Test for Unlisted Words on Economic Webs

下载PDF

导出

摘要近年来随着社会经济科技和因特网的迅速发展,文献中不断涌现出大量未登录词。未登录词的存在严重影响了汉语自动分词与自动标引的准确率和速率。本文对1000篇经济类网页的关键部位———题名、摘要、关键词、首段进行未登录词挖掘试验,侧重对未登录词挖掘步骤设计和处理方法的讨论。 In recent years, with the rapid development of social economy, scientific technology and the Internet, a lot of unlisted words appear on economic Webs. The existence of unlisted words seriously affects the accuracy and speed of automatic segmentation of Chinese words. This paper conducts a mining test for unlisted words in the key part of 1000 homepages of economic Webs, that is, rifles, abstracts, keywords and first paragraphs with the emphasis on the design of the mining steps and the processing approaches.

作者罗宇辉侯汉清

机构地区南京农业大学工学院南京农业大学信息管理系

出处《情报理论与实践》 CSSCI 北大核心 2005年第5期478-481,共4页 Information Studies:Theory & Application

关键词经济学数据挖掘自动标引/关键词词典未登录词因特网计算机辅助登录挖掘试验汉语自动分词 economics data mining automatic indexing / keyword dictionary unlisted words

分类号 G354 [文化科学—情报学]

引文网络
相关文献

参考文献1

1吕雅娟,赵铁军,杨沐昀,于浩,李生.基于分解与动态规划策略的汉语未登录词识别[J].中文信息学报,2001,15(1):28-33. 被引量：43

二级参考文献1

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：88

共引文献42

1周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
2张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
3王源媛,何中市.基于词性探测的中文姓名识别算法[J].计算机科学,2005,32(4):84-86. 被引量：2
4黄德根,孙迎红.中文地名的自动识别[J].计算机工程,2006,32(3):220-222. 被引量：10
5蔡勇智.未登录词识别算法的改进[J].福建电脑,2006,22(3):116-117. 被引量：4
6谈文蓉.汉英机器翻译系统中统计消歧的多步策略[J].西南民族大学学报（自然科学版）,2006,32(1):191-194.
7俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：168
8周波,杨国纬.基于贝叶斯算法的中国人名识别[J].计算机应用,2006,26(4):998-1000. 被引量：12
9蒋宏飞,杨沐昀,赵铁军.面向奥运的汉英RBMT与EBMT研究[J].中文信息学报,2006,20(B03):71-74. 被引量：1
10高红,黄德根,杨元生.中文文本中外国人名与中国人名同步识别方法[J].小型微型计算机系统,2006,27(4):715-719. 被引量：1

同被引文献22

1张琪玉.图书索引软件的功能要求与编制难题[J].中国索引,2004,2(3):41-41. 被引量：10
2周柏康.对书后索引现状的一次调查[J].中国索引,2004,2(4):13-15. 被引量：22
3纪晓萍.我国书后索引的现状调查与分析[J].图书馆建设,1994(5):41-43. 被引量：14
4周柏康.关于书后索引现状的几点思考[J].中国索引,2005,3(2):2-4. 被引量：9
5张民,李生,赵铁军.大规模汉语语料库中任意n的n-gram统计算法及知识获取方法[J].情报学报,1997,16(1):28-35. 被引量：4
6Information studies.[2004-11-29].http://informationstudies.blogchina.com/.
7Brown M K.Kellner A,RaggeR D.Stochastic language models (N-Gram)specification.[2007-04-10].http://www.w3.org/TR/2001,WD-ngram-spec-20010103/.
8Brown P E,Vincent J,Pietra D.Class-based n-gram models of natural language.Computational Linguistics,1992,18(4):467-479.
9曹艳,刘竟,侯汉清.基于词表和N-gram算法的新词识别实验.未刊稿
10侯汉清.索引法教程.南京:南京农业大学,1993:10-16

引证文献2

1曾艳,侯汉清.古籍文本抽词研究[J].图书情报工作,2008,52(1):132-135. 被引量：10
2潘雪莲,侯汉清,许扬威.图书内容主题索引的自动编制实验[J].大学图书馆学报,2008,26(3):28-33. 被引量：7

二级引证文献17

1吴慰慈,谷秀洁.2008年国内图书馆学学术进展[J].图书馆论坛,2009,29(6):19-24. 被引量：2
2赵阳,顾磊.基于中文信息处理的古籍整理研究评述[J].图书情报工作,2010,54(3):116-119. 被引量：8
3丁玉玲,夏侯炳.1979—2008年我国图书内容索引的研究综述[J].大学图书馆学报,2010,28(1):80-85. 被引量：7
4黄建年,侯汉清.中国古籍文本分词的一次试验[J].情报学报,2011,30(6):618-625. 被引量：6
5黄建年.汉文古籍索引自动化实践与研究概述[J].佛山科学技术学院学报（社会科学版）,2011,29(6):50-56. 被引量：5
6李洁,肖东发.浅析学术著作的脚注与书后索引[J].出版广角,2015(3):22-24. 被引量：4
7鲍国海.学术著作书后索引质量控制刍议——兼评《中国近代疾病社会史(1912-1937)〈人名索引〉》[J].中国索引,2015,13(4):34-36. 被引量：1
8顾磊,赵阳.古籍智能整理研究现状及存在的问题[J].图书馆学研究,2016(9):54-58. 被引量：5
9张淑文.编辑视角的学术专著书后主题索引编制浅谈[J].编辑之友,2018(8):90-94. 被引量：3
10李筱瑜.基于新词发现与词典信息的古籍文本分词研究[J].软件导刊,2019,18(4):60-63. 被引量：6

1物联网:“两化”融合的强大推手[J].军民两用技术与产品,2011(2):16-17.
2于淼,王延章,刘继山.信息系统业务规则的设计模式[J].计算机工程,2004,30(6):27-28. 被引量：11
3吴新垣.从数据挖掘到知识发现[J].舰船电子工程,2001,21(2):31-34. 被引量：6
4况莉莉.Apriori算法与FP-tree算法的探讨[J].淮北煤炭师范学院学报（自然科学版）,2010,31(2):44-49. 被引量：6
5张春华,孙国春.关联规则挖掘算法研究与实现[J].电脑编程技巧与维护,2009(S1).
6杨道衡.数据挖掘与数据挖掘服务实现研究[J].现代商贸工业,2010,22(17):357-357. 被引量：1
7张睿.浅论数据挖掘技术及其应用[J].成功,2009(10):287-287. 被引量：1
8余昀.关联规则数据挖掘技术探讨[J].软件导刊,2007,6(8):19-20.
9王懿.论数据挖掘技术在信息分析中的应用[J].科技情报开发与经济,2009,19(10):79-80. 被引量：3
10金玲,刘晓丽,王妍,张岚.关联规则数据挖掘方法的研究[J].科学与财富,2015,7(22):24-24. 被引量：1

情报理论与实践

2005年第5期

浏览历史

内容加载中请稍等...

因特网经济学未登录词计算机辅助挖掘试验被引量：2

参考文献1

二级参考文献1

共引文献42

同被引文献22

引证文献2

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

因特网经济学未登录词计算机辅助挖掘试验 被引量：2

参考文献1

二级参考文献1

共引文献42

同被引文献22

引证文献2

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

因特网经济学未登录词计算机辅助挖掘试验被引量：2