中文信息检索引擎中的分词与检索技术被引量：48

Word Segment and Search Techniques for Chinese Information Search Engines

下载PDF

导出

摘要文中论述了在开发中文信息检索系统中所涉及到的两项关键技术 ,即中文分词技术和检索技术。针对中文分词技术 ,介绍了一种改进的正向最大匹配切分算法 ,以及为消除歧义引入的校正策略 ,并在此基础上结合统计方法处理未登录词。针对检索技术 ,综述了几种最常用的检索模型的原理 ,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试。 Two key techniques in the development of Chinese Information Retrieval System are discussed in this paper, i.e., Chinese word segmentation and search technique. For Chinese word segmentation, the paper presents an improved MM segmentation algorithm, the revise strategy for disambiguation, and the statistic method for unknown words recognition based on the previous methods. For search technique, the paper summarizes the principle of several kinds of search models, and analyzes the advantages and disadvantages of each model simply. At last, the given segmentation algorithm is evaluated, and the results reveal that the veracity and efficiency of the algorithm can satisfy the applied request.

作者吴栋滕育平

机构地区南开大学组合数学研究中心核心数学与组合数学教育部重点实验室

出处《计算机应用》 CSCD 北大核心 2004年第7期128-131,共4页 journal of Computer Applications

关键词信息检索搜索引擎分词技术检索技术 information retrieval search engine word segmentation search technique

分类号 TP317.2 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1Salton G, Wong A, Yang CS. On the specification of term values in automatic indexing[ J]. Journal of Documentation, 1973, 29 (4):351 - 372.
2严威,赵政.开发中文搜索引擎汉语处理的关键技术[J].计算机工程,1999,25(6):5-6. 被引量：24
3姚天顺朱靖波.自然语言理解[M](第2版)[M].北京:清华大学出版社,2002..
4MitchellTM著曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003..

二级参考文献6

1江志军.用JAVA实现Internet中文搜索引擎：硕士学位论文[M].天津:天津大学,1998..
2王永成.中文信息处理技术及其应用基础[M].上海:上海交通大学出版社,1992..
3张晓辉，小型微型计算机系统，1998年
4江志军，硕士学位论文，1998年
5王永成，中文信息处理技术及其应用基础，1992年
6张晓辉,邵华,常桂然.WWW上的信息发现与搜索引擎技术[J].小型微型计算机系统,1998,19(6):66-71. 被引量：39

共引文献67

1高楚舒,丁于思.因特网中文文本信息分析[J].合肥工业大学学报（自然科学版）,2001,24(z1):751-754.
2张峡,黄团华,赵晓岩.基于遗传算法进行加速器自动调束[J].强激光与粒子束,2004,16(9):1222-1224. 被引量：4
3谭浩,贾自艳,史忠植.新闻专题的高效组织和生成新方法[J].科技导报,2004,22(7):48-51.
4张辉,张浩,徐征,陆剑峰.基于支持向量机的供应链伙伴企业选择方法的研究[J].计算机集成制造系统,2004,10(7):796-800. 被引量：10
5余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].中山大学学报（自然科学版）,2004,43(5):118-120. 被引量：24
6孙微微,刘才兴,田绪红.训练集容量对决策树分类错误率的影响研究[J].计算机工程与应用,2005,41(10):159-161. 被引量：6
7巨同升.机器学习在汉字智能拼音输入中的应用[J].山东理工大学学报（自然科学版）,2005,19(3):86-88. 被引量：1
8杨金辉,易中华,王煦法.一种基于Straight的语音焦点合成方法[J].计算机工程,2005,31(13):46-47. 被引量：3
9黄健聪,万海,郝小卫,李磊.用近邻算法预测通信量时间序列[J].计算机科学,2005,32(7):31-33. 被引量：3
10杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21

同被引文献240

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2闫宏飞,陈翀.词汇与中心词的距离信息对问句相似度匹配的影响[J].清华大学学报（自然科学版）,2005,45(S1):1873-1877. 被引量：8
3马哲,姚敏.一种改进的基于PATRICIA树的汉语自动分词词典机制[J].华南理工大学学报（自然科学版）,2004,32(z1):28-31. 被引量：3
4张智雄,吴振新,赵琦,洪娜,徐健,刘建华.非结构化文本中内容对象抽取的技术方法综述[J].数字图书馆论坛,2008(9):1-12. 被引量：1
5金芳.浅谈信息检索与信息检索技术[J].晋图学刊,2001(3):22-24. 被引量：8
6顾炳中.国土资源部机关办公自动化系统建设要点[J].国土资源信息化,2012(3):3-6. 被引量：4
7徐锐.浅谈办公自动化与电子文档管理[J].黑龙江史志,2012(13):23-24. 被引量：3
8康桂英,刘春平.新一代中文智能搜索引擎研究[J].东南大学学报（哲学社会科学版）,2002,4(S1):59-62. 被引量：9
9商务印书馆今年计划出版的哲学译著[J].哲学研究,1959(2):47-47. 被引量：285
10唐培和,杨新伦,刘浩.Google搜索引擎及其实现技术[J].广西工学院学报,2004,15(2):29-33. 被引量：4

引证文献48

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2毛姝洁,张雪虎.基于兴趣点简称的检索方法研究[J].太原理工大学学报,2008,39(S1):52-55. 被引量：1
3田俊华.基于自然语言提问的自动答疑系统设计[J].现代远程教育研究,2005,17(1):48-51. 被引量：10
4邵晶,党海峰,白慧先,郑庆华.OPAC与网络教育资源共享集成方案的研究[J].现代图书情报技术,2005(5):64-67. 被引量：3
5邵晶,党海峰,白慧先,郑庆华.OPAC资源与网络教育资源共享集成关键技术研究[J].大学图书馆学报,2005,23(3):41-44. 被引量：3
6苏新宁,王振义.从CSSCI看大学出版社在社会科学研究领域的学术影响[J].大学图书馆学报,2005,23(3):70-73. 被引量：8
7谢春发.中文智能搜索引擎的研究与探讨[J].河北广播电视大学学报,2005,10(4):17-19. 被引量：2
8蔡勇智.基于最大匹配分词算法的中文词语粗分模型[J].福建电脑,2005,21(9):39-40. 被引量：2
9田甜.文档自动分类的方法探讨[J].情报杂志,2006,25(2):77-78. 被引量：1
10郭一平,向晖,王亮.基于Lucene的Ftp搜索引擎的设计[J].图书情报工作,2006,50(4):122-125. 被引量：3

二级引证文献148

1赵旭,陈肖飞.基于Web的高校FTP搜索引擎的技术研究[J].电脑知识与技术（过刊）,2007(22):966-967. 被引量：1
2叶施仁,严水歌,杨长春.新浪微博搜索排序方法研究[J].常州大学学报（自然科学版）,2013,25(3):71-75.
3许君,王朝坤,李瑞,王建民,刘璋.基于内容的分布式FTP搜索引擎的设计与实现[J].计算机研究与发展,2011,48(S3):430-434. 被引量：5
4张玉红,王华,蒋一峰,黄少林.基于知识库系统的中文智能搜索引擎[J].计算机应用,2008,28(S2):61-64. 被引量：2
5陈小茵.基于自然语言的自动答疑系统设计[J].南京广播电视大学学报,2005(4):85-87. 被引量：1
6蔡勇智.未登录词识别算法的改进[J].福建电脑,2006,22(3):116-117. 被引量：4
7何华连.全文期刊库缺收核心期刊现状论析[J].大学图书馆学报,2006,24(4):61-65. 被引量：13
8赵宪章,苏新宁.基于CSSCI的中国文学研究主题词分析(二○○○——二○○四)[J].当代作家评论,2006(6):113-120. 被引量：3
9方宝花.我国全文期刊库收录文科核心期刊的完整性研究[J].中国图书馆学报,2006,32(6):53-56. 被引量：6
10金欣,钟元生.移动答疑模式的作用及其构建问题探讨[J].中国教育技术装备,2006(12):33-35. 被引量：1

1孟维娟.自然语言处理中的歧义[J].上海电机学院学报,2006,9(S1):16-19. 被引量：2
2冯柳平.机器翻译中的歧义性问题[J].桂林电子工业学院学报,1998,18(4):43-46.
3林文,林祖增.一种文本输入时语义标注系统的实现[J].福建电脑,2017,33(2):154-155.
4段培永,张玫,段晨旭,邵惠鹤.基于超闭球小脑模型的系统建模及其校正[J].上海交通大学学报,2005,39(8):1336-1340.
5王丽辉,汤健彬,余世明.克服广义预测控制模型参数失配的PID反馈校正策略[J].浙江工业大学学报,2005,33(3):265-267. 被引量：10
6周继雄.面向对象的数据库模式的动态改变[J].武汉交通科技大学学报,1998,22(3):251-254. 被引量：1
7李翠翠,樊基仓,付潇华,樊辉.复杂地形山区Landsat TM影像C校正策略与实验[J].地球信息科学学报,2014,16(1):134-141. 被引量：4
8朱新维.一种消除混合歧义的新方法[J].时代报告（学术版）,2011(11X):361-361.
9李志,王琰,杨大为.一种基于匹配强度的特征点匹配消除歧义算法[J].沈阳理工大学学报,2008,27(5):46-49. 被引量：2
10杨光,刘秉权,刘铭.基于图方法的命名实体消歧[J].智能计算机与应用,2015,5(5):52-55. 被引量：7

计算机应用

2004年第7期

浏览历史

内容加载中请稍等...

中文信息检索引擎中的分词与检索技术被引量：48

参考文献4

二级参考文献6

共引文献67

同被引文献240

引证文献48

二级引证文献148

相关作者

相关机构

相关主题

浏览历史

中文信息检索引擎中的分词与检索技术 被引量：48

参考文献4

二级参考文献6

共引文献67

同被引文献240

引证文献48

二级引证文献148

相关作者

相关机构

相关主题

浏览历史

中文信息检索引擎中的分词与检索技术被引量：48