期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于IKAnalyzer和Lucene的地理编码中文搜索引擎的研究与实现 被引量:11
1
作者 柴洁 《城市勘测》 2014年第6期45-50,共6页
为实现带有地址信息的属性数据的空间化,依据数据采集相关规范和标准,通过建立地址模型中地理实体的一一对应关系组建空间参照数据库,地理编码索引建立以及搜索都基于多元分词算法,因此研究采用IKAnalyzer中文分词术实现词库的建立,基于... 为实现带有地址信息的属性数据的空间化,依据数据采集相关规范和标准,通过建立地址模型中地理实体的一一对应关系组建空间参照数据库,地理编码索引建立以及搜索都基于多元分词算法,因此研究采用IKAnalyzer中文分词术实现词库的建立,基于Lucene开源框架开发出一套地理编码系统,进而实现了地理编码标准地址入库、地址匹配搜索引擎正向、逆向、分级搜索、模糊查询。 展开更多
关键词 地理编码 ikanalyzer LUCENE 分级搜索 模糊查询
在线阅读 下载PDF
基于IKAnalyzer及VSM的人大代表议案建议相似度计算 被引量:3
2
作者 郑翠仙 孙文强 +1 位作者 邓创兴 蒋廷耀 《信息通信》 2016年第8期48-50,共3页
提出议案建议是人大代表最重要的履职工作之一,人大代表提交议案建议前需要比对分析自己所拟定的议案建议与以往代表所提出的议案建议的重复性,以确定其合理性。文章采用IKAnalyzer分词器,基于向量空间模型进行文本相似度计算,构建了人... 提出议案建议是人大代表最重要的履职工作之一,人大代表提交议案建议前需要比对分析自己所拟定的议案建议与以往代表所提出的议案建议的重复性,以确定其合理性。文章采用IKAnalyzer分词器,基于向量空间模型进行文本相似度计算,构建了人大代表议案建议相似度计算系统,提出了提高系统性能的途径并进行了实验分析。 展开更多
关键词 议案建议 ikanalyzer 向量空间模型 相似度
在线阅读 下载PDF
基于KNN分类算法的主题网络爬虫 被引量:5
3
作者 李宏志 宋婕 《宜宾学院学报》 2017年第12期61-65,共5页
提出一种基于KNN算法进行主题分类的方法,研究了主题网络爬虫的系统结构和所涉及的关键技术,包括URL管理器、页面下载器、页面解析器、主题识别模块以及内容存储模块,重点介绍了基于KNN的分类器的主题相关度算法.使用IKAnalyzer实现网... 提出一种基于KNN算法进行主题分类的方法,研究了主题网络爬虫的系统结构和所涉及的关键技术,包括URL管理器、页面下载器、页面解析器、主题识别模块以及内容存储模块,重点介绍了基于KNN的分类器的主题相关度算法.使用IKAnalyzer实现网页内容的中文分词,通过TF-IDF算法实现网页内容的特征提取,并利用KNN分类器计算网页的主题相关度. 展开更多
关键词 主题爬虫 KNN分类算法 TF-IDF 主题相关度 ikanalyzer中文分词
在线阅读 下载PDF
基于Heritrix与Solr的就业主题搜索引擎的研究与优化 被引量:3
4
作者 郑燕娥 郑志明 《齐齐哈尔大学学报(自然科学版)》 2018年第4期13-20,共8页
随着信息化步伐的加快,网络求职越来越普及,通用搜索引擎以及招聘网也成为大学生获取就业信息的主要渠道。针对大多通用搜索引擎搜索的就业信息精准度不高以及招聘网站内容繁杂等问题,研究面向大学生的就业主题搜索引擎系统。借助Herit... 随着信息化步伐的加快,网络求职越来越普及,通用搜索引擎以及招聘网也成为大学生获取就业信息的主要渠道。针对大多通用搜索引擎搜索的就业信息精准度不高以及招聘网站内容繁杂等问题,研究面向大学生的就业主题搜索引擎系统。借助Heritrix爬虫工具以及Solr全文搜索引擎进行二次开发,并对Heritrix爬虫工具默认的爬取策略以及队列分配策略进行优化,同时引入IK Analyzer改进Solr的中文分词的准确率。系统原型测试结果表明,系统具有较好抓取效率以及查准率。 展开更多
关键词 就业主题 垂直搜索引擎 HERITRIX SOLR ikanalyzer
在线阅读 下载PDF
基于Lucene和协同过滤算法的知识推送
5
作者 肖巍 唐东凯 +1 位作者 孙境棋 刘泽豪 《长春工业大学学报》 CAS 2016年第5期503-506,共4页
将Lucene检索技术、IKAnalyzer分词器以及Tika文本提取技术相结合进行智能文件检索及分类。然后根据用户的检索结果对文件关键字进行权值设置,用户关注度越高,则关键字权值越大。使用协同过滤算法根据用户查找的内容对用户关注度高的文... 将Lucene检索技术、IKAnalyzer分词器以及Tika文本提取技术相结合进行智能文件检索及分类。然后根据用户的检索结果对文件关键字进行权值设置,用户关注度越高,则关键字权值越大。使用协同过滤算法根据用户查找的内容对用户关注度高的文件进行推送。 展开更多
关键词 LUCENE ikanalyzer Tika 协同过滤算法
在线阅读 下载PDF
分布式智能地质调查资料全文检索系统的设计与实现
6
作者 陈宇达 万勇泉 李莉 《国土资源导刊》 2014年第5期85-88,共4页
为了进一步提升地质资料社会化服务的能力和开拓地质资料信息服务的新途径,逐步打破地质资料档案级和文件级检索的局限性,本文提出并设计了综合运用IKAnalyzer、Lucene、Java RMI等技术的地质资料全文检索系统解决方案。通过实践表明,... 为了进一步提升地质资料社会化服务的能力和开拓地质资料信息服务的新途径,逐步打破地质资料档案级和文件级检索的局限性,本文提出并设计了综合运用IKAnalyzer、Lucene、Java RMI等技术的地质资料全文检索系统解决方案。通过实践表明,该系统可以有效地提升地质资料检索能力和用户体验,为地质资料的社会化服务提供了高效、快捷、简明、互动的服务平台。 展开更多
关键词 分布式 ikanalyzer 地质调查资料 全文检索系统
在线阅读 下载PDF
云计算平台上两种中文分词算法的实现对比研究 被引量:6
7
作者 周寅 龙广富 《电脑知识与技术》 2021年第9期191-192,共2页
现如今,常用的中文分词算法为IKAnalyzer(简称为:IK)和ICTCLAS(简称为:IC)两种,这两种算法也可以说是如今的主流中文分词算法,为了能够更好的研究两种算法的性能,本文首先利用理论对两种算法在单机环境下的性能进行分析,而后通过Hadoop... 现如今,常用的中文分词算法为IKAnalyzer(简称为:IK)和ICTCLAS(简称为:IC)两种,这两种算法也可以说是如今的主流中文分词算法,为了能够更好的研究两种算法的性能,本文首先利用理论对两种算法在单机环境下的性能进行分析,而后通过Hadoop分布式文件管理系统(简称为:HDFS)、Hadoop集群和并行处理大数据集的MapReduce所共同组成的系统框架,并将算法优化后,通过开展大量的实践性实验对两种不同算法在分布式环境下对大数据集进行处理后的表现进行比较,而后得出具体的分析结果,希望能够为相关人士带来帮助。 展开更多
关键词 云计算 ikanalyzer ICTCLAS HADOOP 比较
在线阅读 下载PDF
基于Hadoop的文本分析平台实践 被引量:1
8
作者 张吉亮 尹兰 《安顺学院学报》 2020年第1期132-136,共5页
分析大量的非结构化文本数据已经成为各类研究及数据分析中的重要任务。本文借助Hadoop分布式计算平台,搭建了一个基于IKAnalyzer开源工具的文本分析应用系统框架,系统基于Spring Boot架构进行了Web应用平台搭建,结合node.js技术构建了... 分析大量的非结构化文本数据已经成为各类研究及数据分析中的重要任务。本文借助Hadoop分布式计算平台,搭建了一个基于IKAnalyzer开源工具的文本分析应用系统框架,系统基于Spring Boot架构进行了Web应用平台搭建,结合node.js技术构建了数据驱动的Web前端UI呈现。研究实践了从文档收集、文档预处理、分布式计算、中文分词及词频分析、可视化呈现的初步流程。借助该系统平台,研究分别以金庸小说文本数据及采集的贵州省极贫乡镇教育基础数据作为语料数据进行了相关文本统计分析实践。 展开更多
关键词 HADOOP ikanalyzer Srping BOOT node.js 中文信息处理
在线阅读 下载PDF
使用Lucene技术实现桌面批量文件搜索引擎
9
作者 赵春霞 《软件工程师》 2010年第10期51-53,共3页
本文在充分实验的基础上,利用Lucene技术实现了桌面批量文件全文搜索引擎,并通过检测词库工具显示Lucene索引数据,阐述了全文搜索的工作原理。
关键词 全文搜索 LUCENE IKAnalyze
在线阅读 下载PDF
两种中文分词算法在云计算平台上的实现及比较 被引量:5
10
作者 孟帮杰 王占刚 《网络安全技术与应用》 2014年第12期67-67,71,共2页
当前IKAnalyzer(IK)和ICTCLAS(IC)是主流的中文分词算法。文中首先通过理论对比二者在单机环境下的性能,然后使用Hadoop集群、Hadoop分布式文件管理系统(HDFS)和并行处理大数据集的Map Reduce组成的框架,利用优化后的算法,通过大量的实... 当前IKAnalyzer(IK)和ICTCLAS(IC)是主流的中文分词算法。文中首先通过理论对比二者在单机环境下的性能,然后使用Hadoop集群、Hadoop分布式文件管理系统(HDFS)和并行处理大数据集的Map Reduce组成的框架,利用优化后的算法,通过大量的实验对二者在分布式环境下处理大数据集的表现做出比较。 展开更多
关键词 ikanalyzer 倒置排序 HDFS MAP REDUCE HADOOP
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部