Lucene文本分析器的改进

Improvement on Lucene text analyzer

下载PDF

导出

摘要针对Lucene默认只能分析并索引HTML和TXT文档的缺点。通过引入PDFBox和POI等开源工具实现对DOC、XLS、PPT和PDF等文档的文本抽取,然后利用Lucene索引这些提取出来的文本,将文本和文档其它信息添加到Lucene的Document对象。从而使Lucene可以分析并索引DOC、XLS、PPT和PDF等格式的文档,实验结果表明通过改进Lucene文本分析器可以极大提高Lucene检索的通用性。 This paper aims at the shortcomings of Lucene only analyzing and indexing HTML and TXT documents.It extracts the text from XLS,PPT,Doc and PDF documents by using open source tools such as POI and PDFBox.Then it indexes these extracted text with Lucene and encapsulate these information to Lucene Document object.So Lucene can analyze and index Doc,XLS,PPT and PDF documents.The experimental results show that it can greatly enhance retrieval adaptability by improving Lucene text parser.

作者吴代文

机构地区渭南师范学院传媒工程系

出处《信息技术》 2011年第10期62-64,共3页 Information Technology

基金教育部特色专业建设点项目(TS11772) 数字媒体艺术专业"技术-艺术"培养体系的研究与实践项目(09BY64)

关键词全文检索文本分析抽取封装 full-text retrieval text analyzing extract encapsulation

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1励子闰,余青松,陈胜东.基于全文检索引擎的信息检索技术的应用研究[J].计算机与数字工程,2008,36(9):81-85. 被引量：8
2吴代文,郭军军.基于Lucene站内全文检索系统的设计与实现[J].现代电子技术,2011,34(6):42-44. 被引量：4
3何琳,张振贵,黄水清.基于Lucene的OA资源全文检索系统的设计与实现[J].现代图书情报技术,2009(11):44-48. 被引量：7
4朱岸青,黄杰.基于Lucene的全文检索系统模型的研究和开发[J].暨南大学学报（自然科学与医学版）,2009,30(5):504-508. 被引量：4
5何伟,薛素静,孔梦荣,杨正党.基于Lucene的全文搜索引擎的设计与实现[J].情报杂志,2006,25(9):88-90. 被引量：12
6文永革,胡国芳,彭声泽.基于Lucene的图书全文检索应用研究[J].绵阳师范学院学报,2010,29(11):88-92. 被引量：1

二级参考文献38

1余丹.关于查全率和查准率的新认识[J].西南民族大学学报（人文社会科学版）,2009,30(2):283-285. 被引量：16
2陈士杰,张玥杰.基于Lucene的英汉跨语言信息检索[J].计算机工程,2005,31(13):62-64. 被引量：13
3郑永田,全万.数字图书馆信息资源建设研究[J].图书馆学刊,2005,27(4):60-62. 被引量：26
4郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量：68
5常娥,侯汉清.平均检准率研究[J].情报科学,2006,24(4):627-631. 被引量：6
6彭曙蓉,蔡蕾,王耀南.基于近似网页聚类的智能搜索系统[J].微计算机信息,2006,22(04X):283-285. 被引量：4
7靖培栋,宋雯斐.中文全文检索系统截词检索的实现研究[J].情报科学,2006,24(6):884-887. 被引量：4
8孔伯煊,李祥.基于Lucene\XML技术的Web搜索引擎设计与实现[J].航空计算技术,2006,36(4):5-8. 被引量：6
9潘琳.OA期刊的来源、分布与质量分析研究[J].图书馆理论与实践,2007(1):51-53. 被引量：12
10初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14

共引文献28

1吴代文.基于Lucene二次全文检索系统的设计与实现[J].微型电脑应用,2011(8):39-41. 被引量：1
2栾静,李军锋.基于Lucene全文检索引擎的应用研究[J].计算机与数字工程,2010,38(12):184-186. 被引量：5
3夏立新,王忠义.基于XML的全文检索原型系统的设计与实现[J].现代图书情报技术,2007(8):67-70. 被引量：9
4孙虞禄,万旻,马庆贤.在计量管理中实现全文检索[J].计测技术,2007,27(6):43-47. 被引量：1
5宋佳,诸云强,刘润达.一种基于Lucene改进的全文检索工具包[J].计算机工程与应用,2008,44(4):172-175. 被引量：15
6吴佩韦,李昌华.一种基于Lucene的搜索推荐词生成方法[J].电脑知识与技术,2009,5(4):2612-2613. 被引量：1
7周锦程,王丹.基于Lucene的全文搜索引擎研究与应用[J].黔南民族师范学院学报,2009,29(3):7-12. 被引量：4
8陈龙得,田青.基于CLucene和TinyXml的全文检索系统研究与实现[J].计算机与现代化,2009(9):187-190. 被引量：2
9李明宙,罗艳,王宗义.Lucene全文检索引擎的结构机制与应用方式[J].广西科学院学报,2010,26(4):433-435. 被引量：2
10王莹莹,任贤,龙鹏飞.中文短语文本相似度计算新方法[J].软件导刊,2011,10(1):79-81. 被引量：2

1文家朝,杨鸿章.针对PDF的多文件信息抽取的研究与实现[J].凯里学院学报,2016,34(3):95-97. 被引量：1
2龙珑,邓伟,覃晓.绿色网络PDF提取系统[J].计算机技术与发展,2014,24(1):204-207. 被引量：1
3米粒.通过QQ阅读分享书籍[J].电脑迷,2015,0(9):83-83.
4顾军林.基于Lucene索引的设计资源图像检索系统[J].现代商贸工业,2015,36(27):265-266.
5马红春.Visual Basic中Word.Document对象的高级应用[J].四川职业技术学院学报,2005,15(3):109-111.
6阿呆.全文阅读小说一次看个够[J].电脑迷,2010(14):18-18.
7一天一点爱恋.批量TXT文档巧转图片[J].电脑迷,2007,0(21):75-75.
8在TXT中直接插入另一文档[J].电脑爱好者,2013(4):45-45.
9林达.TXT编辑也能吃“后悔药”[J].电脑爱好者,2012(19):38-38.
10鼠标右键菜单清理四招[J].计算机与网络,2011,37(18):31-31.

信息技术

2011年第10期

浏览历史

内容加载中请稍等...

Lucene文本分析器的改进

参考文献6

二级参考文献38

共引文献28

相关作者

相关机构

相关主题

浏览历史