期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
PDF文件中关键信息的提取与组织方法研究 被引量:12
1
作者 陈云榕 刘立柱 丁志鸿 《计算机工程与设计》 CSCD 北大核心 2007年第7期1688-1690,共3页
在PDF的各种应用中,对于文档的理解与处理是非常重要的。首先要从文档中提取相关的关键词和短语,以便于在文档内部或外部建立超链接,方便建立电子文档。因此提出了一种新的方法,将关键信息(关键性的单词、词组或区域)从PDF文件中提取出... 在PDF的各种应用中,对于文档的理解与处理是非常重要的。首先要从文档中提取相关的关键词和短语,以便于在文档内部或外部建立超链接,方便建立电子文档。因此提出了一种新的方法,将关键信息(关键性的单词、词组或区域)从PDF文件中提取出来,经过组织后,保存在称为KIU的文件中,这样可以在实际上不接触PDF文件的情况下,自动生成超链接。分区域的方法有利于提取过程,找到文本的位置和范围后,可以借助于光学字符识别(OCR)软件来提取文本中的关键性词语或词组。 展开更多
关键词 pdf文件 关键信息 文本提取 标准通用置标语言 超链接
在线阅读 下载PDF
PDF文件信息的抽取与分析 被引量:21
2
作者 李珍 田学东 《计算机应用》 CSCD 北大核心 2003年第12期145-147,共3页
PDF文件网络信息抽取的重要资源。通过对PDF文件结构的分析,针对最流行的线性PDF文件,在论述如何从源代码中取出正文内容字符串流并进行解码的基础上,对从解码后的字符串流中提取出文本及其相关的字体、字号和换行等文本信息进行了详细... PDF文件网络信息抽取的重要资源。通过对PDF文件结构的分析,针对最流行的线性PDF文件,在论述如何从源代码中取出正文内容字符串流并进行解码的基础上,对从解码后的字符串流中提取出文本及其相关的字体、字号和换行等文本信息进行了详细的讨论。这将有助于根据需要进一步抽取PDF文件信息。 展开更多
关键词 信息抽取 pdf文件 文本信息分析
在线阅读 下载PDF
方正书版大样转双层PDF文件的实现方法 被引量:7
3
作者 艾红 徐泽智 章丽萍 《武汉理工大学学报(信息与管理工程版)》 CAS 2011年第2期214-216,235,共4页
概述了方正书版大样转PDF文件方法的优缺点。根据科技期刊开放存取以及复制、检索的需要,提出一种用ps22pdf、Foxit PDF Editor等软件实现方正大样转双层PDF文件的新方法,所生成的PDF文件具有精确重现原文、能复制原文本和全文检索等功... 概述了方正书版大样转PDF文件方法的优缺点。根据科技期刊开放存取以及复制、检索的需要,提出一种用ps22pdf、Foxit PDF Editor等软件实现方正大样转双层PDF文件的新方法,所生成的PDF文件具有精确重现原文、能复制原文本和全文检索等功能,为科技期刊的开放存取提供了一种新的实现手段。 展开更多
关键词 方正书版大样 双层pdf文件 文本型pdf 图像型pdf
在线阅读 下载PDF
利用PDF虚拟打印机快速处理科技期刊插图 被引量:10
4
作者 熊水斌 《编辑学报》 CSSCI 北大核心 2011年第2期166-168,共3页
为高质量地将作者提供的插图转换为科技期刊排版系统(方正书版)支持的格式,利用PDF虚拟打印机,将插图转换为PDF文档,再在Photoshop中读取PDF文档,将插图转换为tif等方正排版系统支持的图形格式,从而实现基于Photo-shop的科技期刊插图处... 为高质量地将作者提供的插图转换为科技期刊排版系统(方正书版)支持的格式,利用PDF虚拟打印机,将插图转换为PDF文档,再在Photoshop中读取PDF文档,将插图转换为tif等方正排版系统支持的图形格式,从而实现基于Photo-shop的科技期刊插图处理,满足科技期刊高质量图文混排的要求。 展开更多
关键词 虚拟打印机 pdf文档 插图 方正书版 科技期刊
原文传递
PDF文件文本内容提取研究 被引量:16
5
作者 张秀秀 张立峰 《科技情报开发与经济》 2008年第36期118-120,共3页
介绍了PDF的文件结构,在此基础上,给出了PDF文件的解析流程,以及从解析后的内容流中提取文本内容的方法。
关键词 pdf 文件解析 文本提取
在线阅读 下载PDF
把PDF文档应用于电子排版领域 被引量:4
6
作者 于晓燕 《自动化技术与应用》 2005年第3期54-55,共2页
本文描述了怎样把PDF文档应用于电子排版系统中 ,然后讨论了把电子排版系统中的文字、图象转化为PDF文档的几种方法 ,同时介绍了其中常用软件的制作方法。
关键词 pdf文档 电子排版系统
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部