题名 PDF文件中关键信息的提取与组织方法研究
被引量:12
1
作者
陈云榕
刘立柱
丁志鸿
机构
解放军信息工程大学信息工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2007年第7期1688-1690,共3页
文摘
在PDF的各种应用中,对于文档的理解与处理是非常重要的。首先要从文档中提取相关的关键词和短语,以便于在文档内部或外部建立超链接,方便建立电子文档。因此提出了一种新的方法,将关键信息(关键性的单词、词组或区域)从PDF文件中提取出来,经过组织后,保存在称为KIU的文件中,这样可以在实际上不接触PDF文件的情况下,自动生成超链接。分区域的方法有利于提取过程,找到文本的位置和范围后,可以借助于光学字符识别(OCR)软件来提取文本中的关键性词语或词组。
关键词
pdf 文件
关键信息
文本提取
标准通用置标语言
超链接
Keywords
pdf file s
key information
text extracting
SGML
hyperlinking
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 PDF文件信息的抽取与分析
被引量:21
2
作者
李珍
田学东
机构
河北大学数学与计算机学院
出处
《计算机应用》
CSCD
北大核心
2003年第12期145-147,共3页
基金
河北省自然科学基金项目 (6 0 2 1 2 7)
文摘
PDF文件网络信息抽取的重要资源。通过对PDF文件结构的分析,针对最流行的线性PDF文件,在论述如何从源代码中取出正文内容字符串流并进行解码的基础上,对从解码后的字符串流中提取出文本及其相关的字体、字号和换行等文本信息进行了详细的讨论。这将有助于根据需要进一步抽取PDF文件信息。
关键词
信息抽取
pdf 文件
文本信息分析
Keywords
information extraction
pdf file
analysis of text information
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
题名 方正书版大样转双层PDF文件的实现方法
被引量:7
3
作者
艾红
徐泽智
章丽萍
机构
中国水产科学研究院南海水产研究所
出处
《武汉理工大学学报(信息与管理工程版)》
CAS
2011年第2期214-216,235,共4页
基金
中央级公益性科研院所基本科研业务费专项资金资助项目(2010TS06)
文摘
概述了方正书版大样转PDF文件方法的优缺点。根据科技期刊开放存取以及复制、检索的需要,提出一种用ps22pdf、Foxit PDF Editor等软件实现方正大样转双层PDF文件的新方法,所生成的PDF文件具有精确重现原文、能复制原文本和全文检索等功能,为科技期刊的开放存取提供了一种新的实现手段。
关键词
方正书版大样
双层pdf 文件
文本型pdf
图像型pdf
Keywords
Founder proofreading file
double-layer pdf file
text -based pdf
image-based pdf
分类号
G237.6
[文化科学]
题名 利用PDF虚拟打印机快速处理科技期刊插图
被引量:10
4
作者
熊水斌
机构
河海大学期刊部
出处
《编辑学报》
CSSCI
北大核心
2011年第2期166-168,共3页
文摘
为高质量地将作者提供的插图转换为科技期刊排版系统(方正书版)支持的格式,利用PDF虚拟打印机,将插图转换为PDF文档,再在Photoshop中读取PDF文档,将插图转换为tif等方正排版系统支持的图形格式,从而实现基于Photo-shop的科技期刊插图处理,满足科技期刊高质量图文混排的要求。
关键词
虚拟打印机
pdf 文档
插图
方正书版
科技期刊
Keywords
virtual pdf printer
pdf text file
illustration
Founder Bookmaker
sci-tech periodical
分类号
G232.2
[文化科学]
题名 PDF文件文本内容提取研究
被引量:16
5
作者
张秀秀
张立峰
机构
中科院图书馆兰州分馆
兰州交通大学数理与软件工程学院
出处
《科技情报开发与经济》
2008年第36期118-120,共3页
基金
中国科学院知识创新工程青年人才领域前沿项目"元数据自动抽取工具在数字知识库建设中的应用研究与开发"的研究成果之一
文摘
介绍了PDF的文件结构,在此基础上,给出了PDF文件的解析流程,以及从解析后的内容流中提取文本内容的方法。
关键词
pdf
文件解析
文本提取
Keywords
pdf
file parsing
text extraction
分类号
G250.73
[文化科学—图书馆学]
题名 把PDF文档应用于电子排版领域
被引量:4
6
作者
于晓燕
机构
黑龙江省科学院自动化研究所
出处
《自动化技术与应用》
2005年第3期54-55,共2页
文摘
本文描述了怎样把PDF文档应用于电子排版系统中 ,然后讨论了把电子排版系统中的文字、图象转化为PDF文档的几种方法 ,同时介绍了其中常用软件的制作方法。
关键词
pdf 文档
电子排版系统
Keywords
pdf text file
The electronic composing system
分类号
TP317
[自动化与计算机技术—计算机软件与理论]