PDF格式在电子学术文献出版发行领域占有极其重要的地位,但因其复杂的技术规则,使得PDF无法直接被机器阅读,给针对学术文献的研究工作造成了诸多不便。本文提出了一种基于机器视觉的PDF文档结构识别方法,该方法针对常见的PDF学术论文,将...PDF格式在电子学术文献出版发行领域占有极其重要的地位,但因其复杂的技术规则,使得PDF无法直接被机器阅读,给针对学术文献的研究工作造成了诸多不便。本文提出了一种基于机器视觉的PDF文档结构识别方法,该方法针对常见的PDF学术论文,将PDF文件中的视觉对象和文本对象进行映射,获得内容对象的几何属性和文本属性,并辅以启发式算法对内容对象进行类型判断,得到PDF文档的物理结构和逻辑结构。该方法以直观的方式克服了其他PDF解析方法需要大量人工特征构建或大规模语料训练、难以识别公式表格等缺点,并成功地对ACL (Association for Computational Linguistics)的论文集进行了结构识别和全文抽取。展开更多
部分B/S信息管理系统中需要在线打印申请书、任务书等类型的多字段复杂报表。针对此类应用需求,在对开源组件i Text Sharp进行充分研究的基础上,提出了一种.NET Framework 3.5和Visual Studio 2008环境下从PDF表单模板文件制作到PDF报...部分B/S信息管理系统中需要在线打印申请书、任务书等类型的多字段复杂报表。针对此类应用需求,在对开源组件i Text Sharp进行充分研究的基础上,提出了一种.NET Framework 3.5和Visual Studio 2008环境下从PDF表单模板文件制作到PDF报表文件生成和打印的通用方法。对生成的PDF文件中的单元格进行格式控制,实现内容文本按表单宽度和高度自适应大小,并通过添加水印、二维码和文档加密等手段保证用户提交的信息的一致性和安全性。展开更多
文摘PDF格式在电子学术文献出版发行领域占有极其重要的地位,但因其复杂的技术规则,使得PDF无法直接被机器阅读,给针对学术文献的研究工作造成了诸多不便。本文提出了一种基于机器视觉的PDF文档结构识别方法,该方法针对常见的PDF学术论文,将PDF文件中的视觉对象和文本对象进行映射,获得内容对象的几何属性和文本属性,并辅以启发式算法对内容对象进行类型判断,得到PDF文档的物理结构和逻辑结构。该方法以直观的方式克服了其他PDF解析方法需要大量人工特征构建或大规模语料训练、难以识别公式表格等缺点,并成功地对ACL (Association for Computational Linguistics)的论文集进行了结构识别和全文抽取。
文摘部分B/S信息管理系统中需要在线打印申请书、任务书等类型的多字段复杂报表。针对此类应用需求,在对开源组件i Text Sharp进行充分研究的基础上,提出了一种.NET Framework 3.5和Visual Studio 2008环境下从PDF表单模板文件制作到PDF报表文件生成和打印的通用方法。对生成的PDF文件中的单元格进行格式控制,实现内容文本按表单宽度和高度自适应大小,并通过添加水印、二维码和文档加密等手段保证用户提交的信息的一致性和安全性。