摘要
当前的"学术不端"检测系统大多只检测论文中的文字内容,对其中的公式,表格,图像,图形等内容没有进行雷同性检测。为此,该文基于Word 2007格式,着重研究了这些关键要素的抄袭鉴定。首先使用XML编程接口提取出了该格式文档中的各个要素,并深入地研究了文本、公式、表格和图形等要素的比对方法。公式使用"类卷积"比对方案,表格使用二维文本比对,图片分矢量图和位图分别研究比对,并针对这些要素进行了综合的抄袭鉴定建模。最后,总结了本文的创新点,并提出了改进方向。
Most of the current "academic misconduct" detection system detects only textual content paper,on which the formulas,tables,images,graphics and other content have no similar testing.In this paper,based on the Word 2007 format,it focuses on the identification of these key elements for plagiarism.First,we use XML program interface to extract the format of the various elements in the document,and deeply study the text,formulas,tables,graphics and other elements of alignment method,to which to identify a comprehensive model of plagiarism.Finally,we summarize the innovation and improvement direction in this paper.
出处
《电子质量》
2016年第3期52-56,共5页
Electronics Quality
关键词
WORD
2007
抄袭鉴定
公式比对
文本比对
图片比对
Word 2007
identification of plagiarism
formula comparison
text comparison
image comparison