现有的重复数据删除技术大部分是基于变长分块(content defined chunking,CDC)算法的,不考虑不同文件类型的内容特征.这种方法以一种随机的方式确定分块边界并应用于所有文件类型,已经证明其非常适合于文本和简单内容,而不适合非结构化...现有的重复数据删除技术大部分是基于变长分块(content defined chunking,CDC)算法的,不考虑不同文件类型的内容特征.这种方法以一种随机的方式确定分块边界并应用于所有文件类型,已经证明其非常适合于文本和简单内容,而不适合非结构化数据构成的复合文件.分析了OpenXML标准的复合文件属性,给出了对象提取的基本方法,并提出基于对象分布和对象结构的去重粒度确定算法.目的是对于非结构化数据构成的复合文件,有效地检测不同文件中和同一文件不同位置的相同对象,在文件物理布局改变时也能够有效去重.通过对典型的非结构化数据集合的模拟实验表明,在综合情况下,对象重复数据删除比CDC方法提高了10%左右的非结构化数据的去重率.展开更多
采用客体回溯范式,以客体预览利化效应(object specific previewing benefit,OSPB)作为指标,考察表面特征线索对客体保持的作用。实验1使用双向隧道创建时空线索不明确的条件,研究表面颜色特征线索的作用。实验2使用单向隧道使时空线索...采用客体回溯范式,以客体预览利化效应(object specific previewing benefit,OSPB)作为指标,考察表面特征线索对客体保持的作用。实验1使用双向隧道创建时空线索不明确的条件,研究表面颜色特征线索的作用。实验2使用单向隧道使时空线索明确,研究表面颜色特征线索与时空线索一致、冲突情境下的客体保持。实验1和实验2均出现了OSPB效应,且实验2冲突情境的OSPB效应低于一致情境。研究结果表明在时空线索不明确的条件下,仅凭表面颜色特征线索就能实现客体保持;在时空线索明确的条件下,时空线索是客体保持的主要线索,同时表面颜色特征线索也起一定的作用。展开更多
文摘现有的重复数据删除技术大部分是基于变长分块(content defined chunking,CDC)算法的,不考虑不同文件类型的内容特征.这种方法以一种随机的方式确定分块边界并应用于所有文件类型,已经证明其非常适合于文本和简单内容,而不适合非结构化数据构成的复合文件.分析了OpenXML标准的复合文件属性,给出了对象提取的基本方法,并提出基于对象分布和对象结构的去重粒度确定算法.目的是对于非结构化数据构成的复合文件,有效地检测不同文件中和同一文件不同位置的相同对象,在文件物理布局改变时也能够有效去重.通过对典型的非结构化数据集合的模拟实验表明,在综合情况下,对象重复数据删除比CDC方法提高了10%左右的非结构化数据的去重率.
文摘采用客体回溯范式,以客体预览利化效应(object specific previewing benefit,OSPB)作为指标,考察表面特征线索对客体保持的作用。实验1使用双向隧道创建时空线索不明确的条件,研究表面颜色特征线索的作用。实验2使用单向隧道使时空线索明确,研究表面颜色特征线索与时空线索一致、冲突情境下的客体保持。实验1和实验2均出现了OSPB效应,且实验2冲突情境的OSPB效应低于一致情境。研究结果表明在时空线索不明确的条件下,仅凭表面颜色特征线索就能实现客体保持;在时空线索明确的条件下,时空线索是客体保持的主要线索,同时表面颜色特征线索也起一定的作用。