作为一种针对分类和回归任务行之有效的集成学习算法,随机森林(Random forest,RF)还面临着泛化能力提升和隐私保护的挑战。本文提出了一种改进的基于多重随机性与隐私保护的栈式随机森林(Bernoulli-multinomial stacked random forest,B...作为一种针对分类和回归任务行之有效的集成学习算法,随机森林(Random forest,RF)还面临着泛化能力提升和隐私保护的挑战。本文提出了一种改进的基于多重随机性与隐私保护的栈式随机森林(Bernoulli-multinomial stacked random forest,BMS-RF)算法。基本思想是在构造决策树分裂特征和分裂点选择阶段引入伯努利分布Dropout部分特征向量选择候选特征向量,通过两个多项分布随机选择分裂特征与分裂点,每棵决策树采用非数值查询的指数机制添加噪声维持其隐私保护机制,在集成分类器时引入多层栈式结构将前一层的输出随机投影和源训练集拼接作为新的输入,使得每一森林可以共享源样本空间信息,逐层提高基学习器分类性能。通过对此算法的一致性以及隐私能力的理论分析表明BMS-RF可以通过栈式结构显著提高分类性能。14个中小规模数据集合上的实验结果验证了该算法不但能降低运行时间且具有更好的泛化性能,隐私保护水平较强时可以在简化结构和提高运行速度的基础上达到与RF变体基本一致的分类性能。展开更多
结构化连接的效率直接影响着XML查询的性能,目前对XML的结构化连接大多都是基于编码的方法.介绍了一种全新的有效支持XML结构化连接的树索引CATI(compact ancestor tree index).CATI的基本思想是,对于给定的一个祖先后代查询(A-D查询)或...结构化连接的效率直接影响着XML查询的性能,目前对XML的结构化连接大多都是基于编码的方法.介绍了一种全新的有效支持XML结构化连接的树索引CATI(compact ancestor tree index).CATI的基本思想是,对于给定的一个祖先后代查询(A-D查询)或Twig查询,遍历XML文档,找出所有的祖先A的实例,用以建立CATI的主干;对于每个A实例,找出它的直接后代D的实例链接在它的后面.因为经典的结构连接算法Stack-Tree算法效率较高且使用较广,因此应用基于CATI的结构连接算法和基于Stack-Tree的结构连接算法就A-D查询和Twig查询做了大量实验.实验结果表明,基于CATI的结构化连接在一般查询情况下性能明显优于基于Stack-Tree的结构化连接.展开更多
文摘作为一种针对分类和回归任务行之有效的集成学习算法,随机森林(Random forest,RF)还面临着泛化能力提升和隐私保护的挑战。本文提出了一种改进的基于多重随机性与隐私保护的栈式随机森林(Bernoulli-multinomial stacked random forest,BMS-RF)算法。基本思想是在构造决策树分裂特征和分裂点选择阶段引入伯努利分布Dropout部分特征向量选择候选特征向量,通过两个多项分布随机选择分裂特征与分裂点,每棵决策树采用非数值查询的指数机制添加噪声维持其隐私保护机制,在集成分类器时引入多层栈式结构将前一层的输出随机投影和源训练集拼接作为新的输入,使得每一森林可以共享源样本空间信息,逐层提高基学习器分类性能。通过对此算法的一致性以及隐私能力的理论分析表明BMS-RF可以通过栈式结构显著提高分类性能。14个中小规模数据集合上的实验结果验证了该算法不但能降低运行时间且具有更好的泛化性能,隐私保护水平较强时可以在简化结构和提高运行速度的基础上达到与RF变体基本一致的分类性能。
文摘结构化连接的效率直接影响着XML查询的性能,目前对XML的结构化连接大多都是基于编码的方法.介绍了一种全新的有效支持XML结构化连接的树索引CATI(compact ancestor tree index).CATI的基本思想是,对于给定的一个祖先后代查询(A-D查询)或Twig查询,遍历XML文档,找出所有的祖先A的实例,用以建立CATI的主干;对于每个A实例,找出它的直接后代D的实例链接在它的后面.因为经典的结构连接算法Stack-Tree算法效率较高且使用较广,因此应用基于CATI的结构连接算法和基于Stack-Tree的结构连接算法就A-D查询和Twig查询做了大量实验.实验结果表明,基于CATI的结构化连接在一般查询情况下性能明显优于基于Stack-Tree的结构化连接.