随着Internet技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于Web数据库上的信息,需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问Web数据库的唯一途径,对Deep Web数据源分类可通过对查询接...随着Internet技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于Web数据库上的信息,需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问Web数据库的唯一途径,对Deep Web数据源分类可通过对查询接口分类实现。为此,提出一种基于查询接口文本VSM(Vector Space Model)的分类方法。首先,使用查询接口文本信息构建向量空间模型,然后通过典型的数据挖掘分类算法训练分类器,从而实现对查询接口所属领域进行分类。实验结果表明给出的方法具有良好的分类性能。展开更多
针对多类不平衡数据分类准确率低的问题,提出一种基于空间扩展的支持向量机学习算法(support vector machine algorithm based on space spreading,SS-SVM)。根据空间扩展原理,在多维欧式空间中通过空间扩展对少类数据进行上采样,使其...针对多类不平衡数据分类准确率低的问题,提出一种基于空间扩展的支持向量机学习算法(support vector machine algorithm based on space spreading,SS-SVM)。根据空间扩展原理,在多维欧式空间中通过空间扩展对少类数据进行上采样,使其处理数据时减少小区块的影响;降低数据不平衡度以优化分类器组;在扩展的数据集上训练SVM分类器。标准数据集上的实验结果表明,与几种经典的算法相比,SS-SVM在多类不平衡数据分类上可获得令人满意的分类结果,对少类数据分类精度要求较高的问题尤为有效。展开更多
文摘随着Internet技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于Web数据库上的信息,需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问Web数据库的唯一途径,对Deep Web数据源分类可通过对查询接口分类实现。为此,提出一种基于查询接口文本VSM(Vector Space Model)的分类方法。首先,使用查询接口文本信息构建向量空间模型,然后通过典型的数据挖掘分类算法训练分类器,从而实现对查询接口所属领域进行分类。实验结果表明给出的方法具有良好的分类性能。
文摘针对多类不平衡数据分类准确率低的问题,提出一种基于空间扩展的支持向量机学习算法(support vector machine algorithm based on space spreading,SS-SVM)。根据空间扩展原理,在多维欧式空间中通过空间扩展对少类数据进行上采样,使其处理数据时减少小区块的影响;降低数据不平衡度以优化分类器组;在扩展的数据集上训练SVM分类器。标准数据集上的实验结果表明,与几种经典的算法相比,SS-SVM在多类不平衡数据分类上可获得令人满意的分类结果,对少类数据分类精度要求较高的问题尤为有效。