摘要
随着数字时代的来临 ,数据挖掘成为知识领域中的研究热点 .但由于保密、数据多样性等问题 ,测试数据源的获取一直困扰着数据挖掘算法的研究 .为此 ,提出一种基于云模型的测试数据源生成方法 ,利用此方法 ,给出了数量型数据的生成算法 ,对范畴型数据的生成进行了讨论 .由于云模型中随机性与模糊性的特点 ,各属性的数据之间除了包含已知的先验知识以外 ,数据的分布、各属性之间的关系也会存在一定的随机和模糊 ,使得构造的数据源中又隐含了许多潜在知识 .利用此方法 ,研究人员可根据自己的实际情况进行不同类型、不同量级数据源的构造 。
Because of the problem of secrecy, diversity of data and so on, data resources for testing data mining algorithms always persecute the research of data mining. Therefore, a method of data source generation based on a cloud model is presented in this paper. The generation algorithm for quantitative data is given and the generation of categorical data is also discussed. Because of the randomness and fuzziness in the cloud model, the generated data contain potential knowledge except known knowledge, and the data distribution and relationship between attributes also have random and fuzzy facts. Researchers can use this model to generate diverse type and diverse quantitative data they want and then test the data mining algorithms.
出处
《计算机研究与发展》
EI
CSCD
北大核心
2000年第7期776-782,共7页
Journal of Computer Research and Development
基金
国家"八六三"高技术研究发展计划基金项目资助!(项目编号 3 0 6-ZT0 6-0 7-2)