期刊文献+

一种测试数据挖掘算法的数据源生成方法 被引量:16

A METHOD OF DATA SOURCE GENERATION FOR TESTING DATA MINING ALGORITHMS
在线阅读 下载PDF
导出
摘要 随着数字时代的来临 ,数据挖掘成为知识领域中的研究热点 .但由于保密、数据多样性等问题 ,测试数据源的获取一直困扰着数据挖掘算法的研究 .为此 ,提出一种基于云模型的测试数据源生成方法 ,利用此方法 ,给出了数量型数据的生成算法 ,对范畴型数据的生成进行了讨论 .由于云模型中随机性与模糊性的特点 ,各属性的数据之间除了包含已知的先验知识以外 ,数据的分布、各属性之间的关系也会存在一定的随机和模糊 ,使得构造的数据源中又隐含了许多潜在知识 .利用此方法 ,研究人员可根据自己的实际情况进行不同类型、不同量级数据源的构造 。 Because of the problem of secrecy, diversity of data and so on, data resources for testing data mining algorithms always persecute the research of data mining. Therefore, a method of data source generation based on a cloud model is presented in this paper. The generation algorithm for quantitative data is given and the generation of categorical data is also discussed. Because of the randomness and fuzziness in the cloud model, the generated data contain potential knowledge except known knowledge, and the data distribution and relationship between attributes also have random and fuzzy facts. Researchers can use this model to generate diverse type and diverse quantitative data they want and then test the data mining algorithms.
作者 杜鷁 李德毅
出处 《计算机研究与发展》 EI CSCD 北大核心 2000年第7期776-782,共7页 Journal of Computer Research and Development
基金 国家"八六三"高技术研究发展计划基金项目资助!(项目编号 3 0 6-ZT0 6-0 7-2)
关键词 数据挖掘 云模型 数据源生式 数据库 算法 测试 data mining, cloud model, cloud generator
  • 相关文献

参考文献3

  • 1李德毅,孟海军,史雪梅.隶属云和隶属云发生器[J].计算机研究与发展,1995,32(6):15-20. 被引量:1334
  • 2Das G,Proc of the4th Int’ l Conf on Knowledge Discovery and Data Mining( KDD-98),1998年,16页
  • 3Cheung D W L,Proc of the 12 th Int’ l Conf on Data Engineering,1996年,106页

二级参考文献5

  • 1李德毅.发现状态空间理论[J].小型微型计算机系统,1994,15(11):1-6. 被引量:25
  • 2李德毅,计算机智能接口与智能应用论文集,1993年
  • 3吴国富,实用数据分析方法,1992年
  • 4李中夫,模糊系统与数学,1987年,1卷,1期,1页
  • 5李德毅

共引文献1333

同被引文献208

引证文献16

二级引证文献332

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部