大语言模型(Large Language Model,LLM)在生成表格数据任务中展现出巨大潜力,但其生成的数据往往难以准确保持数据列间的依赖关系.针对该问题,提出一种基于LLM概率提示词的方法 TabProLLM,分别生成表格数据的数值列和分类列.使用高斯混...大语言模型(Large Language Model,LLM)在生成表格数据任务中展现出巨大潜力,但其生成的数据往往难以准确保持数据列间的依赖关系.针对该问题,提出一种基于LLM概率提示词的方法 TabProLLM,分别生成表格数据的数值列和分类列.使用高斯混合模型(Gaussian Mixture Model,GMM)切分数值列的概率密度曲线,将其划分为多个正态分布,并基于划分后的正态分布构造概率提示词用于大模型生成数值列数据.对于分类列,以某一数值列为基准进行分区,计算分类列中各类别在不同数值区间的条件概率分布,并根据条件概率分布生成提示词用于生成分类列数据.在提示词生成过程中,还引入相关系数等指标,用于校验生成数据中变量间的依赖关系是否符合原始数据的相关性模式.在10个公开数据集上的实验结果表明,TabProLLM在保证数据隐私性的同时,在SDMetrics工具中的RangeCoverage,CategoryCoverage,KSComplement,TVComplement等多个保真度评估指标上实现了18%左右的性能提升.其相关性指标CorrelationSimilarity与最优模型TabDDPM基本持平,和GPT-4o使用均值方差提示词方法相比,提升约4.1%.同时,在隐私性评估方面,TabProLLM的DCR和NNDR(取第5百分位数)指标整体表现为最优和次优.展开更多