基于加速扩散模型的缺失值插补算法

Missing value imputation algorithm based on accelerated diffusion model

下载PDF

导出

摘要为了解决表格数据中数据缺失对后续任务产生的不利影响,提出使用扩散模型进行缺失值插补的方法.针对原始扩散模型在生成过程中耗时过长的问题,设计基于加速扩散模型的数据插补方法(PNDM_Tab).扩散模型的前向过程通过高斯加噪方法实现,采用基于扩散模型的伪数值方法进行反向过程加速.使用U-Net与注意力机制相结合的网络结构从数据中高效提取显著特征,实现噪声的准确预测.为了使模型在训练阶段有监督目标,使用随机掩码处理训练数据以生成新的缺失数据.在9个数据集中的插补方法对比实验结果表明:相较其他插补方法,PNDM_Tab在6个数据集中的均方根误差最低.实验结果证明,相较于原始的扩散模型,反向过程使用扩散模型的伪数值方法能够在减少采样步数的同时保持生成性能不变. To address the adverse effects of missing data in tabular data on subsequent tasks,a method for imputation using diffusion models was proposed.An accelerated diffusion model-based imputation method(PNDM_Tab)was designed aiming at the problem that the original diffusion models being time-consuming during the generation process.The forward process of the diffusion model was realized through Gaussian noise addition,and the pseudo-numerical methods derived from diffusion models were employed to achieve acceleration of the reverse process.Using a network structure combining U-Net with attention mechanisms,significant features were extracted efficiently from the data to predict noise accurately.To provide supervised targets during the training phase,random masking of the training data generated new missing data.Comparative experiments were conducted in nine datasets,and the results showed that PNDM_Tab achieved the lowest root mean square error in six datasets compared to other imputation methods.Experimental results demonstrate that,compared to the original diffusion models,the use of pseudo-numerical methods in the reverse process can reduce the number of sampling steps while maintaining equivalent generative performance.

作者王圣举张赞 WANG Shengju;ZHANG Zan(School of Electronics and Control Engineering,Chang’an University,Xi’an 710064,China)

机构地区长安大学电子与控制工程学院

出处《浙江大学学报(工学版)》北大核心 2025年第7期1471-1480,1503,共11页 Journal of Zhejiang University(Engineering Science)

关键词表格数据扩散模型数据插补注意力机制深度学习 tabular data diffusion model data imputation attention mechanism deep learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1庞新生.缺失数据插补处理方法的比较研究[J].统计与决策,2012,28(24):18-22. 被引量：45

二级参考文献5

1L.基什.抽样调查[M].北京:中国统计出版社,1997.
2[美]Donald.B.Rubin. Multiple Imputation For Nonresponse In Surveys [M], New York :John Wiley & Sons Inc.1987.
3[美]Roderick J. A. Little, Donald B. Rubin. Statistical Analysis with Missing Data [M], New York :John Wiley & Sons Inc.2002.
4金进等编著.抽样技术[M].北京:中国统计出版社,2008.
5庞新生.缺失数据处理方法的比较[J].统计与决策,2010,26(24):152-155. 被引量：28

共引文献44

1刘佳星,张宏烈,刘艳菊,刘彦忠.基于缺失率的不完整数据填补算法[J].统计与决策,2021(2):39-41. 被引量：26
2李杰,张晓玲.随机试验设计中缺失值插补方法研究[J].大理学院学报（综合版）,2013,12(10):1-5. 被引量：3
3罗永峰,叶智武,郭小农.钢结构施工过程监测数据缺失机理与处理方法[J].同济大学学报（自然科学版）,2014,42(6):823-829. 被引量：17
4丁艳,李永奎.建筑业市场化进程测度：2003～2012年[J].改革,2015(4):125-134. 被引量：3
5潘晓晓,叶东毅,颜建英,张栋,杨丹林.面向胎盘植入产前诊断的医学语义特征提取算法[J].模式识别与人工智能,2015,28(6):481-489. 被引量：7
6张玲玲,李国清,姜光成,李威,胡乃联.基于BP神经网络的地质缺失数据处理方法[J].黄金科学技术,2015,23(5):53-59. 被引量：2
7李纲,周海军,郭姝娟,左忠义.EM方法对缺失数据的处理及对MNL模型的影响[J].大连交通大学学报,2017,38(3):7-11.
8于波,卢欣,李浩,郑鑫,赵军,苏鹏伟.基于负荷预测的园区供热系统运行优化技术[J].电力建设,2017,38(12):77-86. 被引量：12
9裴卫杰,庞天杰.一种基于动态填充的不完备数据聚类算法[J].太原师范学院学报（自然科学版）,2018,17(1):50-55. 被引量：3
10谢霖铨,毕永朋,廖龙龙.基于PCA的近邻均值填补优化算法[J].软件导刊,2018,17(6):67-69. 被引量：1

1Zhou Lin,Li Yun,Ji Wei,Liu Yuxuan,Zheng Huifen.Trusted detection for Parkinson's disease based on uncertainty estimation[J].The Journal of China Universities of Posts and Telecommunications,2024,31(5):85-94.
2熊婷,杨利,余珍,杨玉.3例K_(ATP)通道基因突变致新生儿糖尿病的基因及治疗分析[J].药品评价,2024,21(4):466-469.
3高磊,许轩,罗芯汭,闵帆.互补盲点策略和U型Transformer的地震数据去噪[J].计算机应用研究,2025,42(7):2056-2063.
4唐艳飞.产出导向法指导下的初中英语写作思维培养研究[J].英语教师,2025,25(11):101-104.
5王艳武.企业信息化系统数据泄露点快速挖掘方法研究[J].微型电脑应用,2025,41(3):64-67.
6杨涛.机器学习模型在青藏高原高寒草甸碳通量数据缺失值插补中的应用[J].黑龙江科学,2025,16(12):43-45.
7王澳飞,孙福振,孙秀娟,张文轩,王绍卿.面向序列推荐的扩散增强多视角意图对比学习方法[J].计算机工程与应用,2025,61(13):338-348.
8张运凯,高金,李青,王旭.基于信息熵的自适应多分类器交通数据插值模型[J].河北科技大学学报,2025,46(3):248-256.
9蒋世杰,夏秀山,翟伟,曹洋.基于ODE扩散模型的多类异常检测和定位[J].智能系统学报,2025,20(2):376-388.
10戚金海.指向几何直观能力提升的二次函数教学研究[J].上海中学数学,2025(4):18-21.

浙江大学学报(工学版)

2025年第7期

浏览历史

内容加载中请稍等...

基于加速扩散模型的缺失值插补算法

参考文献1

二级参考文献5

共引文献44

相关作者

相关机构

相关主题

浏览历史