多元回归中选择自变量的一种简单方法被引量：3

A Simple Approach in Regression Variable Selection

下载PDF

导出

摘要在线性回归模型建模中,回归自变量选择是一个受到广泛关注、文献众多,具有很强的理论和实际意义的问题.回归自变量选择子集的相合性是其中一个重要问题,如果某种自变量选择方法选择的子集在样本量趋于无穷时是相合的,而且预测均方误差较小,则这种方法是可取的.利用BIC准则可以挑选相合的自变量子集,但是在自变量个数很多时计算量过大;适应lasso方法具有较高计算效率,也能找到相合的自变量子集;本文提出一种更简单的自变量选择方法,只需要计算两次普通线性回归:第一次进行全集回归,得到全集的回归系数估计,然后利用这些回归系数估计挑选子集,然后只要在挑选的自变量子集上再进行一次普通线性回归就得到了回归结果.考虑如下的回归模型:Y_n=X_nβ~*+ε^((n)),其中回归系数β~*中非零分量下标的集合为J_O,设J_n是本文方法选择的自变量子集下标集合,β^((n))是本文方法估计的回归系数(未选中的自变量对应的系数为零),本文证明了,在适当条件下,(?)其中(β^((n))-β~*)J_O表示β^((n))-β~*的分量下标在J_O中的元素的组成的向量,σ~2是误差方差,∑,c是与矩阵(X_n^TX_n)/n极限有关的矩阵和常数.数值模拟结果表明本文方法具有很好的中小样本性质. Regression variable subset selection is one of the most important aspects in linear model theory. If the selected subset is consistent when the sample size tends to infinity, and the prediction mean square error is small, then the selection method is preferred. The BIC criterion can give consistent subset, but as the number of variables get large, it involves too much computation. The adaptive lasso has better computational efficiency, while keeping consistency. In this paper we propose a new approach for multiple linear regression variable selection~ which is much simpler than the other variable selection methods, while it gives consistent subset. The new method only compute two passes of ordinary least squares regressions, the first pass computes a complete set regression, selects a variable subset based on the regression coefficient estimates, then the second pass regresses on the selected variables.

作者陈家鼎李东风

机构地区北京大学数学科学学院

出处《应用概率统计》 CSCD 北大核心 2015年第1期71-88,共18页 Chinese Journal of Applied Probability and Statistics

基金北京大学统计与信息技术教育部-微软重点实验室资助

关键词变量选择回归分析 ORACLE PROPERTY Variable selection, regression, oracle property.

分类号 O212.1 [理学—概率论与数理统计]

引文网络
相关文献

参考文献6

1Cai, T. and Shen, X., High-Dimensional Data Analysis, Volume 2, Chapter 4, Higher Education Press, Beijing, 2010.
2Chow, Y.S. and Teicher, H., Probability Theory (Second Edition), Springer-Verlag, New York, 1988.
3Fan, J. and Li, R., Variable selection via nonconcave penalized likelihood and its oracle properties, Journal of the American Statistical Association, 96(456)(2001), 1248-1360.
4James, G., Witten, D., Hastie, T. and Tibshirani, R., An Introduction to Statistical Learning: with Applications in R, Springer, 2013.
5Nishii, R., Asymptotic properties of criteria for selection of variables in multiple regression, The Annals of Statistics, 12(2)(1984), 758-765.
6Zou, H., The adaptive lasso and its oracle properties, Journal of the American Statistical Association, 101(476) (2006), 1418-1429.

同被引文献13

1褚小立,袁洪福,陆婉珍.近红外分析中光谱预处理及波长选择方法进展与应用[J].化学进展,2004,16(4):528-542. 被引量：587
2齐禺萌.基于灰色系统理论的航空运量预测[J].中国民用航空,2008(2):66-67. 被引量：6
3范永辉,王松桂.线性混合模型中方差分量的估计与QR分解[J].应用概率统计,2008,24(2):208-216. 被引量：6
4曾九孙,刘祥官,罗世华,颜光.主成分回归和偏最小二乘法在高炉冶炼中的应用[J].浙江大学学报（理学版）,2009,36(1):33-36. 被引量：37
5孙海林,李巨峰,朱媛媛.我国水质在线监测系统的发展与展望[J].中国环保产业,2009(3):12-16. 被引量：40
6李明捷,周阳,史跃亚.基于灰色理论的民航旅客运输周转量预测[J].中国民航飞行学院学报,2011,22(5):29-31. 被引量：8
7孙亚兰.基于季节时间序列模型的民航客运需求预测分析[J].中国外资,2013(18):263-266. 被引量：7
8尧姚,陶静,李毅.基于ARIMA-BP组合模型的民航旅客运输量预测[J].计算机技术与发展,2015,25(12):147-151. 被引量：23
9肖雪梦,张应应.三种回归方法在消除多重共线性及预测结果的比较[J].统计与决策,2015,31(24):75-78. 被引量：36
10鲁亚.基于多元回归模型的公路客运量预测分析[J].重庆理工大学学报（自然科学）,2016,30(8):152-155. 被引量：8

引证文献3

1胡健宝.多元回归中选择自变量的一种简单方法[J].科技经济市场,2019(5):14-14.
2蔡文婷,彭怡,陈秋吉.基于多元回归模型的航空运输客运量预测[J].航空计算技术,2019,49(4):50-53. 被引量：20
3杨曼孜,王晓东,刘长青,塔哈·马哈巴.基于紫外-可见光谱的COD预测模型优化方案研究[J].中国给水排水,2022,38(21):113-119. 被引量：3

二级引证文献23

1余佳莹,杨绪彪.多式联运对航空客运量的影响分析[J].智能计算机与应用,2021,11(3):90-93. 被引量：1
2李静娴,左杰俊,肖奇,郑思睿,钟琦.民用机场航空运输业务量预测方法综述[J].长沙航空职业技术学院学报,2020,20(2):83-87. 被引量：3
3唐婧涵.租赁准则变化对航空企业的影响分析[J].全国流通经济,2020(21):170-172.
4孙毅.疫情下成渝城市群航空市场需求预测[J].价值工程,2020,39(29):48-50.
5赵烜.民航订座需求预测算法综述[J].软件导刊,2020,19(11):279-281. 被引量：2
6周建红,邝雄,陈志明,张新雨.我国航空客运量需求预测模型:基于随机前沿预测模型和模型平均[J].系统工程理论与实践,2020,40(11):2861-2871. 被引量：9
7陈欣,盛寅,杨茹.基于Bagging指数平滑方法的航空客运需求预测[J].指挥信息系统与技术,2020,11(6):71-75. 被引量：1
8赵芳卉,陈琳,李冬青.基于SARIMA-GARCH模型的民航客运量研究[J].统计与管理,2021,36(2):17-24. 被引量：7
9肖淑敏,李印凤,刘妍煊,闫晨玉,傅航.基于熵权的北京机场旅客吞吐量战略预测[J].华北理工大学学报（自然科学版）,2021,43(4):17-24. 被引量：4
10李振强,曹琦.基于PCR的战时物资需求预测研究[J].军事运筹与系统工程,2021,35(3):15-21. 被引量：3

1贾忠贞.为什么回归系数的估计值会有“错误”的符号?[J].数理统计与管理,1987,6(1):23-25. 被引量：3
2黄荣坦.广义K－L差异度准则的渐近最优性[J].厦门大学学报（自然科学版）,1996,35(2):179-183.
3叶慈南.方差分量模型中回归系数估计的可容许性[J].应用概率统计,1993,9(4):337-342. 被引量：5
4岳振军,郑伟敏,叶慈南.方差分量模型中回归系数估计的可容许性(Ⅱ)[J].华东工学院学报,1989(1):90-97.
5于义良.数据变换对回归系数估计的影响[J].工程数学学报,1994,11(1):67-72. 被引量：2
6高志华,孙迎春.逐差间隔数对处理结果准确性影响实验研究[J].物理通报,2014(1):85-87.
7赵志君.多元线性模型回归系数估计在矩阵损失下的可容许性[J].山东大学学报（自然科学版）,1996,31(1):48-54.
8王银辉,徐文科.基于风险函数评价自变量选择对预测的影响[J].哈尔滨师范大学自然科学学报,2012,28(1):23-24. 被引量：1
9王基熔,李前荣.微热与微功不是全微分的独立自变量选择[J].大学物理,1997,16(5):13-14. 被引量：3
10黄荣坦.线性模型信息准则的稳健性[J].厦门大学学报（自然科学版）,1993,32(5):563-567.

应用概率统计

2015年第1期

浏览历史

内容加载中请稍等...

多元回归中选择自变量的一种简单方法被引量：3

参考文献6

同被引文献13

引证文献3

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

多元回归中选择自变量的一种简单方法 被引量：3

参考文献6

同被引文献13

引证文献3

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

多元回归中选择自变量的一种简单方法被引量：3