-
题名Knockoff方法研究进展综述
- 1
-
-
作者
袁攀旭
李高荣
-
机构
北京师范大学统计学院
-
出处
《应用概率统计》
CSCD
北大核心
2024年第3期463-497,共35页
-
基金
国家自然科学基金项目(批准号:12271046,12131006)资助.
-
文摘
随着现代科学技术的快速发展,大数据时代正向我们走来.此时,统计方法的可重复性对于提高科学研究的严谨性至关重要.Barber和Candès[48]提出的knockoff方法是一种可结合任意特征重要性得分的变量选择算法,在发现真实效应的同时严格控制错误发现率(false discovery rate,FDR),其核心想法是构造称为knockoff的合成变量来模仿原始变量之间的相关结构.该方法无需计算p-值而在近年来受到广泛关注,成为当今统计和机器学习最热点的研究领域.本文主要介绍knockoff方法的最新研究进展,并简要探讨未来可能的研究方向.
-
关键词
knockoff方法
多重假设检验
错误发现率
高维数据
稀疏性
变量选择
可重复性
-
Keywords
knockoff method
multiple hypothesis testing
false discovery rate
high-dimensional data
sparsity
variable selection
reproducibility
-
分类号
O212.1
[理学—概率论与数理统计]
-
-
题名具有错误发现率控制的网络连接数据变量选择
被引量:1
- 2
-
-
作者
卢滢
李阳
-
机构
中国科学技术大学管理学院统计与金融系
-
出处
《计算机系统应用》
2024年第5期28-36,共9页
-
基金
国家自然科学基金(12101584)。
-
文摘
网络连接数据的统计推断问题已成为近年来统计学研究的热点问题.传统模型中样本数据间的独立性假设通常不能满足现代网络连接数据的分析需求.本文研究了网络连接数据中每个节点的独立效应,并借助融合惩罚的思想,使得相互连接节点的独立效应趋同.同时借助仿变量方法 (Knockoff)仿冒原始变量的数据依赖结构、构造与目标变量无关的属性特征,提出了针对网络连接数据进行变量选择的仿变量方法 (NLKF).从理论上证明了NLKF方法将变量选择的错误发现率(FDR)控制在目标水平.对于原始数据协方差未知的情形,使用估计的协方差矩阵仍具有上述良好的统计性质.通过与传统变量选择方法 Lasso对比,说明了本文方法的可靠性.最后结合因子投资领域2022年1–12月中国A股市场4 000只股票的200个因子数据及每只股票所属申万一级行业构造的网络关系,给出模型的应用实例.
-
关键词
网络连接数据
变量选择
knockoff方法
错误发现率
-
Keywords
network-linked data
variable selection
knockoff method
false discovery rate(FDR)
-
分类号
O212.1
[理学—概率论与数理统计]
-