-
题名基于HBase的多分类逻辑回归算法研究
被引量:11
- 1
-
-
作者
刘黎志
邓介一
吴云韬
-
机构
武汉工程大学
武汉工程大学
-
出处
《计算机应用研究》
CSCD
北大核心
2018年第10期3007-3010,共4页
-
基金
湖北省自然科学基金资助项目(2014CFB791)
湖北省高等学校优秀中青年科技创新团队计划资助项目(T201206)
-
文摘
为解决在大数据环境下,用于训练多分类逻辑回归模型的数据集可能会超过执行计算的客户端内存的问题,提出了块批量梯度下降算法,用于计算回归模型的系数。将训练数据集存入HBase后,通过设置表扫描对象的起始行键参数,可取出大小合适的含训练样本及结果值的数据块;同时为避免客户端到服务端频繁的RPC调用,取出的数据块可进行多次迭代计算,以加快系数的收敛。当取出的数据块达到指定的迭代次数后,再按行键次序取出下一个数据块。如此循环,直到系数收敛或达到指定的循环控制阈值。多分类的逻辑回归问题可转换为二分类来解决,因此需要为每一个分类在训练数据表中设定结果值列,结合训练样本列簇,按块批量梯度下降算法得到每个分类的回归系数。实验结果表明得到的回归系数能准确地对测试样本进行分类。
-
关键词
块批量梯度下降
多分类
逻辑回归
大数据
HBASE
-
Keywords
chunk bgd
multi classification
logistic regression
big data
HBase
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-