大数据技术分布式计算、统计学习与ADMM算法-职坐标

大数据技术分布式计算、统计学习与ADMM算法

沉沙 2018-10-11 来源：阅读 1605 评论 0

摘要：本篇教程探讨了大数据技术分布式计算、统计学习与ADMM算法，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。

本篇教程探讨了大数据技术分布式计算、统计学习与ADMM算法，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。

业界一直在谈论大数据，对于统计而言，大数据其实意味着要不是样本量增加n→∞，要不就是维度的增加p→∞，亦或者两者同时增加，并且维度与样本量的增长速度呈线性或者指数型增长。在稀疏性的假设条件下，再加上一些正则性方法，统计学家可以证明各种加penalty的模型所给出的参数估计具有良好的统计性质，收敛速度也有保证，同时还会给出一些比较好的迭代算法，但是，他们并没有考虑真实环境下的所消耗的计算时间。虽然统计学家也希望尽量寻求迭代数目比较少的算法（比如one-step估计），但是面对真实的Gb级别以上的数据，很多时候我们还是无法直接用这些算法，原因是一般的硬件都无法支撑直接对所有数据进行运算的要求。如果想减少抽样误差，不想抽样，又想提高估计的精度，那么还是需要寻求其他思路，结合已有的模型思想来解决这些问题。在目前条件下，并行化、分布式计算是一种比较好的解决思路，利用多核和多机器的优势，这些好算法便可以大规模应用，处理大数据优势便体现出来了。对于统计而言，数据量越大当然信息越可能充分（假设冗余成分不是特别多），因为大样本性质本身就希望样本越多越好嘛。
。
1. 优化的一些基本算法思想
ADMM算法并不是一个很新的算法，他只是整合许多不少经典优化思路，然后结合现代统计学习所遇到的问题，提出了一个比较一般的比较好实施的分布式计算框架。因此必须先要了解一些基本算法思想。
1.1 Dual Ascent
对于凸函数的优化问题，对偶上升法核心思想就是引入一个对偶变量，然后利用交替优化的思路，使得两者同时达到optimal。一个凸函数的对偶函数其实就是原凸函数的一个下界，因此可以证明一个较好的性质：在强对偶性假设下，即最小化原凸函数（primal）等价于最大化对偶函数（dual），两者会同时达到optimal。这种转化可以将原来很多的参数约束条件变得少了很多，以利于做优化。具体表述如下：
minf(x)
s.t.Ax=b ?L(x,y)=f(x)+yT(Ax?b)?对偶函数（下界）g(y)=infL(x,y)
在强对偶性的假设下，primal和dual问题同时达到最优。
x?=argminL(x,y?)
因此，若对偶函数g(y)g(y)可导，便可以利用梯度上升法，交替更新参数，使得同时收敛到最优。迭代如下：
xk+1:yk+1:=argminxL(x,yk)(x-最小化步)=yk+αk?g(y)=yk+αk(Axk+1?b)(对偶变量更新，αk是步长)xk+1:=arg?minxL(x,yk)(x-最小化步)yk+1:=yk+αk?g(y)=yk+αk(Axk+1?b)(对偶变量更新，αk是步长)
当gg不可微的时候也可以将其转化下，成为一个所谓的subgradient的方法，虽然看起来不错，简单证明下即可知道xkxk和ykyk同时可达到optimal，但是上述条件要求很苛刻：f(x)f(x)要求严格凸，并且要求αα选择有比较合适。一般应用中都不会满足（比如f(x)f(x)是一个非零的仿射函数），因此dual ascent不会直接应用。

本文由职坐标整理发布，学习更多的大数据技术相关知识，请关注职坐标大技术云计算大技术技术频道！

大数据算法大数据技术原理与应用 pdf 数据挖掘需要学什么

本文由 @沉沙发布于职坐标。未经许可，禁止转载。