摘要:本篇教程探讨了大数据技术 谱聚类综述,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。
本篇教程探讨了大数据技术 谱聚类综述,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。
<
聚类
在了解谱聚类之前,首先需要知道聚类,聚类通俗的讲就是将一大堆没有标签的数据根据相似度分为很多簇(就是一坨坨的),将相似的聚成一坨,不相似的再聚成其他很多坨。一般的聚类算法存在的问题是k值的选择(就是簇的数量事先不知道),相似性的度量(如何判断两个样本点是否相似),如何不陷入局部最优等问题,流行的算法有k-means等一系列算法。
谱聚类
顾名思义就是一种聚类算法,这个谱字应该指的就是谱图的意思,简单的来讲就是将聚类问题转化为图的分割问题,将图中相似的点聚在一起,但是这个图是从哪里来的呢???这就涉及到谱聚类的步骤了,以下是各种谱聚类算法的通俗框架。
输入:相似性矩阵S,簇的数量k
k值只能靠猜测了。
这个相似性矩阵怎么得到呢?
假设有一堆数据x1,x2,,,xn,sij = s(xi,xj),至于这个相似性度量函数s就有很多种选取方法了,最简单的就是欧氏距离了,然后就构造出了一个相似性矩阵S = (sij)i,j = 1....n
根据邻接矩阵S构造出一个有权无向图
有了图就可以计算图的Laplacian L(拉普拉斯矩阵)
再算出L的前k个特征向量 v1,.....vk
将特征向量作为列向量构造出特征空间V
再对V的行用k-means聚类出簇C1,.....Cn
输出:簇
算法可修改之处:
比如相似图的构造就有knn图,全连接图,ε-neighborhood图
Laplacian矩阵也分为规范Laplacian和非规范Laplacian,其中非规范Laplacian也有两种。
规范Laplacian L = D - W,D为节点的度矩阵,W为节点的权重矩阵
非规范Laplacian
Lsym = D-1/2LD-1/2 = I - D-1/2WD-1/2
Lrw = D-1L = I - D-1W
特征向量的选择,v不一定是L的特征向量,选择出的向量也不一定为前k个
谱聚类的引出
看到这里是不是觉得一切都那么的自然,但是这个东东为啥能被人想出来呢???
最根本的原因在于图的最优分割问题是一个NP难的问题,在得到一个基于样本相似度的无向加权图G=(V,E)之后,可以有很多种基于图论的方法来切割G,使得子图的内部相似度最大,子图间的相似度最小,切割的方法也有很多种,比如Ncut,Rcut,Avcut等多种切割方法,一般用来切割k=2的问题效果还不错,但涉及到多路规范切割(k>2)的时候,优化问题就难以解决了。
各种切割方法的解释详见下述论文。
谱聚类的优势
只要保证相似性图的稀疏,谱聚类对于大数据量的样本效率就会很高。
而且谱聚类的求解不涉及到凸优化问题。
谱聚类的缺点
缺点很明显k值只能靠猜测
本文由职坐标整理发布,学习更多的大数据技术相关知识,请关注职坐标大技术云计算大技术技术频道!
您输入的评论内容中包含违禁敏感词
我知道了
请输入正确的手机号码
请输入正确的验证码
您今天的短信下发次数太多了,明天再试试吧!
我们会在第一时间安排职业规划师联系您!
您也可以联系我们的职业规划师咨询:
版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
沪公网安备 31011502005948号