数据挖掘之聚类分析详解(一)

数据挖掘之聚类分析详解(一)

不管是大数据还是数据挖掘,都离不开聚类分析,而聚类分析是数据挖掘中最经典的一种算法之一,也是数据挖掘工作的基础,同样也是数据挖掘的关键技术。那么什么是聚类分析呢?聚类分析能够为我们带来什么?聚类算法都有哪些?下面我们就给大家介绍一下这些内容。

首先给大家说一说什么是聚类分析,所谓聚类分析就是将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,其目的是在相似的基础上收集数据来分类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。聚类与分类的不同还在于,聚类所要求划分的类是未知的。我们可以通过聚类分析去解决更多的数据挖掘中的问题。

由此,我们不难发现聚类分析的重要性了吧,就目前而言,现在各行各业的大数据或宏观或微观的任何价值发现,无不借助于大数据聚类分析的结果,因此,数据分析和挖掘的首要问题是聚类,这种聚类是跨学科、跨领域、跨媒体的。大数据聚类是数据密集型科学的基础性、普遍性问题。而如果要想突破认知的话,那么就需要掌握聚类,可以这么说,聚类是挖掘大数据资产价值的第一步。

那聚类的算法都有哪些呢?聚类的算法有很多,我们首先说一说基于划分聚类算法的内容,基于划分聚类的算法有很多。聚类算法中的CLARA算法在PAM的基础上采用了抽样技术,能够处理大规模数据;k-means是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据;K-Means算法的扩展,采用简单匹配方法来度量分类型数据的相似度;k-prototypes算法就是结合了K-Means和K-Modes两种算法,能够处理混合型数据;k-medoids就是在迭代过程中选择簇中的某点作为聚点;Focused CLARAN就是采用了空间索引技术提高了CLARANS算法的效率;PCM就是模糊集合理论引入聚类分析中并提出了PCM模糊聚类算法。

我们在这篇文章中给大家介绍了很多的聚类分析知识以及聚类分析的算法内容。文中我们提到,聚类类似于分类,但两者的不同之处在于分类的目的不同,聚类是针对数据的相似性和差异性而言的。聚类基于其跨学科、跨领域的特性,因此它的的价值是极高的。

;