资 源 简 介
应用背景
聚类分析在客户分类、基因识别、文本分类、空间数据处理、卫星照片分析、医疗图像自动检测等领域有着广泛的应用,而其本身的研究也是一个蓬勃发展的领域,数据挖掘、统计学、机器学习、空间数据库技术、生物学和市场学的发展推动着聚类分析研究的进展,使它已成为数据挖掘研究中的一个热点,在市场分析中,通过聚类分析能帮助决策者识别不同特征的客户群以及各客户群的行为特征在生物工程研究中。
关键技术k均值算法是聚类分析中一种被广泛应用的启发式划分方法,具有简单、快速的优点。聚类是一个将数据集划分为若干个子集的过程,并使得同一集合内的数据对象具有较高的相似度,而不同集合中的数据对象则是不相似的,相似或不相似的度量是基于数
据对象描述属性的取值来确定的,通常就是利用各个聚类间的距离来进行描述的。聚类分析的基本指导思想是最大程度地实现类中对象相似度最大,类间对象相似度最小。