代码收藏家技术教程 2025-01-08

K-means 聚类：Python 和 Scikit-learn实现

一、说明

虽然深度学习算法无疑是当今最流行的机器学习算法，但还有更多算法。聚类是一种机器学习，您不需要向模型提供训练集，而是尝试在运行时从数据集中得出特征，以便以不同的方式构造数据集。它属于无监督机器学习算法。

二、无监督K 均值聚类

2.1 关于K均值聚类的一般概念

K 均值聚类就是这样一种算法，我们将在今天的博客文章中对其进行深入研究。我们首先通过研究生成聚类所需的步骤来了解它是什么。然后我们来看看惯性度量，它用于计算算法是否需要继续或是否已经完成，即是否存在收敛。接下来我们来看看收敛本身，以及在什么情况下 K 均值聚类可能没有用。

理论部分之后是通过 Python 脚本进行实际实现的。它提供了使用 Scikit-learn 实现 K-means 聚类的示例，Scikit-learn 是当今最流行的机器学习 Python 库之一。总的来说，我们将通过一个示例来了解 K-means 聚类的理论组成部分。

在本文中，我们将学习……

什么是 K 均值聚类。

K-均值聚类的工作原理，包括随机和kmeans++初始化策略。

使用 Scikit-learn 和 Python 实现 K-means 聚类。
让我们来看看！

2.2 什么是 K 均值聚类？

假设我们有一个数据集 X，其中包含许多 n 维向量x_1，x_2，…，x_n。假设 n = 2，则x_1可以是 [3.12, 4.14]。将其映射到二维空间（即平面）上，可得出以下结果：

图片来自作者。
假设我们上面抽象描述的向量以“blob”的形式构建，就像我们合并了两个温度测量数据集一样——一个是来自恒温器的测量值，测量室内温度约为 20 摄氏度，另一个是来自冰箱的测量值，测量温度约为 4 摄氏度。纵轴显示今天的温度，而横轴显示昨天同一时间的温度。

这可能就是冰箱测量温度的要点。整套测量结果如下：

现在，假设我们想知道一个样本是属于“冰箱”集群还是“室温”集群。从视觉上看，我们可以轻松判断它是属于其中之一：两组数据点之间有足够的空间，可以准确评估它是放在冰箱里还是放在客厅里。

但是如果我们想通过算法来做到这一点该怎么办？

K-均值聚类在这种情况下很有用。它使我们能够获得以下结果：

图片来自作者
对于每个样本，都可以清楚知道它是室温样本（红色）还是冰箱温度样本（蓝色），这是通过算法确定的！

三、多维度K 均值聚类

3.1 多维度K均值聚类一般描述

现在，虽然这是一个非常简单的例子，但 K 均值聚类可以应用于更困难的问题，即具有多个聚类的问题，甚至具有多维数据的问题（稍后会详细介绍）。让我们首先看看什么是 K 均值聚类。

为此，我们求助于我们的老朋友维基百科 – 并从相对抽象的定义中挑选出最重要的方面：

K 均值聚类是一种将 n 个观测值划分为 k
个聚类的方法，其中每个观测值属于具有最接近均值的聚类（聚类中心或聚类质心），并作为该聚类的原型。

维基百科（2020）

让我们把它分解成我们可以原子理解的部分：

您有一个长度为 n 的数据集。

目标是聚类，这意味着您想要创建数据“组”，就像上面的场景一样。

您可以控制创建的组（集群）数量：它将是 k 个集群，预先配置。您可以想象，k ≤ n。

现在来看看抽象部分：数据集中的每个样本都被分配到与该簇“平均值”距离最小的簇。平均值的字面意思是特定簇的“中心点”。这样，样本就被分配到最有可能的数据点“组”。
让我们看看该算法是如何工作的。

3.2 K 均值聚类算法

为此，我们求助于 Scikit-learn 网站，该网站用简单的英语很好地解释了这一点：

初始化：启动后立即选择初始质心（聚类中心）。Scikit-learn 支持两种方法：首先，random，从数据集中随机选择 k 个样本。其次，k-means++，优化此过程。

质心分配：数据集中的每个样本都分配给最近的质心。

质心校正：通过计算步骤 2 中创建的分配的新均值来创建新的质心。

差异比较：对于每个质心，比较新旧质心之间的差异，当差异低于称为inertia或的阈值时，算法停止tolerance。否则，算法返回步骤 2。
确实是一个非常简单、优雅但功能强大的算法！

3.1 惯性/聚类内平方和标准

虽然我们用非常简单的方式表达了上述算法，但我们也可以用更数学的方式表达。例如，我们可以将 K 均值聚类视为一种试图最小化惯性或簇内平方和标准的算法（Scikit-learn，nd）。它通过选择质心来实现这一点——因此，选择最小化该值的质心。

这个值是如何确定的？如下所示（Scikit-learn，nd）：

让我们分解一下这个公式。

第一部分，即 sigma 符号，本质上告诉你这个值是数据集中所有 n 个样本的某个值的总和。目前没有什么特别的。但这是什么？

最小值。更准确地说，是每个样本与特定簇的平均值之间的差值的平方的最小值。

当此值最小化时，集群被称为内部连贯（Scikit-learn，nd），并且“质心校正”步骤中的移动将很低。如果它为零，则它已收敛到最佳值。在 Scikit 中，我们指定一个特定的阈值，如果惯性较低，则认为算法已经收敛。这加快了拟合过程。

3.3 关于 K 均值聚类的收敛性

只要有足够的时间，K 均值聚类就会始终收敛到最优值（Scikit-learn，nd）。但是，这不一定是全局最优值——它也可以是局部最优值。根据 Scikit-learn（nd），这完全取决于质心的初始化；也就是说，我们是否使用random初始化策略或k-means++。

在随机情况下，很明显初始化有时会产生非常好的结果，经常产生中等到好的结果，有时产生非常差的结果。这就是抛硬币来决定是否包含样本的问题。至少从形象上讲是这样。

该k-means++策略的工作方式略有不同。让我们再次看一下随机策略，以解释为什么它通常效果更好。在随机策略中，没有人可以确保所选样本彼此相距甚远。尽管几率很小，但它们可能都非常接近。在这种情况下，收敛将成为一项非常困难且耗时的工作（Scikit-learn，nd）。我们显然不希望这样。

K-means++ 确保质心“[通常] 彼此远离”（Scikit-learn，nd）。可以想象，这在收敛性方面，尤其是收敛速度方面，被证明是一个实质性的改进（Scikit-learn，nd）。

四、K 均值聚类的缺点：不选择它的情况？

如果您查看此页面，您会发现 K 均值聚类并不总是有效。具体来说，在以下情况下效果不佳（Scikit-learn，nd）：

当您的数据集中的数据块数量超过您配置的块数量时。出于显而易见的原因，K-means 聚类将失败。用户必须配置集群数量这一事实也是一个可能的失败点。建议在应用 K-means 之前始终仔细查看您的数据集！

当您没有各向同性的斑点时。我知道这是个花哨的词，但各向同性的意思是“形状很好”——即宽度和高度都一样。如果不是（当您点击上面的链接时您会看到这一点），K-means 将检测出一半的簇，并将它们合并在一起。

如果簇不是凸的，或者不是真正可分离的。在这些情况下，算法可能会令人困惑，正如您在上面的链接中看到的那样。

最后，如果您的维数太高。在上述场景中，我们的维数为 2，但添加的维数越多，完成聚类所需的时间就越长。这是由于计算惯性的欧几里德距离的性质所致。因此，您必须首先应用降维 — 例如使用主成分分析 (PCA)等技术。
在天真地做出“仅仅”让它起作用的决定之前，请仔细考虑应用 K-means。它可能根本不起作用！

五、使用 Python 和 Scikit-learn 实现 K-means 聚类

现在我们已经介绍了有关 K 均值聚类的大部分理论，我想是时候给出一些用 Python 编写的示例代码了。为此，我们使用了库scikit-learn，它是应用机器学习模型最广为人知的库之一。具体来说，它广泛用于应用相对传统的机器学习类型，即非深度学习模型。

5.1 原始试验数据生成

让我们打开文件管理器。创建一个名为的文件scikit-blobs.py。在代码编辑器中打开此文件并确保系统上安装了以下依赖项：

Scikit-learn
Matplotlib
Numpy
如果是，那就太好了！我们继续。

生成凸和各向同性的簇
在使用 Scikit-learn 应用 K 均值聚类之前，我们要做的第一件事是生成那些凸且各向同性的聚类。用更通俗的英语来说，就是那些可分离且宽度和高度相等的聚类。不用英语，用可视化来表达，我的意思是：

啊，原来你的意思就是你现在可能会这么想的😂哎呀。

为了使其工作，我们首先必须声明我们的导入：

import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

这些就是今天要导入的所有文件，而不仅仅是用于生成 blob 的文件（这才是make_blobs导入文件）。此外，我们还KMeans从 Scikit-learn导入了numpy用于数字处理的库，以及用于可视化集群的PyPlot库matplotlib（即生成上面的可视化文件）。

现在我们已经指定了导入，是时候设置一些配置选项了：

# Configuration options
num_samples_total = 1000
cluster_centers = [(20,20), (4,4)]
num_classes = len(cluster_centers)

这些真的很简单：

我们将总共生成 1,000 个样本。

它们将分布在 2 个簇上，第一个簇位于大约 (x, y) = (20, 20)，另一个簇位于 (4, 4)。

也就是说num_classes，簇的数量显然是len(cluster_centers)— 即 2。
然后我们生成数据：

# Generate data
X, targets = make_blobs(n_samples = num_samples_total, centers = cluster_centers, n_features = num_classes, center_box=(0, 1), cluster_std = 2)

生成数据只是调用make_blobsScikit-learn 中的定义，它完成了所有艰苦的工作。我们指定之前配置的中心和样本数量，以及特征数量。我们将标准差设置为 2 – 这意味着我们在这两个位置生成的样本分布在中心周围，偏差很可能为正/负 2。

如果您希望保存数据以便以后可以重复使用确切位置（例如，在您想要生成不同的可视化效果的情况下），您可以添加此代码 – 它只是保存数据并立即重新加载，以便您相应地应用。但这不是必需的。

np.save('./clusters.npy', X)
X = np.load('./clusters.npy')

5.2 应用 K 均值聚类算法

是时候应用 K 均值聚类了！首先，我们实例化算法：

# Fit K-means with Scikit
kmeans = KMeans(init='k-means++', n_clusters=num_classes, n_init=10)
kmeans.fit(X)

在这里，我们选择一个初始化策略（要么是，random要么k-means++是，其中后者可能会节省我们的计算时间，所以我们选择它）、聚类的数量和，n_init其作用如下：

使用不同质心种子运行 k-means 算法的次数。最终结果将是 n_init 次连续运行中惯性最好的输出。

Sklearn.cluster.KMeans（nd）

一旦我们完成了这一点，就该实际拟合数据并生成聚类预测了：

# Predict the cluster for all the samples
P = kmeans.predict(X)

就这样——K 均值聚类完成了！如果你希望生成两个类以不同颜色显示的可视化效果，你可能还需要添加以下内容：

# Generate scatter plot for training data
colors = list(map(lambda x: '#3b4cc0' if x == 1 else '#b40426', P))
plt.scatter(X[:,0], X[:,1], c=colors, marker="o", picker=True)
plt.title('Two clusters of data')
plt.xlabel('Temperature yesterday')
plt.ylabel('Temperature today')
plt.show()

5.3 完整模型代码

如果您希望立即获得完整的模型代码 — 当然，这也是可能的。如下所示：

import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# Configuration options
num_samples_total = 1000
cluster_centers = [(20,20), (4,4)]
num_classes = len(cluster_centers)

# Generate data
X, targets = make_blobs(n_samples = num_samples_total, centers = cluster_centers, n_features = num_classes, center_box=(0, 1), cluster_std = 2)

np.save('./clusters.npy', X)
X = np.load('./clusters.npy')

# Fit K-means with Scikit
kmeans = KMeans(init='k-means++', n_clusters=num_classes, n_init=10)
kmeans.fit(X)

# Predict the cluster for all the samples
P = kmeans.predict(X)

# Generate scatter plot for training data
colors = list(map(lambda x: '#3b4cc0' if x == 1 else '#b40426', P))
plt.scatter(X[:,0], X[:,1], c=colors, marker="o", picker=True)
plt.title('Two clusters of data')
plt.xlabel('Temperature yesterday')
plt.ylabel('Temperature today')
plt.show()

结果
结果非常清楚，不是吗：

几乎立即（考虑到样本数量少且斑点高度可分离的事实），我们首次执行了 K 均值聚类！

六、总结

在这篇博文中，我们研究了使用 Python 和 Scikit-learn 进行 K-means 聚类。更具体地说，我们研究了一组问题：
K 均值聚类究竟是什么？
K 均值聚类如何工作？
K 均值聚类的惯性是什么？
使用 K 均值聚类有什么缺点；即什么时候使用它是不明智的？
如何使用 Python 和 Scikit-learn 实现 K-means 聚类？你能举个例子吗？
希望您从今天的文章中有所收获！欢迎并鼓励您提出任何评论、建议或问题。

作者：无水先生