代码收藏家技术教程 2024-06-04

Educoder机器学习课程：聚类第一关

任务描述

本关任务：了解无监督学习、聚类任务和性能度量的相关概念，使用python语言编程实现性能度量函数。

编程要求

根据提示，在右侧编辑器Begin-End部分补充代码。

任务描述：使用Python语言，对聚类结果进行性能评估。

外部指标：将聚类结果与某个“参考模型”进行比较。

对数据集 D={x1,x2,…,xm} ，假定通过聚类得到的簇划分为 C={C1,C2,…,Ck} ，参考模型给出的簇划分为 C∗={C1∗,C2∗,…,Cs∗} 。相应地，令 λ 与 λ∗ 分别表示与 C 和 C∗ 对应的簇标记向量。

我们将样本两两配对考虑，定义

1. Jaccard 系数（Jaccard Coefficient, JC）

JC=a+b+ca

2. FM 指数（Fowlkes and Mallows Index, FMI）

FMI=a+ba⋅a+ca

3. Rand 指数（Rand Index, RI）

RI=m(m−1)2(a+b)

以上指数在 [0,1] 区间内，越大越好。

内部指标：直接考察聚类结果而不用任何参考模型。

考虑聚类结果的簇划分 C={C1,C2,…,Ck} ，定义

1.簇 C 内样本间的平均距离

avg(C)=∣C∣(∣C∣−1)21≤i≤j≤∣C∣∑dist(xi,xj)

2.簇 C 内样本间的最远距离

diam(C)=1≤i≤j≤∣C∣maxdist(xi,xj)

3.簇 Ci 与簇 Cj 最近样本间的距离

dmin(C)=xi∈Ci,xj∈Cjmindist(xi,xj)

4.簇 Ci 与簇 Cj 中心点间的距离

dcen(C)=dist(μi,μj)

任务1：根据公式计算 Jaccard 系数；

任务2：根据公式计算 FM 指数；

任务3：根据公式计算 Rand 指数。

# 导入库
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.model_selection import train_test_split
import numpy as np

# 加载鸢尾花数据集
iris = load_iris()
x = iris['data']
y = iris['target']

# 将数据集分为训练集和测试集
np.random.seed(0)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.1)

# 任务1：创建 KMeans 对象，令 n_clusters=4
########## Begin ##########
kmeans = KMeans(n_clusters=4)
##########  End  ##########

# 任务2：调用 fit 函数执行训练过程
########## Begin ##########
kmeans = kmeans.fit(x_train)
##########  End  ##########

# 任务3：调用 predict 函数进行预测
########## Begin ########## 
y_pred = kmeans.predict(x_test)
##########  End  ########## 

# 打印结果
print("真实结果：\n", y_test)
print("预测结果：\n", y_pred)

# 计算 a,b,c,d
a = b = c = d = 0
m = 15
for j in range(m):
    for i in range(j):
        if y_test[i]==y_test[j] and y_pred[i]==y_pred[j]:
            a = a + 1
        elif y_test[i]==y_test[j] and y_pred[i]!=y_pred[j]:
            b = b + 1
        elif y_test[i]!=y_test[j] and y_pred[i]==y_pred[j]:
            c = c + 1
        else:
            d = d + 1
        
# 根据公式计算 Jaccard 系数
JC = a / (a + b + c)

# 根据公式计算 FM 指数
FM = np.sqrt(a ** 2 / ((a + b) * (a + c)))

# 根据公式计算 Rand 指数
RI = 2 * (a + b) / (m * (m - 1))

# 打印结果
print("Jaccard 系数为{}，FM 指数为{}，Rand 指数为{}。".format(JC, FM, RI))

作者：鹿毅十川