代码收藏家技术教程 2024-10-02

Python入门指南：支持向量机详解

前言

1. 理解支持向量机的基本概念

2. 支持向量机的工作原理

3. 使用Python实现支持向量机

3.1 导入库并创建数据集

3.2 训练支持向量机模型

3.3 可视化支持向量机决策边界

4. 总结

前言

支持向量机（Support Vector Machine，SVM）是一种强大的监督学习模型，广泛应用于分类和回归分析。其核心思想是将数据点映射到高维空间，以便找到一个最佳的超平面将不同类别的数据有效分开。本文将介绍支持向量机的基本概念、原理以及如何使用 Python 实现 SVM。

1. 理解支持向量机的基本概念

支持向量机旨在找到一个最优的超平面，以最大化两个类别之间的间隔（margin）。该超平面可以表示为：

𝑤⋅𝑥+𝑏=0

其中：

𝑤 是超平面的法向量。

𝑏 是偏差项。

超平面将数据集划分为两个类别。对于一组样本，支持向量是离决策边界最近的样本点。以下是一些关键概念：

间隔：支持向量机的目标是最大化间隔，即支持向量与超平面之间的距离。

核函数：为了处理非线性可分的数据，SVM使用核函数将数据映射到高维空间。在高维空间中，数据可能变得线性可分。

2. 支持向量机的工作原理

支持向量机的工作原理可以总结为以下几个步骤：

选择合适的核函数：根据实际问题选择线性核、RBF核、多项式核等。
构建优化问题：使用拉格朗日乘子法构建优化问题，通过优化确定超平面。
求解优化问题：使用二次规划(Quadratic Programming)方法求解优化问题，获得最优的 𝑤 和 𝑏。
分类：使用得到的 𝑤 和 𝑏对新样本进行分类。

3. 使用Python实现支持向量机

现在，我们通过 Python 和 scikit-learn 库实现一个简单的支持向量机分类示例。首先确保安装了所需的库：

pip install numpy pandas matplotlib scikit-learn

3.1 导入库并创建数据集

我们首先导入必要的库，并创建一个简单的二分类数据集。

import numpy as np  
import pandas as pd  
import matplotlib.pyplot as plt  
from sklearn import datasets  
from sklearn.model_selection import train_test_split  

# 创建一个简单的二分类数据集  
X, y = datasets.make_blobs(n_samples=100, centers=2, random_state=6)  

# 将数据拆分为训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  

# 可视化数据集  
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='spring')  
plt.title('Generated Data for SVM')  
plt.xlabel('Feature 1')  
plt.ylabel('Feature 2')  
plt.show()

运行结果如图：

3.2 训练支持向量机模型

接下来，我们使用 scikit-learn 的 SVC 类创建支持向量机模型，训练并评估模型。

from sklearn.svm import SVC  
from sklearn.metrics import classification_report, confusion_matrix  

# 创建支持向量机分类器  
model = SVC(kernel='linear')  

# 在训练集上拟合模型  
model.fit(X_train, y_train)  

# 在测试集上进行预测  
y_pred = model.predict(X_test)  

# 打印分类报告和混淆矩阵  
print(classification_report(y_test, y_pred))  
print(confusion_matrix(y_test, y_pred))

运行结果：

3.3 可视化支持向量机决策边界

为了更好地理解模型，我们将可视化支持向量机的决策边界。

def plot_decision_boundary(model, X, y):  
    # 绘制决策边界  
    h = .02  # 网格的步长  
    # 计算特征的最小值和最大值，并加上边界以便绘制  
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1  
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1  
    # 创建网格点，用于绘制决策边界  
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))  

    # 在网格点上进行预测  
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])  
    Z = Z.reshape(xx.shape)  # 将预测结果重塑为与网格相同的形状  

    # 绘制决策边界  
    plt.contourf(xx, yy, Z, alpha=0.8, cmap='spring')  
    # 绘制原始数据点  
    plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', marker='o', s=50, cmap='spring')  
    # 绘制支持向量  
    plt.scatter(model.support_vectors_[:, 0], model.support_vectors_[:, 1], s=100, facecolors='none', edgecolors='k')  
    # 设置标题和坐标轴标签  
    plt.title('SVM Decision Boundary and Support Vectors')  
    plt.xlabel('特征 1')  
    plt.ylabel('特征 2')  
    # 显示绘图结果  
    plt.show()  

# 调用绘制决策边界的函数  
plot_decision_boundary(model, X, y)

运行结果如图：