代码收藏家技术教程 2024-09-11

【机器学习进阶】支持向量机（SVM）核心概念解析、参数选择指南及Python实战应用

引言

支持向量机（SVM）是一种在机器学习中广泛应用的二分类模型。它的核心思想是寻找一个最优的超平面，将不同类别的样本分隔开来。这个过程涉及到最大化间隔，即找到那些最接近分隔超平面的样本点，这些点被称为支持向量。SVM的目标是确保这些支持向量与分隔超平面的距离尽可能大，从而提高分类的准确性

文章目录

引言

一、支持向量机（SVM）的基本概念

1.1 超平面

1.2 间隔

1.3 支持向量

1.4 训练算法

1.4.1 最优化问题

1.4.2 拉格朗日乘子法

1.5 优点和局限性

1.5.1 优点

1.5.2 局限性

1.6 应用

1.7 总结

二、向量机（SVM）不同的类型

2.1 线性支持向量机

2.1.1 线性可分SVM

2.1.2 线性不可分SVM

2.2 非线性支持向量机

2.2.1 核函数

三、如何选择向量机（SVM）的参数

3.1 选择核函数

3.2 调整参数

3.2.1 C（惩罚参数）

3.2.2 c（RBF核的参数）

3.2.3 degree（多项式核的参数）

3.3 调参技巧

3.4 考虑计算资源

3.5 避免过拟合

3.6 总结

四、在python中使用向量机的实例

4.1 代码

4.2 代码解释

一、支持向量机（SVM）的基本概念

支持向量机（Support Vector Machine，简称SVM）是一种监督学习算法，用于分类和回归分析

1.1 超平面

在二维空间中，一条直线可以划分两个类别；在三维空间中，一个平面可以划分两个类别。这种划分的边界被称为超平面。在更高维的空间中，超平面是划分数据的一种线性边界

1.2 间隔

间隔是指超平面与最近的训练样本之间的距离。支持向量机的基本目标是最大化这个间隔，这样可以提高模型的泛化能力

1.3 支持向量

支持向量是指那些位于间隔边界上的样本点。在确定了最优超平面之后，只有支持向量对超平面的位置有影响，其他样本点则没有影响

1.4 训练算法

1.4.1 最优化问题

SVM的训练过程可以看作是一个最优化问题，目标是找到使得间隔最大化的超平面。这通常转化为一个凸二次规划问题

1.4.2 拉格朗日乘子法

为了解决这个最优化问题，通常使用拉格朗日乘子法。通过引入拉格朗日乘子，将原始问题转化为对偶问题，这样可以更容易地求解

1.5 优点和局限性

1.5.1 优点

效果好：在多种不同的应用领域中表现出色

可以处理高维数据：通过核函数，无需直接在高维空间中进行计算

泛化能力强：由于最大化间隔，通常具有良好的泛化能力

1.5.2 局限性

计算复杂度高：对于大规模数据集，SVM的训练时间可能会很长

只适用于二分类：传统的SVM是为二分类问题设计的，虽然可以通过一对多或一对一的方法扩展到多分类问题，但这会使得计算复杂度增加

1.6 应用

SVM在多种领域都有应用，包括文本分类、图像识别、生物信息学等

1.7 总结

支持向量机是一个强大的机器学习工具，特别是当数据集相对较小且特征维度较高时。通过适当选择核函数和调整参数，SVM可以在多种不同的学习任务中取得良好的效果

二、向量机（SVM）不同的类型

2.1 线性支持向量机

2.1.1 线性可分SVM

当数据集是线性可分的，即存在一个超平面可以完美地将两类数据分开时，我们可以使用硬间隔最大化来找到最优超平面

2.1.2 线性不可分SVM

当数据集不是线性可分的时，可以使用软间隔最大化。这涉及到引入松弛变量，允许一些样本点不满足严格的分类条件

2.2 非线性支持向量机

2.2.1 核函数

对于线性问题，SVM通过使用核函数将数据映射到高维空间，在这个高维空间中寻找最优超平面。常用的核函数包括：

线性核

多项式核

径向基函数（RBF）

Sigmoid核

三、如何选择向量机（SVM）的参数

选择支持向量机（SVM）的参数是模型调优的关键步骤，这些参数会影响模型的性能和泛化能力。选择支持向量机（SVM）的参数是模型调优的关键步骤，这些参数会影响模型的性能和泛化能力

3.1 选择核函数

首先，需要决定是否使用核技巧以及选择哪种核函数

线性核：如果数据是线性可分的，或者特征维度很高，使用线性核通常是一个好的起点，因为它简单且计算效率高

多项式核：如果数据不是线性可分的，可以尝试多项式核。需要选择合适的次数d

径向基函数（RBF）核：这是最常用的核函数，适用于各种不同的数据集。RBF核包含一个参数γ

Sigmoid核：这个核函数较少使用，但在某些特定问题上可能有效

3.2 调整参数

其次，是一些关键参数及其调整方法

3.2.1 C（惩罚参数）

目的：C参数用于控制误分类的惩罚程度。C值大意味着分类器会选择一个较小的间隔，以减少训练样本上的错误分类；C值小则意味着分类器会选择一个较大的间隔，允许更多的错误分类

调整方法：使用交叉验证来找到最优的C值。通常，可以在一个较大的范围内进行搜索，例如从0.1到1000

3.2.2 c（RBF核的参数）

目的：c参数定义了单一训练样本的影响范围，即它与超平面的距离。c值大意味着影响范围小，模型复杂度较高；c值小则意味着影响范围大，模型复杂度较低

调整方法：同样，可以使用交叉验证来选择c。c的值通常在0.001到10之间搜索

3.2.3 degree（多项式核的参数）

目的：degree定义了多项式核的次数

调整方法：通常，从较小的值开始（例如2或3），并根据模型性能逐渐增加

3.3 调参技巧

网格搜索（Grid Search）：这是一种常用的方法，通过系统地遍历参数的所有组合来找到最优参数

随机搜索（Random Search）：与网格搜索不同，随机搜索在参数空间中随机选取参数组合，这通常比网格搜索更高效

交叉验证：使用交叉验证来评估参数组合的性能。K-折交叉验证是最常用的方法

模型选择准则：除了交叉验证误差，还可以使用AIC、BIC等准则来选择模型

3.4 考虑计算资源

参数的选择也应考虑计算资源。高复杂度的模型可能需要更长的训练时间，且可能需要更多的内存

3.5 避免过拟合

选择参数时，要注意避免过拟合。一个过于复杂的模型可能在训练数据上表现很好，但在未见过的数据上表现不佳

3.6 总结

通过这些步骤，你可以为SVM选择合适的参数，从而构建一个既准确又具有良好泛化能力的模型

四、在python中使用向量机的实例

4.1 代码

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score

# 加载乳腺癌数据集
breast_cancer = datasets.load_breast_cancer()
X = breast_cancer.data
y = breast_cancer.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 数据标准化
scaler = StandardScaler()
X_train_std = scaler.fit_transform(X_train)
X_test_std = scaler.transform(X_test)

# 创建SVM分类器实例，这里使用径向基函数（RBF）核
svm = SVC(kernel='rbf', C=10.0, gamma=0.1, random_state=42)

# 训练模型
svm.fit(X_train_std, y_train)

# 测试模型
y_pred = svm.predict(X_test_std)

# 输出分类报告和准确率
report = classification_report(y_test, y_pred)
accuracy = accuracy_score(y_test, y_pred)

print("分类报告：\n", report)
print("准确率：", accuracy)

输出结果：