前言

Machine Learning definition

Arthur Samuel(1959)Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.
TomMitchell(1998)Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

机器学习（Machine Learning，ML）是多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构，使之不断改善自身的性能。

机器学习能让我们从数据集中受到启发，换句话说，我们会利用计算机来彰显数据背后的真实含义，这才是机器学习的真实含义。它既不是只会模仿的机器人，也不是具有人类感情的仿生人。

学习资源——在线课程

Coursera: Machine Learning

机器学习-白板推导系列-开篇

Stanford CS229: Machine Learning

UCB CS189: Introduction to Machine Learning

学习资源——书籍

《统计学习方法（第2版）》分为监督学习和无监督学习两篇，全面系统地介绍了统计学习的主要方法。包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场，以及聚类方法、奇异值分解、主成分分析、潜在语义分析、概率潜在语义分析、马尔可夫链蒙特卡罗法、潜在狄利克雷分配和PageRank算法等。

学习路线

以下不是针对回答评论，而是对现在初学者一上来就推荐统计学习方法的回答的评价（来自豆瓣）

初学者不适合看《统计学习方法》，但是从事相关行业的人必定要看，本书精简不啰嗦，面面俱到，从原理上给你整得明明白白的，辅以适当的例子，没有多余的图表，因为人工智能不是什么画图跑demo的专业，你需要有扎实的数学基础。

建议路线，ng课程入门，知道有哪些算法，大致怎么做，然后去kaggle打个入门赛，别做特征工程，把会的算法全用上。然后放下比赛，开始读这本书，同时看机器学习基石或其他比较数学化的进阶课程，这一步不需要你敲代码，你要会的是滚瓜烂熟的推导，做到这一步，再去kaggle参加奖金赛，阅读kernel，学习state of the art 模型，学习特征工程，再在学习过程中阅读最新的论文或者经典的论文，不断迭代这个过程，别淹死在什么机器学习实战上，有现成的轮子不用，非得费那个劲，除非你科班毕业，代码能力扎实，不然你能不能从头实现一遍决策树对你找不找到工作没有任何一毛钱关系。笔试不会考你如何实现hmm，只会考数据结构与算法，面试只会让你推导。

面过一些学过吴恩达公开课和《统计学习方法》之类教材的同学，一方面在实现上，C++水平不行，然后就想要来做算法，说实话，看过这些东西对于机器学习的面有所了解。了解人家转述的算法，连论文都没读过就想要来做研究也是醉了。说PCA，对于SVD分解的方法讲的头头是道，但是问他怎么用基本的特征分解来做，就说自己不了解。说K均值和EM好像很熟悉，问他K均值跟EM什么关系，不知道。说EM熟悉吧，高斯混合模型不了解……说梯度下降很熟悉吧，问他什么是线性最小二乘法什么是非线性最小二乘法，都支支吾吾不懂。一言以蔽之，知其然而不知其所以然，要做算法研究就踏踏实实以书本为纲，找到感兴趣的点去读相关论文。要做算法实现就老老实实地把C++学好，只会一点点python加上读过两本普及教材说真的没有公司要招你。

个人认为各种ML算法（含监督式/非监督式/强化学习）难度从小到大以及学习的顺序应该是这样的：

入门：线性回归/逻辑回归，kNN，k-means，决策树，神经网络（MLP/CNN/LSTM），反向传播，RL的bandit/MDP/动态规划/TD/MC

初级：贝叶斯线性回归/逻辑回归，NLP的Transformer/BERT/GPT, GMM/HMM，EM/Baum-Welch/Viterbi/卡尔曼滤波，概率图模型和BP，Junction tree，SVM/核方法/RKHS，model-based RL/policy gradient/actor-critic

中级：helmholtz/boltzmann machine/RBM/DBN，高斯过程，t-SNE/manifold learning/非线性降维，各种近似推断（平均场，期望传播，变分贝叶斯，loopy BP，kikuchi，stein），各种采样和MCMC方法（MH, Gibb’s, HMC, SMC, AIS, particle filter)，各种积分方法（MC/高斯数值求积/无迹变换）。以及一些核方法延伸的主题如MMD，HSIC之类的

高级：统计学习理论（ERM/VC维/PAC/rademacher等），贝叶斯非参（DP/CRP/IBP等）

另外附一份（个人认为）按以上各“等级”的数学要求：

入门：多元微积分，线性代数，基本概率论（随机变量，基本分布，期望和方差）

初级：凸优化（尤其constrained opt/KKT condition），图论，高维概率论（尤其是正态分布，包括正态分布的线性变换，条件概率分布），贝叶斯推断，随机过程

中级：更多的概率论（指数族分布和GLM，skewness, kurtosis，测度论）和凸优化，统计力学（spin glass model），凸分析，泛函分析

Introduction

对概率的诠释有两大学派，一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号： $X_{N \times p} = (x_{1}, x_{2}, \dots, x_{N})^{T}, x_{i} = (x_{i 1}, x_{i 2}, \dots, x_{i p})^{T}$ 这个记号表示有 $N$ 个样本，每个样本都是 $p$ 维向量。其中每个观测都是由 $p (x ∣ θ)$ 生成的。

频率派的观点

$p (x ∣ θ)$ 中的 $θ$ 是一个常量。对于 $N$ 个观测来说观测集的概率为 $p (X ∣ θ) ii d = i = 1 \prod N p (x_{i} ∣ θ))$ 。为了求 $θ$ 的大小，我们采用最大对数似然MLE的方法：

$θ_{M L E} = θ a r g ma x lo g p (X ∣ θ) ii d = θ a r g ma x i = 1 \sum N lo g p (x_{i} ∣ θ)$

贝叶斯派的观点

贝叶斯派认为 $p (x ∣ θ)$ 中的 $θ$ 不是一个常量。这个 $θ$ 满足一个预设的先验的分布 $θ \sim p (θ)$ 。于是根据贝叶斯定理依赖观测集参数的后验可以写成：

$p (θ ∣ X) = \frac{p ( X ∣ θ ) \cdot p ( θ )}{p ( X )} = \frac{p ( X ∣ θ ) \cdot p ( θ )}{θ \int p ( X ∣ θ ) \cdot p ( θ ) d θ}$ 为了求 $θ$ 的值，我们要最大化这个参数后验MAP：

$θ_{M A P} = θ a r g ma x p (θ ∣ X) = θ a r g ma x p (X ∣ θ) \cdot p (θ)$ 其中第二个等号是由于分母和 $θ$ 没有关系。求解这个 $θ$ 值后计算 $\frac{p ( X ∣ θ ) \cdot p ( θ )}{θ \int p ( X ∣ θ ) \cdot p ( θ ) d θ}$ ，就得到了参数的后验概率。其中 $p (X ∣ θ)$ 叫似然，是我们的模型分布。得到了参数的后验分布后，我们可以将这个分布用于预测贝叶斯预测： $p (x_{n e w} ∣ X) = θ \int p (x_{n e w} ∣ θ) \cdot p (θ ∣ X) d θ$ 其中积分中的被乘数是模型，乘数是后验分布。

小结

频率派和贝叶斯派分别给出了一系列的机器学习算法。频率派的观点导出了一系列的统计机器学习算法而贝叶斯派导出了概率图理论。在应用频率派的 MLE 方法时最优化理论占有重要地位。而贝叶斯派的算法无论是后验概率的建模还是应用这个后验进行推断时积分占有重要地位。因此采样积分方法如 MCMC 有很多应用。

数学基础

线性代数基础

Matrix derivatives

For a function $f : R^{n \times d} \mapsto R$ mapping from $n$ -by-d matrices to the real numbers, we define the derivative of $f$ with respect to $A$ to be:

$\nabla_{A} f (A) = \frac{\partial f}{\partial A _{11}} ⋮ \frac{\partial f}{\partial A _{n 1}} \dots ⋱ \dots \frac{\partial f}{\partial A _{1 d}} ⋮ \frac{\partial f}{\partial A _{n d}}$

Thus, the gradient $\nabla_{A} f (A)$ is itself an $n$ -by- $d$ matrix, whose $(i, j)$ -element is $\partial f / \partial A_{ij}$ . For example, suppose $A = [A_{11} A_{21} A_{12} A_{22}]$ is a 2-by-2 matrix, and the function $f : R^{2 \times 2} \mapsto R$ is given by

$f (A) = \frac{3}{2} A_{11} + 5 A_{12}^{2} + A_{21} A_{22} .$

Here, $A_{ij}$ denotes the $(i, j)$ entry of the matrix $A$ . We then have

$\nabla_{A} f (A) = [\frac{3}{2} A_{22} 10 A_{12} A_{21}] .$

概率论基础

高斯分布

一维情况 MLE

高斯分布在机器学习中占有举足轻重的作用。在 MLE 方法中：

$θ = (μ, Σ) = (μ, σ^{2}), θ_{M L E} = θ a r g ma x lo g p (X ∣ θ) ii d = θ a r g ma x i = 1 \sum N lo g p (x_{i} ∣ θ)$ 一般地，高斯分布的概率密度函数PDF写为：

$p (x ∣ μ, Σ) = \frac{1}{( 2 π ) ^{p /2} ∣Σ ∣ ^{1/2}} e^{- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)}$ 带入 MLE 中我们考虑一维的情况

$lo g p (X ∣ θ) = i = 1 \sum N lo g p (x_{i} ∣ θ) = i = 1 \sum N lo g \frac{1}{2 π σ} exp (- (x_{i} - μ)^{2} /2 σ^{2})$ 首先对 $μ$ 的极值可以得到： $μ_{M L E} = μ a r g ma x lo g p (X ∣ θ) = μ a r g ma x i = 1 \sum N (x_{i} - μ)^{2}$ 于是： $\frac{\partial}{\partial μ} i = 1 \sum N (x_{i} - μ)^{2} = 0 ⟶ μ_{M L E} = \frac{1}{N} i = 1 \sum N x_{i}$ 其次对 $θ$ 中的另一个参数 $σ$ ，有： $σ_{M L E} = σ a r g ma x lo g p (X ∣ θ) = σ a r g ma x i = 1 \sum N [- lo g σ - \frac{1}{2 σ ^{2}} (x_{i} - μ)^{2}] = σ a r g min i = 1 \sum N [lo g σ + \frac{1}{2 σ ^{2}} (x_{i} - μ)^{2}]$ 于是： $\frac{\partial}{\partial σ} i = 1 \sum N [lo g σ + \frac{1}{2 σ ^{2}} (x_{i} - μ)^{2}] = 0 ⟶ σ_{M L E}^{2} = \frac{1}{N} i = 1 \sum N (x_{i} - μ)^{2}$ 值得注意的是，上面的推导中，首先对 $μ$ 求 MLE，然后利用这个结果求 $σ_{M L E}$ ，因此可以预期的是对数据集求期望时 $E_{D} [μ_{M L E}]$ 是无偏差的： $E_{D} [μ_{M L E}] = E_{D} [\frac{1}{N} i = 1 \sum N x_{i}] = \frac{1}{N} i = 1 \sum N E_{D} [x_{i}] = μ$ 但是当对 $σ_{M L E}$ 求期望的时候由于使用了单个数据集的 $μ_{M L E}$ ，因此对所有数据集求期望的时候我们会发现 $σ_{M L E}$ 是有偏的：

$E_{D} [σ_{M L E}^{2}] = E_{D} [\frac{1}{N} i = 1 \sum N (x_{i} - μ_{M L E})^{2}] = E_{D} [\frac{1}{N} i = 1 \sum N (x_{i}^{2} - 2 x_{i} μ_{M L E} + μ_{M L E}^{2}) = E_{D} [\frac{1}{N} i = 1 \sum N x_{i}^{2} - μ_{M L E}^{2}] = E_{D} [\frac{1}{N} i = 1 \sum N x_{i}^{2} - μ^{2} + μ^{2} - μ_{M L E}^{2}] = E_{D} [\frac{1}{N} i = 1 \sum N x_{i}^{2} - μ^{2}] - E_{D} [μ_{M L E}^{2} - μ^{2}] = σ^{2} - (E_{D} [μ_{M L E}^{2}] - μ^{2}) = σ^{2} - (E_{D} [μ_{M L E}^{2}] - E_{D}^{2} [μ_{M L E}]) = σ^{2} - Va r [μ_{M L E}] = σ^{2} - Va r [\frac{1}{N} i = 1 \sum N x_{i}] = σ^{2} - \frac{1}{N ^{2}} i = 1 \sum N Va r [x_{i}] = \frac{N - 1}{N} σ^{2}$ 所以： $\overset{σ}{^}^{2} = \frac{1}{N - 1} i = 1 \sum N (x_{i} - μ)^{2}$

多维情况

多维高斯分布表达式为： $p (x ∣ μ, Σ) = \frac{1}{( 2 π ) ^{p /2} ∣Σ ∣ ^{1/2}} e^{- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)}$ 其中 $x, μ \in R^{p}, Σ \in R^{p \times p}$ ， $Σ$ 为协方差矩阵，一般而言也是半正定矩阵。这里我们只考虑正定矩阵。首先我们处理指数上的数字，指数上的数字可以记为 $x$ 和 $μ$ 之间的马氏距离。对于对称的协方差矩阵可进行特征值分解， $Σ = U Λ U^{T} = (u_{1}, u_{2}, \dots, u_{p}) d ia g (λ_{i}) (u_{1}, u_{2}, \dots, u_{p})^{T} = i = 1 \sum p u_{i} λ_{i} u_{i}^{T}$ ，于是：

$Σ^{- 1} = i = 1 \sum p u_{i} \frac{1}{λ _{i}} u_{i}^{T}$

$Δ = (x - μ)^{T} Σ^{- 1} (x - μ) = i = 1 \sum p (x - μ)^{T} u_{i} \frac{1}{λ _{i}} u_{i}^{T} (x - μ) = i = 1 \sum p \frac{y _{i}^{2}}{λ _{i}}$

我们注意到 $y_{i}$ 是 $x - μ$ 在特征向量 $u_{i}$ 上的投影长度，因此上式子就是 $Δ$ 取不同值时的同心椭圆。

下面我们看多维高斯模型在实际应用时的两个问题

参数 $Σ, μ$ 的自由度为 $O (p^{2})$ 对于维度很高的数据其自由度太高。解决方案：高自由度的来源是 $Σ$ 有 $\frac{p ( p + 1 )}{2}$ 个自由参数，可以假设其是对角矩阵，甚至在各向同性假设中假设其对角线上的元素都相同。前一种的算法有 Factor Analysis，后一种有概率 PCA(p-PCA) 。
第二个问题是单个高斯分布是单峰的，对有多个峰的数据分布不能得到好的结果。解决方案：高斯混合GMM 模型。

下面对多维高斯分布的常用定理进行介绍。

我们记 $x = (x_{1}, x_{2}, \dots, x_{p})^{T} = (x_{a, m \times 1}, x_{b, n \times 1})^{T}, μ = (μ_{a, m \times 1}, μ_{b, n \times 1}), Σ = (Σ_{aa} Σ_{ba} Σ_{ab} Σ_{bb})$ ，已知 $x \sim N (μ, Σ)$ 。

首先是一个高斯分布的定理：

定理：已知 $x \sim N (μ, Σ), y \sim A x + b$ ，那么 $y \sim N (A μ + b, A Σ A^{T})$ 。

证明： $E [y] = E [A x + b] = A E [x] + b = A μ + b$ ， $Va r [y] = Va r [A x + b] = Va r [A x] = A \cdot Va r [x] \cdot A^{T}$ 。

下面利用这个定理得到 $p (x_{a}), p (x_{b}), p (x_{a} ∣ x_{b}), p (x_{b} ∣ x_{a})$ 这四个量。

$x_{a} = (I_{m \times m} O_{m \times n})) (x_{a} x_{b})$ ，代入定理中得到： $E [x_{a}] = (I O) (μ_{a} μ_{b}) = μ_{a} Va r [x_{a}] = (I O) (Σ_{aa} Σ_{ba} Σ_{ab} Σ_{bb}) (I O) = Σ_{aa}$ 所以 $x_{a} \sim N (μ_{a}, Σ_{aa})$ 。
同样的， $x_{b} \sim N (μ_{b}, Σ_{bb})$ 。
对于两个条件概率，我们引入三个量： $x_{b \cdot a} = x_{b} - Σ_{ba} Σ_{aa}^{- 1} x_{a} μ_{b \cdot a} = μ_{b} - Σ_{ba} Σ_{aa}^{- 1} μ_{a} Σ_{bb \cdot a} = Σ_{bb} - Σ_{ba} Σ_{aa}^{- 1} Σ_{ab}$ 特别的，最后一个式子叫做 $Σ_{bb}$ 的 Schur Complementary。可以看到： $x_{b \cdot a} = (- Σ_{ba} Σ_{aa}^{- 1} I_{n \times n}) (x_{a} x_{b})$ 所以： $E [x_{b \cdot a}] = (- Σ_{ba} Σ_{aa}^{- 1} I_{n \times n}) (μ_{a} μ_{b}) = μ_{b \cdot a} Va r [x_{b \cdot a}] = (- Σ_{ba} Σ_{aa}^{- 1} I_{n \times n}) (Σ_{aa} Σ_{ba} Σ_{ab} Σ_{bb}) (- Σ_{aa}^{- 1} Σ_{ba}^{T} I_{n \times n}) = Σ_{bb \cdot a}$ 利用这三个量可以得到 $x_{b} = x_{b \cdot a} + Σ_{ba} Σ_{aa}^{- 1} x_{a}$ 。因此： $E [x_{b} ∣ x_{a}] = μ_{b \cdot a} + Σ_{ba} Σ_{aa}^{- 1} x_{a}$

$Va r [x_{b} ∣ x_{a}] = Σ_{bb \cdot a}$

这里同样用到了定理。
同样： $x_{a \cdot b} = x_{a} - Σ_{ab} Σ_{bb}^{- 1} x_{b} μ_{a \cdot b} = μ_{a} - Σ_{ab} Σ_{bb}^{- 1} μ_{b} Σ_{aa \cdot b} = Σ_{aa} - Σ_{ab} Σ_{bb}^{- 1} Σ_{ba}$ 所以： $E [x_{a} ∣ x_{b}] = μ_{a \cdot b} + Σ_{ab} Σ_{bb}^{- 1} x_{b}$

$Va r [x_{a} ∣ x_{b}] = Σ_{aa \cdot b}$

下面利用上边四个量，求解线性模型：

已知： $p (x) = N (μ, Λ^{- 1}), p (y ∣ x) = N (A x + b, L^{- 1})$ ，求解： $p (y), p (x ∣ y)$ 。

解：令 $y = A x + b + ϵ, ϵ \sim N (0, L^{- 1})$ ，所以 $E [y] = E [A x + b + ϵ] = A μ + b$ ， $Va r [y] = A Λ^{- 1} A^{T} + L^{- 1}$ ，因此： $> p (y) = N (A μ + b, L^{- 1} + A Λ^{- 1} A^{T}) >$ 引入 $z = (x y)$ ，我们可以得到 $C o v [x, y] = E [(x - E [x]) (y - E [y])^{T}]$ 。对于这个协方差可以直接计算： $> > C o v (x, y) = E [(x - μ) (A x - A μ + ϵ)^{T}] = E [(x - μ) (x - μ)^{T} A^{T}] = Va r [x] A^{T} = Λ^{- 1} A^{T} > >$ 注意到协方差矩阵的对称性，所以 $p (z) = N (μ A μ + b), (Λ^{- 1} A Λ^{- 1} Λ^{- 1} A^{T} L^{- 1} + A Λ^{- 1} A^{T}))$ 。根据之前的公式，我们可以得到： $> E [x ∣ y] = μ + Λ^{- 1} A^{T} (L^{- 1} + A Λ^{- 1} A^{T})^{- 1} (y - A μ - b) >$

$> Va r [x ∣ y] = Λ^{- 1} - Λ^{- 1} A^{T} (L^{- 1} + A Λ^{- 1} A^{T})^{- 1} A Λ^{- 1} >$

线性回归

概述

Given data like this, how can we learn to predict the prices of other houses in Portland, as a function of the size of their living areas?

To establish notation for future use, we'll use $x^{(i)}$ to denotc the “input” variables (living area in this example), also called input featurcs, and $y^{(i)}$ to denote the “output” or target variable that we are trying to predict $(price) .$ A pair $(x^{(i)}, y^{(i)})$ is called a training example, and the dataset that we'll be using to learn—a list of $n$ training examples ${(x^{(i)}, y^{(i)}); i =$ $1, \dots, n}$ —is called a training set. Note that the superscript “ $(i)$ ” in the notation is simply an index into the training set, and has nothing to do with exponentiation. We will also use $χ$ denote the space of input values, and $γ$ the space of output values. In this example, $X = Y = R .$

To describe the supervised learning problem slightly more formally, our goal is, given a training set, to learn a function $h : X \mapsto Y$ so that $h (x)$ is a “good” predictor for the corresponding value of $y .$ For historical reasons, this function h is called a hypothesis.

When the target variable that we're trying to predict is continuous, such as in our housing example, we call the learning problem a regression problem.When $y$ can take on only a small number of discrete values (such as if, given the living area, we wanted to predict if a dwelling is a house or an apartment, say), we call it a classification problem.

Here, the $x$ 's are two-dimensional vectors in $R^{2}$ . For instance, $x_{1}^{(i)}$ is the living area of the $i$ -th house in the training set, and $x_{2}^{(i)}$ is its number of bedrooms. (In general, when designing a learning problem, it will be up to you to decide what features to choose, so if you are out in Portland gathering housing data, you might also decide to include other features such as whether each house has a fireplace, the number of bathrooms, and so on. We'll say more about feature selection later, but for now let's take the features as given.)

To perform supervised learning, we must decide how we're going to represent functions/hypotheses $h$ in a computer. As an initial choice, let's say we decide to approximate $y$ as a linear function of $x :$

$h_{θ} (x) = θ_{0} + θ_{1} x_{1} + θ_{2} x_{2}$

Here, the $θ_{i}$ 's are the parameters (also called weights) parameterizing the space of linear functions mapping from $χ$ to $γ$ . When there is no risk of confusion, we will drop the $θ$ subscript in $h_{θ} (x)$ , and write it more simply as $h (x) .$ To simplify our notation, we also introduce the convention of letting $x_{0} = 1$ (this is the intercept term), so that

$h (x) = i = 0 \sum d θ_{i} x_{i} = θ^{T} x,$

where on the right-hand side above we are viewing $θ$ and $x$ both as vectors, and here $d$ is the number of input variables (not counting $x_{0}) .$

Now, given a training set, how do we pick, or learn, the parameters $θ ?$ One reasonable method seems to be to make $h (x)$ close to $y$ , at least for the training examples we have. To formalize this, we will define a function that measures, for each value of the $θ$ 's, how close the $h (x^{(i)})$ 's are to the corresponding $y^{(i),}$ s. We define the $cos$ t function:

$J (θ) = \frac{1}{2} i = 1 \sum n (h_{θ} (x^{(i)}) - y^{(i)})^{2} .$

If you've seen linear regression before, you may recognize this as the familian least-squares cost function that gives rise to the ordinary least squares regression model. Whether or not you have seen it previously, let's keep going, and we'll eventually show this to be a special case of a much broader family of algorithms.

两种求解方式的比较：

可见特征方程得到的是解析解，无需迭代，也没有设置学习速率的繁琐，需要特征归一化，但是求解正规方程需要求矩阵的逆，然而不是所有的矩阵都可逆，而且有些可逆矩阵的求逆极其耗费时间，所以特征方程法看似简单，其实使用场景并不多。只有当特征值比较小的时候，可以考虑使用特征方程法。

小结

线性回归模型是最简单的模型，但是麻雀虽小，五脏俱全，在这里，我们利用最小二乘误差得到了闭式解。同时也发现，在噪声为高斯分布的时候，MLE 的解等价于最小二乘误差，而增加了正则项后，最小二乘误差加上 L2 正则项等价于高斯噪声先验下的 MAP解，加上 L1 正则项后，等价于 Laplace 噪声先验。

传统的机器学习方法或多或少都有线性回归模型的影子：

线性模型往往不能很好地拟合数据，因此有三种方案克服这一劣势：
1. 对特征的维数进行变换，例如多项式回归模型就是在线性特征的基础上加入高次项。
2. 在线性方程后面加入一个非线性变换，即引入一个非线性的激活函数，典型的有线性分类模型如感知机。
3. 对于一致的线性系数，我们进行多次变换，这样同一个特征不仅仅被单个系数影响，例如多层感知机（深度前馈网络）。
线性回归在整个样本空间都是线性的，我们修改这个限制，在不同区域引入不同的线性或非线性，例如线性样条回归和决策树模型。
线性回归中使用了所有的样本，但是对数据预先进行加工学习的效果可能更好（所谓的维数灾难，高维度数据更难学习），例如 PCA 算法和流形学习。

线性回归——梯度下降法求解

LMS algorithm

We want to choose $θ$ so as to minimize $J (θ) .$ To do so, let's use a search algorithm that starts with some “initial guess” for $θ$ , and that repeatedly changes $θ$ to make $J (θ)$ smaller, until hopefully we converge to a value of $θ$ that minimizes $J (θ) .$ Specifically, let's consider the gradient descent algorithm, which starts with some initial $θ$ , and repeatedly performs the update:

$θ_{j} := θ_{j} - α \frac{\partial}{\partial θ _{j}} J (θ) .$

(This update is simultaneously performed for all values of $j = 0, \dots, d .)$ Here, $α$ is called the learning rate. This is a very natural algorithm that repeatedly takes a step in the direction of steepest decrease of $J .$

In order to implement this algorithm, we have to work out what is the partial derivative term on the right hand side. Let's first work it out for the case of if we have only one training example $(x, y)$ , so that we can neglect the sum in the definition of $J$ . We have:

$\frac{\partial}{\partial θ _{j}} J (θ) = \frac{\partial}{\partial θ _{j}} \frac{1}{2} (h_{θ} (x) - y)^{2} = 2 \cdot \frac{1}{2} (h_{θ} (x) - y) \cdot \frac{\partial}{\partial θ _{j}} (h_{θ} (x) - y) = (h_{θ} (x) - y) \cdot \frac{\partial}{\partial θ _{j}} (i = 0 \sum d θ_{i} x_{i} - y) = (h_{θ} (x) - y) x_{j}$ For a single training example, this gives the update rule: $^{1}$

$θ_{j} := θ_{j} + α (y^{(i)} - h_{θ} (x^{(i)})) x_{j}^{(i)} .$

The rule is called the LMS update rule (LMS stands for “least mean squares”), and is also known as the Widrow-Hoff learning rule. This rule has several properties that seem natural and intuitive. For instance, the magnitude of the update is proportional to the error term $(y^{(i)} - h_{θ} (x^{(i)}));$ thus, for instance, if we are encountering a training example on which our prediction nearly matches the actual value of $y^{(i)}$ , then we find that there is little need to change the parameters; in contrast, a larger change to the parameters will be made if our prediction $h_{θ} (x^{(i)})$ has a large error (i.e., if it is very far from $y^{(i)}) .$

We'd derived the LMS rule for when there was only a single training example. There are two ways to modify this method for a training set of more than one example.

Batch Gradient Descent

The first is replace it with the following algorithm:

Repeat until convergence ${$

$θ_{j} := θ_{j} + α i = 1 \sum n (y^{(i)} - h_{θ} (x^{(i)})) x_{j}^{(i)}, (for every j)$

}

By grouping the updates of the coordinates into an update of the vector $θ$ , we can rewrite update (1.1) in a slightly more succinct way:

$θ := θ + α i = 1 \sum n (y^{(i)} - h_{θ} (x^{(i)})) x^{(i)}$

The reader can easily verify that the quantity in the summation in the update rule above is just $\partial (J (θ)) / \partial θ_{j}$ ( for the original definition of $J$ ) . So, this is simply gradient descent on the original cost function $J .$ This method looks at every example in the entire training set on every step, and is called batch gradient descent. Note that, while gradient descent can be susceptible to local minima in general, the optimization problem we have posed here for linear regression has only one global, and no other local, optima; thus gradient descent always converges (assuming the learning rate $α$ is not too large) to the global minimum. Indeed, $J$ is a convex quadratic function. Here is an example of gradient descent as it is run to minimize a quadratic function.

Stochastic Gradient Descent

The above results were obtained with batch gradient descent. There is an alternative to batch gradient descent that also works very well. Consider the following algorithm:

Loop ${$ for $i = 1$ to $n,$

$θ_{j} := θ_{j} + α (y^{(i)} - h_{θ} (x^{(i)})) x_{j}^{(i)}, (for every j)$

$}$

By grouping the updates of the coordinates into an update of the vector $θ$ , we can rewrite update (1.2) in a slightly more succinct way:

$θ := θ + α (y^{(i)} - h_{θ} (x^{(i)})) x^{(i)}$

In this algorithm, we repeatedly run through the training set, and each time we encounter a training example, we update the parameters according to the gradient of the error with respect to that single training example only. This algorithm is called stochastic gradient descent (also incremental gradient descent). Whereas batch gradient descent has to scan through the entire training set before taking a single step—a costly operation if $n$ is large—stochastic gradient descent can start making progress right away, and continues to make progress with each example it looks at. Often, stochastic gradient descent gets θ “close” to the minimum much faster than batch gradient descent. (Note however that it may never “converge” to the minimum, and the parameters θ will keep oscillating around the minimum of J(θ); but in practice most of the values near the minimum will be reasonably good approximations to the true minimum.)

For these reasons, particularly when the training set is large, stochastic gradient descent is often preferred over batch gradient descent.

线性回归——正则方程法求解

假设数据集为： $D = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})}$ 其中 $x_{i} \in R^{p}, y_{i} \in R, i = 1, 2, ..., N$

考虑截距的话，则 $x_{i} \in R^{p + 1}, y_{i} \in R, i = 1, 2, ..., N$ ，此时X、W和Y的表达式如下：

$X = (x_{1} x_{2} \dots x_{N})^{T} = x_{1}^{T} x_{2}^{T} ⋮ x_{N}^{T} = 11 ⋮ 1 x_{11} x_{21} ⋮ x_{N 1} x_{12} x_{22} ⋮ x_{N 2} \dots \dots ⋮ \dots x_{1 p} x_{2 p} ⋮ x_{Np}_{N * （ p + 1 ）}$

$W = w_{0} w_{1} w_{2} ⋮ w_{p}_{(p + 1) \times 1}$

$Y = y_{1} y_{2} ⋮ y_{N}_{N \times 1}$

方便起见，后面我们记： $X = (x_{1}, x_{2}, \dots, x_{N})^{T}, Y = (y_{1}, y_{2}, \dots, y_{N})^{T}$ 对每一个样本数据，作出如下的线性回归假设： $f (w) = w^{T} x$

Least squares revisited

Armed with the tools of matrix derivatives, let us now proceed to find in closed-form the value of θ that minimizes J(θ). We begin by re-writing J in matrix-vectorial notation.

Given a training set, define the design matrix X to be the n-by-d matrix (actually n-by-d + 1, if we include the intercept term) that contains the training examples’ input values in its rows:

$X = - (x^{(1)})^{T} - - (x^{(2)})^{T} - ⋮ - (x^{(n)})^{T} - .$

Also, let $y$ be the $n$ -dimensional vector containing all the target values from the training set:

$y = y^{(1)} y^{(2)} ⋮ y^{(n)} .$

Now, since $h_{θ} (x^{(i)}) = (x^{(i)})^{T} θ,$ we can easily verify that

Thus, using the fact that for a vector $z,$ we have that $z^{T} z = \sum_{i} z_{i}^{2} :$

$\frac{1}{2} (Xθ - y)^{T} (Xθ - y) = = \frac{1}{2} i = 1 \sum n (h_{θ} (x^{(i)}) - y^{(i)})^{2} J (θ)$

Finally, to minimize $J$ let's find its derivatives with respect to $θ$ . Hence,

$\nabla_{θ} J (θ) = \nabla_{θ} \frac{1}{2} (Xθ - y)^{T} (Xθ - y) = \frac{1}{2} \nabla_{θ} ((Xθ)^{T} Xθ - (Xθ)^{T} y - y^{T} (Xθ) + y^{T} y) = \frac{1}{2} \nabla_{θ} (θ^{T} (X^{T} X) θ - y^{T} (Xθ) - y^{T} (Xθ)) = \frac{1}{2} \nabla_{θ} (θ^{T} (X^{T} X) θ - 2 (X^{T} y)^{T} θ) = \frac{1}{2} (2 X^{T} Xθ - 2 X^{T} y) = X^{T} Xθ - X^{T} y$ In the third step, we used the fact that $a^{T} b = b^{T} a$ , and in the fifth step used the facts $\nabla_{x} b^{T} x = b$ and $\nabla_{x} x^{T} A x = 2 A x$ for symmetric matrix $A$ (fon more details, see Section 4.3 of “Linear Algebra Review and Reference”). To minimize $J,$ we set its derivatives to zero, and obtain the normal equations:

$X^{T} Xθ = X^{T} y$

Thus, the value of $θ$ that minimizes $J (θ)$ is given in closed form by the equation

$θ = (X^{T} X)^{- 1} X^{T} y$

最小二乘法

对这个问题，采用二范数定义的平方误差来定义损失函数： $L (w) = i = 1 \sum N ∣∣ w^{T} x_{i} - y_{i} ∣ ∣_{2}^{2}$ 展开得到： $L (w) = (w^{T} x_{1} - y_{1}, \dots, w^{T} x_{N} - y_{N}) \cdot (w^{T} x_{1} - y_{1}, \dots, w^{T} x_{N} - y_{N})^{T} = (w^{T} X^{T} - Y^{T}) \cdot (Xw - Y) = w^{T} X^{T} Xw - Y^{T} Xw - w^{T} X^{T} Y + Y^{T} Y = w^{T} X^{T} Xw - 2 w^{T} X^{T} Y + Y^{T} Y$ 最小化这个值的 $\overset{w}{^}$ ： $\overset{w}{^} = w a r g min L (w) ⟶ \frac{\partial}{\partial w} L (w) = 0 ⟶ 2 X^{T} X \overset{w}{^} - 2 X^{T} Y = 0 ⟶ \overset{w}{^} = (X^{T} X)^{- 1} X^{T} Y = X^{+} Y$ 这个式子中 $(X^{T} X)^{- 1} X^{T}$ 又被称为伪逆。对于行满秩或者列满秩的 $X$ ，可以直接求解，但是对于非满秩的样本集合，需要使用奇异值分解（SVD）的方法，对 $X$ 求奇异值分解，得到 $X = U Σ V^{T}$ 于是： $X^{+} = V Σ^{- 1} U^{T}$ 在几何上，最小二乘法相当于模型（这里就是直线）和试验值的距离的平方求和，假设我们的试验样本张成一个 $p$ 维空间（满秩的情况）： $X = Sp an (x_{1}, \dots, x_{N})$ ，而模型可以写成 $f (w) = Xβ$ ，也就是 $x_{1}, \dots, x_{N}$ 的某种组合，而最小二乘法就是说希望 $Y$ 和这个模型距离越小越好，于是它们的差应该与这个张成的空间垂直： $X^{T} \cdot (Y - Xβ) = 0 ⟶ β = (X^{T} X)^{- 1} X^{T} Y$

噪声为高斯分布的 MLE

对于一维的情况，记 $y = w^{T} x + ϵ, ϵ \sim N (0, σ^{2})$ ，那么 $y \sim N (w^{T} x, σ^{2})$ 。代入极大似然估计中： $L (w) = lo g p (Y ∣ X, w) w a r g ma x L (w) = lo g i = 1 \prod N p (y_{i} ∣ x_{i}, w) = i = 1 \sum N lo g (\frac{1}{2 πσ} e^{- \frac{( y _{i} - w ^{T} x _{i} ) ^{2}}{2 σ ^{2}}}) = w a r g min i = 1^{N} \sum (y_{i} - w^{T} x_{i})^{2}$ 这个表达式和最小二乘估计得到的结果一样。

权重先验也为高斯分布的 MAP

取先验分布 $w \sim N (0, σ_{0}^{2})$ 。于是： $\overset{w}{^} = w a r g ma x p (w ∣ Y) = w a r g ma x p (Y ∣ w) p (w) = w a r g ma x lo g p (Y ∣ w) p (w) = w a r g ma x (lo g p (Y ∣ w) + lo g p (w)) = w a r g min [(y - w^{T} x)^{2} + \frac{σ ^{2}}{σ _{0}^{2}} w^{T} w]$ 这里省略了 $X$ ， $p (Y)$ 和 $w$ 没有关系，同时也利用了上面高斯分布的 MLE的结果。

我们将会看到，超参数 $σ_{0}$ 的存在和下面会介绍的 Ridge 正则项可以对应，同样的如果将先验分布取为 Laplace 分布，那么就会得到和 L1 正则类似的结果。

线性回归正则化

在实际应用时，如果样本容量不远远大于样本的特征维度，很可能造成过拟合，对这种情况，我们有下面三个解决方式：

加数据
特征选择（手动删除一些不重要的特征）、特征提取（降维如PCA）
正则化

正则化一般是在损失函数（如上面介绍的最小二乘损失）上加入正则化项（表示模型的复杂度对模型的惩罚），下面我们介绍一般情况下的两种正则化框架。 $L 1 L 2 : w a r g min L (w) + λ ∣∣ w ∣ ∣_{1}, λ > 0 : w a r g min L (w) + λ ∣∣ w ∣ ∣_{2}^{2}, λ > 0$ 下面对最小二乘误差分别分析这两者的区别。

L1 Lasso

L1正则化可以引起稀疏解。

从最小化损失的角度看，由于 L1 项求导在0附近的左右导数都不是0，因此更容易取到0解。

从另一个方面看，L1 正则化相当于： $w a r g min L (w) s . t .∣∣ w ∣ ∣_{1} < C$ 我们已经看到平方误差损失函数在 $w$ 空间是一个椭球，因此上式求解就是椭球和 $∣∣ w ∣ ∣_{1} = C$ 的切点，因此更容易相切在坐标轴上。

L2 Ridge

$\overset{w}{^} = w a r g min L (w) + λ w^{T} w ⟶ \frac{\partial}{\partial w} L (w) + 2 λ w = 0 ⟶ 2 X^{T} X \overset{w}{^} - 2 X^{T} Y + 2 λ \overset{w}{^} = 0 ⟶ \overset{w}{^} = (X^{T} X + λ I)^{- 1} X^{T} Y$

可以看到，这个正则化参数和前面的 MAP 结果不谋而合。利用2范数进行正则化不仅可以是模型选择 $w$ 较小的参数，同时也避免 $X^{T} X$ 不可逆的问题。

Linear Classification线性分类

两分类-硬分类-感知机算法

我们选取激活函数为： $s i g n (a) = {+ 1, a \geq 0 - 1, a < 0$ 这样就可以将线性回归的结果映射到两分类的结果上了。

定义损失函数为错误分类的数目，比较直观的方式是使用指示函数，但是指示函数不可导，因此可以定义： $L (w) = x_{i} \in D_{w ro n g} \sum - y_{i} w^{T} x_{i}$ 其中， $D_{w ro n g}$ 是错误分类集合，实际在每一次训练的时候，我们采用梯度下降的算法。损失函数对 $w$ 的偏导为： $\frac{\partial}{\partial w} L (w) = x_{i} \in D_{w ro n g} \sum - y_{i} x_{i}$ 但是如果样本非常多的情况下，计算复杂度较高，但是，实际上我们并不需要绝对的损失函数下降的方向，我们只需要损失函数的期望值下降，但是计算期望需要知道真实的概率分布，我们实际只能根据训练数据抽样来估算这个概率分布（经验风险）：

\mathbb{E}{\mathcal D}[\mathbb{E}\hat{p}[\nabla_wL(w)]]=\mathbb{E}{\mathcal D}[\frac{1}{N}\sum\limits{i=1}^N\nabla_wL(w)]

我们知道， $N$ 越大，样本近似真实分布越准确，但是对于一个标准差为 $σ$ 的数据，可以确定的标准差仅和 $N$ 成反比，而计算速度却和 $N$ 成正比。因此可以每次使用较少样本，则在数学期望的意义上损失降低的同时，有可以提高计算速度，如果每次只使用一个错误样本，我们有下面的更新策略（根据泰勒公式，在负方向）： $w^{t + 1} \leftarrow w^{t} + λ y_{i} x_{i}$ 是可以收敛的，同时使用单个观测更新也可以在一定程度上增加不确定度，从而减轻陷入局部最小的可能。在更大规模的数据上，常用的是小批量随机梯度下降法。

两分类-硬分类-线性判别分析 LDA

在 LDA 中，我们的基本想法是选定一个方向，将试验样本顺着这个方向投影，投影后的数据需要满足两个条件，从而可以更好地分类：

相同类内部的试验样本距离接近。
不同类别之间的距离较大。

首先是投影，我们假定原来的数据是向量 $x$ ，那么顺着 $w$ 方向的投影就是标量： $z = w^{T} \cdot x (= ∣ w ∣ \cdot ∣ x ∣ cos θ)$ 对第一点，相同类内部的样本更为接近，我们假设属于两类的试验样本数量分别是 $N_{1}$ 和 $N_{2}$ ，那么我们采用方差矩阵来表征每一个类内的总体分布，这里我们使用了协方差的定义，用 $S$ 表示原数据的协方差： $C_{1} : Va r_{z} [C_{1}] C_{2} : Va r_{z} [C_{2}] = \frac{1}{N _{1}} i = 1 \sum N_{1} (z_{i} - \overline{z_{c 1}}) (z_{i} - \overline{z_{c 1}})^{T} = \frac{1}{N _{1}} i = 1 \sum N_{1} (w^{T} x_{i} - \frac{1}{N _{1}} j = 1 \sum N_{1} w^{T} x_{j}) (w^{T} x_{i} - \frac{1}{N _{1}} j = 1 \sum N_{1} w^{T} x_{j})^{T} = w^{T} \frac{1}{N _{1}} i = 1 \sum N_{1} (x_{i} - \overline{x_{c 1}}) (x_{i} - \overline{x_{c 1}})^{T} w = w^{T} S_{1} w = \frac{1}{N _{2}} i = 1 \sum N_{2} (z_{i} - \overline{z_{c 2}}) (z_{i} - \overline{z_{c 2}})^{T} = w^{T} S_{2} w$ 所以类内距离可以记为： $Va r_{z} [C_{1}] + Va r_{z} [C_{2}] = w^{T} (S_{1} + S_{2}) w$ 对于第二点，我们可以用两类的均值表示这个距离： $(\overline{z_{c 1}} - \overline{z_{c 2}})^{2} = (\frac{1}{N _{1}} i = 1 \sum N_{1} w^{T} x_{i} - \frac{1}{N _{2}} i = 1 \sum N_{2} w^{T} x_{i})^{2} = (w^{T} (\overline{x_{c 1}} - \overline{x_{c 2}}))^{2} = w^{T} (\overline{x_{c 1}} - \overline{x_{c 2}}) (\overline{x_{c 1}} - \overline{x_{c 2}})^{T} w$ 综合这两点，由于协方差是一个矩阵，于是我们用将这两个值相除来得到我们的损失函数，并最大化这个值： $\overset{w}{^} = w a r g ma x J (w) = w a r g ma x \frac{( z _{c 1} - z _{c 2} ) ^{2}}{Va r _{z} [ C _{1} ] + Va r _{z} [ C _{2} ]} = w a r g ma x \frac{w ^{T} ( x _{c 1} - x _{c 2} ) ( x _{c 1} - x _{c 2} ) ^{T} w}{w ^{T} ( S _{1} + S _{2} ) w} = w a r g ma x \frac{w ^{T} S _{b} w}{w ^{T} S _{w} w}$ 这样，我们就把损失函数和原数据集以及参数结合起来了。下面对这个损失函数求偏导，注意我们其实对 $w$ 的绝对值没有任何要求，只对方向有要求，因此只要一个方程就可以求解了： $\frac{\partial}{\partial w} J (w) = 2 S_{b} w (w^{T} S_{w} w)^{- 1} - 2 w^{T} S_{b} w (w^{T} S_{w} w)^{- 2} S_{w} w = 0 ⟹ S_{b} w (w^{T} S_{w} w) = (w^{T} S_{b} w) S_{w} w ⟹ w \propto S_{w}^{- 1} S_{b} w = S_{w}^{- 1} (\overline{x_{c 1}} - \overline{x_{c 2}}) (\overline{x_{c 1}} - \overline{x_{c 2}})^{T} w \propto S_{w}^{- 1} (\overline{x_{c 1}} - \overline{x_{c 2}})$ 于是 $S_{w}^{- 1} (\overline{x_{c 1}} - \overline{x_{c 2}})$ 就是我们需要寻找的方向。最后可以归一化求得单位的 $w$ 值。

两分类-软分类-概率判别模型-Logistic 回归

有时候我们只要得到一个类别的概率，那么我们需要一种能输出 $[0, 1]$ 区间的值的函数。考虑两分类模型，我们利用判别模型，希望对 $p (C ∣ x)$ 建模，利用贝叶斯定理： $p (C_{1} ∣ x) = \frac{p ( x ∣ C _{1} ) p ( C _{1} )}{p ( x ∣ C _{1} ) p ( C _{1} ) + p ( x ∣ C _{2} ) p ( C _{2} )}$ 取 $a = ln \frac{p ( x ∣ C _{1} ) p ( C _{1} )}{p ( x ∣ C _{2} ) p ( C _{2} )}$ ，于是： $p (C_{1} ∣ x) = \frac{1}{1 + exp ( - a )}$ 上面的式子叫 Logistic Sigmoid 函数，其参数表示了两类联合概率比值的对数。在判别式中，不关心这个参数的具体值，模型假设直接对 $a$ 进行。

Logistic 回归的模型假设是： $a = w^{T} x$ 于是，通过寻找 $w$ 的最佳值可以得到在这个模型假设下的最佳模型。概率判别模型常用最大似然估计的方式来确定参数。

对于一次观测，获得分类 $y$ 的概率为（假定 $C_{1} = 1, C_{2} = 0$ ）： $p (y ∣ x) = p_{1}^{y} p_{0}^{1 - y}$

那么对于 $N$ 次独立全同的观测 MLE为： $\overset{w}{^} = a r g ma x_{w} J (w) = a r g ma x_{w} i = 1 \sum N (y_{i} lo g p_{1} + (1 - y_{i}) lo g p_{0})$ 注意到，这个表达式是交叉熵表达式的相反数乘 $N$ ，MLE 中的对数也保证了可以和指数函数相匹配，从而在大的区间汇总获取稳定的梯度。

对这个函数求导数，注意到： $p_{1}^{'} = (\frac{1}{1 + exp ( - a )})^{'} = p_{1} (1 - p_{1})$ 则： $J^{'} (w) = i = 1 \sum N y_{i} (1 - p_{1}) x_{i} - p_{1} x_{i} + y_{i} p_{1} x_{i} = i = 1 \sum N (y_{i} - p_{1}) x_{i}$ 由于概率值的非线性，放在求和符号中时，这个式子无法直接求解。于是在实际训练的时候，和感知机类似，也可以使用不同大小的批量随机梯度上升（对于最小化就是梯度下降）来获得这个函数的极大值。

两分类-软分类-概率生成模型-高斯判别分析 GDA

生成模型中，我们对联合概率分布进行建模，然后采用 MAP 来获得参数的最佳值。两分类的情况，我们采用的假设：

$y \sim B er n o u ll i (ϕ)$
$x ∣ y = 1 \sim N (μ_{1}, Σ)$
$x ∣ y = 0 \sim N (μ_{0}, Σ)$

那么独立全同的数据集最大后验概率可以表示为： $a r g ma x_{ϕ, μ_{0}, μ_{1}, Σ} lo g p (X ∣ Y) p (Y) = a r g ma x_{ϕ, μ_{0}, μ_{1}, Σ} i = 1 \sum N (lo g p (x_{i} ∣ y_{i}) + lo g p (y_{i})) = a r g ma x_{ϕ, μ_{0}, μ_{1}, Σ} i = 1 \sum N ((1 - y_{i}) lo g N (μ_{0}, Σ) + y_{i} lo g N (μ_{1}, Σ) + y_{i} lo g ϕ + (1 - y_{i}) lo g (1 - ϕ))$

首先对 $ϕ$ 进行求解，将式子对 $ϕ$ 求偏导： $i = 1 \sum N \frac{y _{i}}{ϕ} + \frac{y _{i} - 1}{1 - ϕ} = 0 ⟹ ϕ = \frac{i = 1 \sum N y _{i}}{N} = \frac{N _{1}}{N}$
然后求解 $μ_{1}$ ： $\overset{μ_{1}}{^} = a r g ma x_{μ_{1}} i = 1 \sum N y_{i} lo g N (μ_{1}, Σ) = a r g min_{μ_{1}} i = 1 \sum N y_{i} (x_{i} - μ_{1})^{T} Σ^{- 1} (x_{i} - μ_{1})$ 由于： $i = 1 \sum N y_{i} (x_{i} - μ_{1})^{T} Σ^{- 1} (x_{i} - μ_{1}) = i = 1 \sum N y_{i} x_{i}^{T} Σ^{- 1} x_{i} - 2 y_{i} μ_{1}^{T} Σ^{- 1} x_{i} + y_{i} μ_{1}^{T} Σ^{- 1} μ_{1}$

求微分左边乘以 $Σ$ 可以得到： $i = 1 \sum N - 2 y_{i} Σ^{- 1} x_{i} + 2 y_{i} Σ^{- 1} μ_{1} = 0 ⟹ μ_{1} = \frac{i = 1 \sum N y _{i} x _{i}}{i = 1 \sum N y _{i}} = \frac{i = 1 \sum N y _{i} x _{i}}{N _{1}}$
求解 $μ_{0}$ ，由于正反例是对称的，所以： $μ_{0} = \frac{i = 1 \sum N ( 1 - y _{i} ) x _{i}}{N _{0}}$
最为困难的是求解 $Σ$ ，我们的模型假设对正反例采用相同的协方差矩阵，当然从上面的求解中我们可以看到，即使采用不同的矩阵也不会影响之前的三个参数。首先我们有： $i = 1 \sum N lo g N (μ, Σ) = i = 1 \sum N lo g (\frac{1}{( 2 π ) ^{p /2} ∣Σ ∣ ^{1/2}}) + (- \frac{1}{2} (x_{i} - μ)^{T} Σ^{- 1} (x_{i} - μ)) = C o n s t - \frac{1}{2} N lo g ∣Σ∣ - \frac{1}{2} T r a ce ((x_{i} - μ)^{T} Σ^{- 1} (x_{i} - μ)) = C o n s t - \frac{1}{2} N lo g ∣Σ∣ - \frac{1}{2} T r a ce ((x_{i} - μ) (x_{i} - μ)^{T} Σ^{- 1}) = C o n s t - \frac{1}{2} N lo g ∣Σ∣ - \frac{1}{2} NT r a ce (S Σ^{- 1})$ 在这个表达式中，我们在标量上加入迹从而可以交换矩阵的顺序，对于包含绝对值和迹的表达式的导数，我们有： $\frac{\partial}{\partial A} (∣ A ∣) \frac{\partial}{\partial A} T r a ce (A B) = ∣ A ∣ A^{- 1} = B^{T}$ 因此： $[i = 1 \sum N ((1 - y_{i}) lo g N (μ_{0}, Σ) + y_{i} lo g N (μ_{1}, Σ)]^{'} = C o n s t - \frac{1}{2} N lo g ∣Σ∣ - \frac{1}{2} N_{1} T r a ce (S_{1} Σ^{- 1}) - \frac{1}{2} N_{2} T r a ce (S_{2} Σ^{- 1})$ 其中， $S_{1}, S_{2}$ 分别为两个类数据内部的协方差矩阵，于是： $N Σ^{- 1} - N_{1} S_{1}^{T} Σ^{- 2} - N_{2} S_{2}^{T} Σ^{- 2} = 0 ⟹ Σ = \frac{N _{1} S _{1} + N _{2} S _{2}}{N}$ 这里应用了类协方差矩阵的对称性。

于是我们就利用最大后验的方法求得了我们模型假设里面的所有参数，根据模型，可以得到联合分布，也就可以得到用于推断的条件分布了。

Naive Bayesian Classifier朴素贝叶斯分类器

DimensionReduction降维

Principal Component Analysis主成分分析

支持向量机

支持向量机概览

支撑向量机（SVM）算法在分类问题中有着重要地位，其主要思想是最大化两类之间的间隔。按照数据集的特点：

线性可分问题，如之前的感知机算法处理的问题
线性可分，只有一点点错误点，如感知机算法发展出来的 Pocket 算法处理的问题
非线性问题，完全不可分，如在感知机问题发展出来的多层感知机和深度学习

这三种情况对于 SVM 分别有下面三种处理手段：

hard-margin SVM
soft-margin SVM
kernel Method

L2范数的平方： $x \in R^{d} ∣∣ x ∣ ∣_{2}^{2} = x^{T} \cdot x$

若 $x = x_{1} x_{2} x_{3}$ ，则 $∣∣ x ∣ ∣_{2}^{2} = x_{1}^{2} + x_{2}^{2} + x_{3}^{2}$

SVM 的求解中，大量用到了 Lagrange 乘子法，首先对这种方法进行介绍。

约束优化问题

一般地，约束优化问题（原问题）可以写成： $x \in R^{p} min f (x) s . t . m_{i} (x) \leq 0, i = 1, 2, \dots, M n_{j} (x) = 0, j = 1, 2, \dots, N$ 定义 Lagrange 函数： $L (x, λ, η) = f (x) + i = 1 \sum M λ_{i} m_{i} (x) + i = 1 \sum N η_{i} n_{i} (x)$ 那么原问题可以等价于无约束形式： $x \in R^{p} min λ, η max L (x, λ, η) s . t . λ_{i} \geq 0$ 这是由于，当满足原问题的不等式约束的时候， $λ_{i} = 0$ 才能取得最大值，直接等价于原问题，如果不满足原问题的不等式约束，那么最大值就为 $+ \infty$ ，由于需要取最小值，于是不会取到这个情况。

这个问题的对偶形式： $λ, η max x \in R^{p} min L (x, λ, η) s . t . λ_{i} \geq 0$ 对偶问题是关于 $λ, η$ 的最大化问题。

由于： $λ_{i}, η_{j} max x min L (x, λ_{i}, η_{j}) \leq x min λ_{i}, η_{j} max L (x, λ_{i}, η_{j})$

证明：显然有 $x min L \leq L \leq λ, η max L$ ，于是显然有 $λ, η max x min L \leq L$ ，且 $x min λ, η max L \geq L$ 。

对偶问题的解小于原问题，有两种情况：

强对偶：可以取等于号
弱对偶：不可以取等于号

其实这一点也可以通过一张图来说明：

originVsdual

对于一个凸优化问题，有如下定理：

如果凸优化问题满足某些条件如 Slater 条件，那么它和其对偶问题满足强对偶关系。记问题的定义域为： $D = d o m f (x) \cap d o m m_{i} (x) \cap d o m n_{j} (x)$ 。于是 Slater 条件为： $\exists \overset{x}{^} \in R e l in t D s . t . \forall i = 1, 2, \dots, M, m_{i} (x) < 0$ 其中 Relint 表示相对内部（不包含边界的内部）。

对于大多数凸优化问题，Slater 条件成立。
松弛 Slater 条件，如果 M 个不等式约束中，有 K 个函数为仿射函数，那么只要其余的函数满足 Slater 条件即可。

上面介绍了原问题和对偶问题的对偶关系，但是实际还需要对参数进行求解，求解方法使用 KKT 条件进行：

KKT 条件和强对偶关系是等价关系。KKT 条件对最优解的条件为：

可行域： $m_{i} (x^{*}) \leq 0 n_{j} (x^{*}) = 0 λ^{*} \geq 0$

互补松弛 $λ^{*} m_{i} (x^{*}) = 0, \forall m_{i}$ ，对偶问题的最佳值为 $d^{*}$ ，原问题为 $p^{*}$ $d^{*} = λ, η max g (λ, η) = g (λ^{*}, η^{*}) = x min L (x, λ^{*}, η^{*}) \leq L (x^{*}, λ^{*}, η^{*}) = f (x^{*}) + i = 1 \sum M λ^{*} m_{i} (x^{*}) \leq f (x^{*}) = p^{*}$ 为了满足相等，两个不等式必须成立，于是，对于第一个不等于号，需要有梯度为0条件，对于第二个不等于号需要满足互补松弛条件。

梯度为0： $\frac{\partial L ( x , λ ^{*} , η ^{*} )}{\partial x} ∣_{x = x^{*}} = 0$

Hard-margin SVM

支撑向量机也是一种硬分类模型，在之前的感知机模型中，我们在线性模型的基础上叠加了符号函数，在几何直观上，可以看到，如果两类分的很开的话，那么其实会存在无穷多条线可以将两类分开。在 SVM 中，我们引入最大化间隔这个概念，间隔指的是数据和直线的距离的最小值，因此最大化这个值反映了我们的模型倾向。

分割的超平面可以写为： $0 = w^{T} x + b$ 那么最大化间隔（约束为分类任务的要求）： $a r g ma x_{w, b} [i min \frac{∣ w ^{T} x _{i} + b ∣}{∣∣ w ∣∣}] s . t . y_{i} (w^{T} x_{i} + b) > 0 ⟹ a r g ma x_{w, b} [i min \frac{y _{i} ( w ^{T} x _{i} + b )}{∣∣ w ∣∣}] s . t . y_{i} (w^{T} x_{i} + b) > 0$ 对于这个约束 $y_{i} (w^{T} x_{i} + b) > 0$ ，不妨固定 $min y_{i} (w^{T} x_{i} + b) = 1 > 0$ ，这是由于分开两类的超平面的系数经过比例放缩不会改变这个平面，这也相当于给超平面的系数作出了约束。化简后的式子可以表示为： $a r g min_{w, b} \frac{1}{2} w^{T} w s . t . i min y_{i} (w^{T} x_{i} + b) = 1 \Rightarrow a r g min_{w, b} \frac{1}{2} w^{T} w s . t . y_{i} (w^{T} x_{i} + b) \geq 1, i = 1, 2, \dots, N$ 这就是一个包含 $N$ 个约束的凸优化问题，有很多求解这种问题的软件。

但是，如果样本数量或维度非常高，直接求解困难甚至不可解，于是需要对这个问题进一步处理。引入 Lagrange 函数： $L (w, b, λ) = \frac{1}{2} w^{T} w + i = 1 \sum N λ_{i} (1 - y_{i} (w^{T} x_{i} + b))$ 我们有原问题就等价于： $a r g min_{w, b} λ max L (w, b, λ_{i}) s . t . λ_{i} \geq 0$ 我们交换最小和最大值的符号得到对偶问题： $λ_{i} max w, b min L (w, b, λ_{i}) s . t . λ_{i} \geq 0$

由于不等式约束是仿射函数，对偶问题和原问题等价：

$b$ ： $\frac{\partial}{\partial b} L = 0 \Rightarrow i = 1 \sum N λ_{i} y_{i} = 0$
$w$ ：首先将 $b$ 代入： $L (w, b, λ_{i}) = \frac{1}{2} w^{T} w + i = 1 \sum N λ_{i} (1 - y_{i} w^{T} x_{i} - y_{i} b) = \frac{1}{2} w^{T} w + i = 1 \sum N λ_{i} - i = 1 \sum N λ_{i} y_{i} w^{T} x_{i}$ 所以： $\frac{\partial}{\partial w} L = 0 \Rightarrow w = i = 1 \sum N λ_{i} y_{i} x_{i}$
将上面两个参数代入： $L (w, b, λ_{i}) = - \frac{1}{2} i = 1 \sum N j = 1 \sum N λ_{i} λ_{j} y_{i} y_{j} x_{i}^{T} x_{j} + i = 1 \sum N λ_{i}$

因此，对偶问题就是： $λ max - \frac{1}{2} i = 1 \sum N j = 1 \sum N λ_{i} λ_{j} y_{i} y_{j} x_{i}^{T} x_{j} + i = 1 \sum N λ_{i}, s . t . λ_{i} \geq 0$

从 KKT 条件得到超平面的参数：

原问题和对偶问题满足强对偶关系的充要条件为其满足 KKT 条件： $\frac{\partial L}{\partial w} = 0, \frac{\partial L}{\partial b} = 0 λ_{k} (1 - y_{k} (w^{T} x_{k} + b)) = 0 (s l a c kn ess co m pl e m e n t a ry) λ_{i} \geq 0 1 - y_{i} (w^{T} x_{i} + b) \leq 0$

根据这个条件就得到了对应的最佳参数： $\overset{w}{^} = i = 1 \sum N λ_{i} y_{i} x_{i}, \hat{b} = y_{k} - w^{T} x_{k} = y_{k} - i = 1 \sum N λ_{i} y_{i} x_{i}^{T} x_{k}, \exists k, 1 - y_{k} (w^{T} x_{k} + b) = 0$ 于是这个超平面的参数 $w$ 就是数据点的线性组合，最终的参数值就是部分满足 $y_{i} (w^{T} x_{i} + b) = 1$ 向量的线性组合（互补松弛条件给出），这些向量也叫支撑向量。

Soft-margin SVM

Hard-margin 的 SVM 只对可分数据可解，如果不可分的情况，我们的基本想法是在损失函数中加入错误分类的可能性。错误分类的个数可以写成： $error = i = 1 \sum N I {y_{i} (w^{T} x_{i} + b) < 1}$ 这个函数不连续，可以将其改写为： $error = i = 1 \sum N max {0, 1 - y_{i} (w^{T} x_{i} + b)}$ 求和符号中的式子又叫做 Hinge Function。

将这个错误加入 Hard-margin SVM 中，于是： $a r g min_{w, b} \frac{1}{2} w^{T} w + C i = 1 \sum N max {0, 1 - y_{i} (w^{T} x_{i} + b)} s . t . y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i}, i = 1, 2, \dots, N$ 这个式子中，常数 $C$ 可以看作允许的错误水平，同时上式为了进一步消除 $max$ 符号，对数据集中的每一个观测，我们可以认为其大部分满足约束，但是其中部分违反约束，因此这部分约束变成 $y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i}$ ，其中 $ξ_{i} = 1 - y_{i} (w^{T} x_{i} + b)$ ，进一步的化简： $a r g min_{w, b} \frac{1}{2} w^{T} w + C i = 1 \sum N ξ_{i} s . t . y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i}, ξ_{i} \geq 0, i = 1, 2, \dots, N$

Kernel Method

核方法可以应用在很多问题上，在分类问题中，对于严格不可分问题，我们引入一个特征转换函数将原来的不可分的数据集变为可分的数据集，然后再来应用已有的模型。往往将低维空间的数据集变为高维空间的数据集后，数据会变得可分（数据变得更为稀疏）：

Cover theorem：高维空间比低维空间更易线性可分。

应用在 SVM 中时，观察上面的 SVM 对偶问题： $λ max - \frac{1}{2} i = 1 \sum N j = 1 \sum N λ_{i} λ_{j} y_{i} y_{j} x_{i}^{T} x_{j} + i = 1 \sum N λ_{i}, s . t . λ_{i} \geq 0$ 在求解的时候需要求得内积，于是不可分数据在通过特征变换后，需要求得变换后的内积。我们常常很难求得变换函数的内积。于是直接引入内积的变换函数： $\forall x, x^{'} \in X, \exists ϕ \in H : x \to z s . t . k (x, x^{'}) = ϕ (x)^{T} ϕ (x)$ 称 $k (x, x^{'})$ 为一个正定核函数，其中 $H$ 是 Hilbert 空间（完备的线性内积空间），如果去掉内积这个条件我们简单地称为核函数。

$k (x, x^{'}) = exp (- \frac{( x - x ^{'} ) ^{2}}{2 σ ^{2}})$ 是一个核函数。

证明： $exp (- \frac{( x - x ^{'} ) ^{2}}{2 σ ^{2}}) = exp (- \frac{x ^{2}}{2 σ ^{2}}) exp (\frac{x x ^{'}}{σ ^{2}}) exp (- \frac{x ^{'2}}{2 σ ^{2}}) = exp (- \frac{x ^{2}}{2 σ ^{2}}) n = 0 \sum + \infty \frac{x ^{n} x ^{' n}}{σ ^{2 n} n !} exp (- \frac{x ^{'2}}{2 σ ^{2}}) = exp (- \frac{x ^{2}}{2 σ ^{2}}) φ (x) φ (x^{'}) exp (- \frac{x ^{'2}}{2 σ ^{2}}) = ϕ (x) ϕ (x^{'})$

正定核函数有下面的等价定义：

如果核函数满足：

对称性

正定性（非负性）

那么这个核函数是正定核函数。

证明：

对称性 $\Leftrightarrow$ $k (x, z) = k (z, x)$ ，显然满足内积的定义

正定性 $\Leftrightarrow$ $\forall N, x_{1}, x_{2}, \dots, x_{N} \in X$ ，对应的 Gram Matrix $K = [k (x_{i}, x_{j})]$ 是半正定的。

要证： $k (x, z) = ϕ (x)^{T} ϕ (z) \Leftrightarrow K$ 半正定+对称性。

$\Rightarrow$ ：首先，对称性是显然的，对于正定性： $K = k (x_{1}, x_{2}) ⋮ k (x_{N}, x_{1}) \dots ⋮ \dots k (x_{1}, x_{N}) ⋮ k (x_{N}, x_{N})$ 任意取 $α \in R^{N}$ ，即需要证明 $α^{T} K α \geq 0$ ： $α^{T} K α = i, j \sum α_{i} α_{j} K_{ij} = i, j \sum α_{i} ϕ^{T} (x_{i}) ϕ (x_{j}) α_{j} = i \sum α_{i} ϕ^{T} (x_{i}) j \sum α_{j} ϕ (x_{j})$ 这个式子就是内积的形式，Hilbert 空间满足线性性，于是正定性的证。

$\Leftarrow$ ：对于 $K$ 进行分解，对于对称矩阵 $K = V Λ V^{T}$ ，那么令 $ϕ (x_{i}) = λ_{i} V_{i}$ ，其中 $V_{i}$ 是特征向量，于是就构造了 $k (x, z) = λ_{i} λ_{j} V_{i}^{T} V_{j}$

小结

分类问题在很长一段时间都依赖 SVM，对于严格可分的数据集，Hard-margin SVM 选定一个超平面，保证所有数据到这个超平面的距离最大，对这个平面施加约束，固定 $y_{i} (w^{T} x_{i} + b) = 1$ ，得到了一个凸优化问题并且所有的约束条件都是仿射函数，于是满足 Slater 条件，将这个问题变换成为对偶的问题，可以得到等价的解，并求出约束参数： $λ max - \frac{1}{2} i = 1 \sum N j = 1 \sum N λ_{i} λ_{j} y_{i} y_{j} x_{i}^{T} x_{j} + i = 1 \sum N λ_{i}, s . t . λ_{i} \geq 0$ 对需要的超平面参数的求解采用强对偶问题的 KKT 条件进行。 $\frac{\partial L}{\partial w} = 0, \frac{\partial L}{\partial b} = 0 λ_{k} (1 - y_{k} (w^{T} x_{k} + b)) = 0 (s l a c kn ess co m pl e m e n t a ry) λ_{i} \geq 0 1 - y_{i} (w^{T} x_{i} + b) \leq 0$ 解就是： $\overset{w}{^} = i = 1 \sum N λ_{i} y_{i} x_{i} \hat{b} = y_{k} - w^{T} x_{k} = y_{k} - i = 1 \sum N λ_{i} y_{i} x_{i}^{T} x_{k}, \exists k, 1 - y_{k} (w^{T} x_{k} + b) = 0$ 当允许一点错误的时候，可以在 Hard-margin SVM 中加入错误项。用 Hinge Function 表示错误项的大小，得到： $a r g min_{w, b} \frac{1}{2} w^{T} w + C i = 1 \sum N ξ_{i} s . t . y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i}, ξ_{i} \geq 0, i = 1, 2, \dots, N$ 对于完全不可分的问题，我们采用特征转换的方式，在 SVM 中，我们引入正定核函数来直接对内积进行变换，只要这个变换满足对称性和正定性，那么就可以用做核函数。

SVM实战

案例来源

支持向量机(Support Vector Machine, SVM)是最受欢迎的机器学习模型之一。它特别适合处理中小型复杂数据集的分类任务。

一、什么是支持向量机

SMV在众多实例中寻找一个最优的决策边界，这个边界上的实例叫做支持向量，它们“支持”（支撑）分离开超平面，所以它叫支持向量机。

那么我们如何保证我们得到的决策边界是最优的呢？

如上图，三条黑色直线都可以完美分割数据集。由此可知，我们仅用单一直线可以得到无数个解。那么，其中怎样的直线是最优的呢？

如上图，我们计算直线到分割实例的距离，使得我们的直线与数据集的距离尽可能的远，那么我们就可以得到唯一的解。最大化上图虚线之间的距离就是我们的目标。而上图中重点圈出的实例就叫做支持向量。

这就是支持向量机。

二、观察数据

添加引用：

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

导入数据集（大家不用在意这个域名）：

df = pd.read_csv('https://blog.caiyongji.com/assets/mouse_viral_study.csv')
df.head()

该数据集模拟了一项医学研究，对感染病毒的小白鼠使用不同剂量的两种药物，观察两周后小白鼠是否感染病毒。

特征： 1. 药物Med_1_mL 药物Med_2_mL
标签：是否感染病毒（1感染/0不感染）

sns.scatterplot(x='Med_1_mL',y='Med_2_mL',hue='Virus Present',data=df)

我们用seaborn绘制两种药物在不同剂量特征对应感染结果的散点图。

sns.pairplot(df,hue='Virus Present')

我们通过pairplot方法绘制特征两两之间的对应关系。

我们可以做出大概的判断，当加大药物剂量可使小白鼠避免被感染。

使用SVM训练数据集

#SVC: Supprt Vector Classifier支持向量分类器
from sklearn.svm import SVC

#准备数据
y = df['Virus Present']
X = df.drop('Virus Present',axis=1) 

#定义模型
model = SVC(kernel='linear', C=1000)

#训练模型
model.fit(X, y)

# 绘制图像
# 定义绘制SVM边界方法
def plot_svm_boundary(model,X,y):

    X = X.values
    y = y.values

    # Scatter Plot
    plt.scatter(X[:, 0], X[:, 1], c=y, s=30,cmap='coolwarm')


    # plot the decision function
    ax = plt.gca()
    xlim = ax.get_xlim()
    ylim = ax.get_ylim()

    # create grid to evaluate model
    xx = np.linspace(xlim[0], xlim[1], 30)
    yy = np.linspace(ylim[0], ylim[1], 30)
    YY, XX = np.meshgrid(yy, xx)
    xy = np.vstack([XX.ravel(), YY.ravel()]).T
    Z = model.decision_function(xy).reshape(XX.shape)

    # plot decision boundary and margins
    ax.contour(XX, YY, Z, colors='k', levels=[-1, 0, 1], alpha=0.5,
               linestyles=['--', '-', '--'])
    # plot support vectors
    ax.scatter(model.support_vectors_[:, 0], model.support_vectors_[:, 1], s=100,
               linewidth=1, facecolors='none', edgecolors='k')
    plt.show()
plot_svm_boundary(model,X,y)

注：这里会报UserWarning: X does not have valid feature names, but SVC was fitted with feature names

warnings.warn(

我们导入sklearn下的SVC(Supprt Vector Classifier)分类器，它是SVM的一种实现。

其实在工具 sklearn 中，已经封装了多种 SVM 模型，这里我们重点介绍下 SVC，该模型既可以训练线性可分的数据，也可以训练线性不可分数据。

SVC相关参数

参数名	含义
C	惩罚系数，默认为1.0。当 C 越大时，分类器的准确性越高，但是泛化能力越低。反之，泛化能力强，但是准确性会降低。
kernel	核函数类型，默认为 rbf。主要的核函数类型如下： liner：线性核函数，在数据为线性可分的情况下使用 poly：多项式核函数，可以将数据从低维空间映射到高维空间，但是参数较多，计算量大 rbf：高斯核函数，同样可以将数据从低维空间映射到高维空间，相比 poly，参数较少，通用性较好 sigmoid：当使用 sigmoid 核函数时，SVM 实现的是一个多层神经网络
gamma	核函数系数，默认为样本特征数的倒数，即 gamma = 1/ n_features
max_iter	最大迭代次数，默认为-1，不做限制
class_weight	类别权重，dict 类型或 str 类型，可选参数，默认为 None。如果给定参数'balance'，则使用 y 的值自动调整为与输入数据中的类频率成反比的权重。

SVC参数C

SVC方法参数C代表L2正则化参数，正则化的强度与C的值成反比，即C值越大正则化强度越弱，其必须严格为正。

model = SVC(kernel='linear', C=0.05)
model.fit(X, y)
plot_svm_boundary(model,X,y)

我们减少C的值，可以看到模型拟合数据的程度减弱。

核技巧

SVC方法的kernel参数可取值{'linear', 'poly', 'rbf', 'sigmoid', 'precomputed'}。像前文中所使用的那样，我们可以使kernel='linear'进行线性分类。那么如果我们像进行非线性分类呢？

多项式内核

多项式内核kernel='poly'的原理简单来说就是，用单一特征生成多特征来拟合曲线。比如我们拓展X到y的对应关系如下：

这样我们就可以用曲线来拟合数据集。

model = SVC(kernel='poly', C=0.05,degree=5)
model.fit(X, y)
plot_svm_boundary(model,X,y)

我们使用多项式内核，并通过degree=5设置多项式的最高次数为5。我们可以看出分割出现了一定的弧度。

高斯RBF内核

SVC方法默认内核为高斯RBF，即Radial Basis Function（径向基函数）。这时我们需要引入gamma参数来控制钟形函数的形状。增加gamma值会使钟形曲线变得更窄，因此每个实例影响的范围变小，决策边界更不规则。减小gamma值会使钟形曲线变得更宽，因此每个实例的影响范围变大，决策边界更平坦。

model = SVC(kernel='rbf', C=1,gamma=0.01)
model.fit(X, y)
plot_svm_boundary(model,X,y)

调参技巧：网格搜索

from sklearn.model_selection import GridSearchCV
svm = SVC()
param_grid = {'C':[0.01,0.1,1],'kernel':['rbf','poly','linear','sigmoid'],'gamma':[0.01,0.1,1]}
grid = GridSearchCV(svm,param_grid)
grid.fit(X,y)
print("grid.best_params_ = ",grid.best_params_,", grid.best_score_ =" ,grid.best_score_)

我们可以通过GridSearchCV方法来遍历超参数的各种可能性来寻求最优超参数。这是通过算力碾压的方式暴力调参的手段。当然，在分析问题阶段，我们必须限定了各参数的可选范围才能应用此方法。

因为数据集太简单，我们在遍历第一种可能性时就已经得到100%的准确率了，输出如下：

grid.best_params_ =  {'C': 0.01, 'gamma': 0.01, 'kernel': 'rbf'} , grid.best_score_ = 1.0

总结

当我们处理线性可分的数据集时，可以使用SVC(kernel='linear')方法来训练数据，当然我们也可以使用更快的方法LinearSVC来训练数据，特别是当训练集特别大或特征非常多的时候。
当我们处理非线性SVM分类时，可以使用高斯RBF内核,多项式内核，sigmoid内核来进行非线性模型的的拟合。当然我们也可以通过GridSearchCV寻找最优参数。