SVM速览1
本系列文章是为了介绍Support Vector Machine(SVM)支持向量机算法,但为了了解它我们需要知道在它之前的算法,也就是逻辑回归算法。
回归分析
然而要了解逻辑回归,首先得知道什么是回归分析。我们首次接触到回归分析是在学概率论时,这是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
线性回归
下面假设我们有两组一一对应的数据X和Y。然后我们可以列出它们之前的线性的方程为
$$
\hat {y_i} = w x_i + b
$$
我们可以很快地使用最小二乘法得到w和b:
$$
w’ = \frac{\sum{(x_i- \bar x)(y_i - \bar y)}}{\sum{(x_i - \bar x)^2}} \
b = \bar y - w \bar x
$$
逻辑回归
逻辑回归与线性回归其实没有什么不同,只是它所使用的回归函数是Sigmoid函数,也叫Logistic 函数。
使用Logistic 函数的原因可能与我们假设的概率模型有关:假设我们认为出现的误差是一个伯努利分布,也就是我们遇到的是一个二分类的问题,只有是或不是两种可能性。让我们重新回忆一下伯努利分布的公式:
$$
f_X(x) = p^x(1-p)^{1-x} = \left {
\begin{aligned}
p \quad if x = 1, \
q \quad if x = 0.
\end{aligned}
\right .
$$
1 |
把$f_X(x)$写成概率的形式$p(x;\theta)$,$\theta$就是上面式子中的$X$。然后我们需要求这个函数的似然函数:
$$
\begin{aligned}
L(\theta) &= p(y|x;\theta) \
&= \prod_{i=1}^m{p\left(y_{i} | x_{i}; \theta \right)} \
ln{L(\theta)} &= \sum_{i=1}^m{log{f_X(x)}} \
&= \sum_{i=1}^m{xlogp + (1-x)log(1-p)}
\end{aligned}
$$