最近在做评论文本的预处理,包括分词、统计文本的信息。为了更好的了解机器学习,一直在看MOOC上的机器学习课程

线性回归

单变量

多变量

逻辑回归

vs线性回归

用于解决分类问题,即y是离散的
对于分类问题,如果使用线性回归,增加一个样本时,会影响分类结果,这与我们的逻辑不符。另外线性回归的$$h_\theta(x)$$的取值会超过[0,1]范围,而分类问题的y由于取值0或1,所以$$h_\theta(x)$$不应该>1或者<0。
所以我们不能用线性回归做分类问题。

假设函数的表达式

把逻辑函数应用到$$h_{\theta(x)}$$公式中(这也是“逻辑”回归的由来)。逻辑函数的公式如下:$$g(z)=\frac 1{1+e^-z}$$它的取值范围为0~1,当z=0时,$g(z)$刚好为0.5。
所以把它应用到$$h_\theta(x)$$公式中,有$$h_\theta(x)=g(\theta^Tx)=\frac 1{1+e^-{\theta^Tx}}$$。

ps:$$h_\theta(x)$$的现实意义:$$h_\theta(x)=P(y=1|x;\theta)$$,即对于给定的x和$$\theta$$,它预测的结果是1的概率(1通常为积极的分类)。

决策边界

决策边界是假设函数的属性,不是训练集的属性。它取决于$\theta$。
给定这样的预测:$$h_\theta(x)\ge0.5$$等价于$$y=1$$;$$h_\theta(x)\lt0.5$$等价于$$y=0$$。
由逻辑函数$$g(z)=\frac 1{1+e^-z}$$的图,得到$$y=1\Leftarrow h_\theta(x)\ge0.5\Leftarrow \theta^Tx\ge0$$;$$y=0\Leftarrow h_\theta(x)\lt0.5\Leftarrow \theta^Tx\lt0$$。
如果在图上说明,则是以两个特征为坐标的坐标系中,画一条线,将平面分为两边。这条线就是决策边界
###代价函数
对于线性回归,原来的公式是:$$J(\theta)=\frac 1m \sum_{i=1}^m \frac 1 2 (h_\theta(x^{(i)})-y^{(i)})^2$$
它的代价函数$$cost(h_\theta(x^{(i)})-y^{(i)})=\frac 1 2 (h_\theta(x^{(i)})-y^{(i)})^2$$
而对于逻辑回归,如果直接把上面的公式当作它的代价函数,带入$$h_\theta(x)=\frac 1{1+e^-{\theta^Tx}}$$,则函数变得非凸函数,难以求最小值。
由统计学中的极大似然法,可以得到逻辑回归的代价函数:$$cost(h_\theta(x^{(i)})-y^{(i)})=\begin{cases}-log(h_\theta(x))& \text{y=1}\-log(1-h_\theta(x))& \text{y=0}\end{cases}$$
结合图分析可得,当y和$$h_\theta(x)$$相同时,代价趋近于0;否则,趋近于无穷。
可以将上面的式子转化为:$$cost(h_\theta(x),y)=-ylog(h_\theta(x))-(1-y)log(1-h_\theta(x))$$则有:
$$\begin{align}J(\theta) & = \frac 1m \sum_{i=1}^m cost(h_\theta(x^{(i)}),y^{(i)})\ & =-\frac 1m[\sum_{i=1}^m y^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]\end{align}$$
要计算$\theta$,类似线性回归,进行迭代,每次都要计算n+1个j,$$\begin{align} \theta_j & =\theta_j-\alpha \frac \partial {\partial \theta_j} J(\theta) \& =\theta_j-\alpha \frac 1m \sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}\end{align}$$
可以用特征缩放提高效率

多类别分类

用one-vs-all思想,如果有k个类别,则构造k个二分类器。预测的时候,将x输入这k个分类器,选择概率最大的一个作为它的预测类别。

正规方程法

正则化

由于高阶多项式能够完全拟合训练集,但是可能不能泛化到新的输入,导致预测错误。
当特征较多时,可以有两种处理方式:

  1. 筛选:
    可减少过度拟合
    但是可能舍弃掉了有用的信息
  2. 正则化


机器学习      线性回归

本博客所有文章除特别声明外,均采用 CC BY-SA 3.0协议 。转载请注明出处!