什么是机器学习？

2019-07-15 网络

加入收藏

机器学习

人工智能，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎，而机器学习是人工智能的核心。

“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能

01 机器学习分类

传统机器学习
机器学习可以理解成是生产算法的算法。需要人来先做特征提取，然后在把特征向量化后交给机器去训练。
传统机器学习分为监督学习和无监督学习。
深度学习
深度学习是基于深度神经网络的学习（DNN）。深度学习可以自动提取特征。深度学习可以采用 End-to-End 的学习方式，只需要进行很少的归一化和白化，就可以将数据交给模型去训练。

02 机器学习中的一些概念

首先我们需要了解几个机器学习中的起码要知道是怎么回事的概念，了解了后面看代码才不会一脸懵逼。

训练样本
就是用于训练的数据。包括了现实中的一些信息数据，以及对应的结果，也就是标签。
训练
对训练样本的特征进行统计和归纳的过程。
分类模型
总结出的特征，判断标准。
验证
用测试数据集验证模型是否正确的过程。这个过程是在模型训练完后进行的，就是再用另外一些样本数据，代入到模型中去，看它的准确率如何。

2.1 聚类

聚类是一种典型的无监督学习，是把数据进行分类的过程。进行聚类的基本思想是，利用向量之间的距离 —— 空间中的欧式距离或曼哈顿距离，根据距离的大小判断对象是否应该归为同一类别。

上图是对3个一维向量分类的例子。明显的能看到，离得近的两个们可以近似的认为它们属于同一类别。

2.2 回归

回归简单的说就是一个由果索因的过程。这是机器学习中很常用的一个手段。

回归分为：

1. 线性回归

2. 非线性回归

实际使用那种回归模型，需要根据情况而定。

2.2.1 线性回归

线性回归模型：

其中 w 是一个特征张量，储存着与每个变量x中元素对应的特征元素，x 就是输入的训练数据张量，b 是一个偏置量。

这其实就是高中概率与统计章节中常见的一个公式。就像解那时候的应用题一样，我们需要根据一堆（x，y）求解一个合适的 w 和 b。

看看上面这个应用题，是否想起了高中时代的数学课？

2.2.2 损失Loss函数

损失函数是用来评估模型预测结果和真实情况差距的，差距越小，说明我们的模型越好，越准确。这就是损失函数的公式！

当我们假设一个w和b后，循环计算每一个 x 所得的值和真实 x 所对应的值相减，然后将每一个差相加求和，得到一个差值之和，就是当前的损失。

损失越小，说明所寻找到的 w 和 b 就越合适，当 Loss 为 0 时，说明此时模型的准确率为 100% 。

事实上，这和高中概率与统计应用题，给你一堆 x，y ，然后求一个系数w 和常量b 出来是一样的一样的。只不过在计算机中，由于算力比手算强大太多了，所以我们可以一遍一遍的调整 w 和 b 这两个参数，使 Loss 一直向趋于 0 的方向移动，从而使模型的准确率趋于 100% 。

通常，为了使 Loss 始终保持为正，也会有如下损失函数：

求平方使得结果横为正数。

比如这个函数的图像可能是一个三维的碗，那么我们的任务就是找到碗底的位置，也就是极值，因为在该点有解，即损失最小。

2.2.3 梯度下降法寻找最优解

对于复杂函数，我们要直接求解是巨困难的，甚至有时可以说是处于不可解的状态。我们需要寻找损失函数的极值，可以使用牛顿迭代法的思想进行迭代寻找。

那对于复杂函数是不是就只能束手无策了呢？在你了解牛顿迭代法之后就可以回到不是了，而此前对于这个问题也许只能回答不能了。

通过迭代，我们可以逐步的逼近索要寻找的极值。

这里，我们还人为的引入了一个 η 参数，这个参数用于调整步长。步子迈大了可能会越过极值，迈小了有会产生很大的计算量，具体取多大合适，还是要多看看老司机们烫过的坑。

普通的梯度下降法（批梯度下降法，BGD），需要遍历所有的数据样本，在样本量不大的时候还是可以的，毕竟这么干精度起码是很高的。但是如果样本容量巨大，那每次遍历所有样本，必然都会消耗很多时间成本。并且如果我们的损失函数不是一个凸函数误差曲面就会存在多个局部极小值（即局部碗底），那采用这种方法可能会陷入局部最优解中。

如上图就是一个非凸损失函数，有可能在梯度下降的过程中走到了一个局部最低点去，而这其实不是真正的最低点。

为了加快收敛速度，随机梯度下降法（SGD）就诞生了。它的思想是每次仅随机的抽取样本总体中的一个样本，来决定下一步的走向。它的好处是不用遍历所有的样本，所以对于样本容量巨大的情况，能够极大的加快收敛。但可想而知，每次随便取一个样本来更新权值，最终的权值很可能并不是最优解，不过有时在考虑现实情况的时候，这点精度误差也是可接受的。

那我们可不可以既要速度，又要精度呢？当 CoorChice 这么问的时候，你可就是知道套路问题的套路答案了（也许下次 CoorChice 就不会按套路走了，啊哈哈！）。答案就是 小批梯度下降法（Mini-batch GD）。它的思想是每次选取一定量的样本进行训练，然后再更新权值。即不用全部遍历，也不会因为每次更新仅由一个样本来决定而损失过多的精度。两头兼顾，当然也比较中庸。

2.2.4 交叉熵

在了解交叉熵之前，先了解一下什么是信息熵？首先看两个相关公式。

信息量公式：

没错，通过对一种情况发生的先验概率进行对数计算的结果，被用来表征这种事件发生的信息量。

信息熵公式：

就是将所有事件的信息熵进行加和。这个值越大，表明对于预测一个事件而言的不确定性就越大。

上面的公式是信息熵公式，它表示对于一系列事件，根据其历史发生数据可以计算出一个先验概率，根据这个先验概率，可以计算出该事件发生的信息量，再将信息量乘以先验概率，就可以得到单个事件的熵。将这些事件的熵求和，就可以得到信息熵了。它有什么作用呢？就是用来量化信息量的，如果越不确定，则其信息熵就越大。对于一个有序的系统（按部就班）来说，它的信息熵就比较小了。

如果理解了信息熵，接下来就可以更进一步的了解交叉熵了。首先，交叉熵损失函数如下：