机器学习导读概念介绍

1.机器学习是什么？

机器学习实际上就是以数据为基础，发现数据之间本来存在而没有被发现的规律，它的一个重要特征就是尽量避免人的参与，尝试直接从数据中发现规律和解决问题的方案。

2.机器学习基础概念

2.1 机器学习类型

2.1.1有监督学习

用来学习的数据有明确的含义，机器根据数据及其含义学习，把数据称为“特征值”，数据的含义称为“标签”

典型应用比如分类，回归

2.1.2无监督学习

指用来学习的数据没有明确的含义

典型应用比如异常检测，分类

2.1.3半监督学习

部分数据是有含义的

2.1.4强化学习

它在解决问题的时候不断实践，在实践中探索尝试，然后总结出比较好的策略。比如阿尔法围棋就是这样去做的

2.2数据集划分

数据集收集好后，我们不会把他们全部用于训练，好比题库我们有一百道题，老师给我们讲九十道题，剩下十道题进行训练测试，检验我们的学习效果。

机器学习也是如此

训练数据：又称训练集，是训练模型时使用的数据，使用训练集来生成模型，用于学习参数
验证数据：又称验证集，用于选择超参数，用来评估与选择模型
测试数据：又称测试集，测试集来测试模型的评估泛化能力

比如我们将数据分成A,B，C，D，E 五组，其中E做测试组，其余组做训练组。

在数据很少的情况下，我们也可以采用交叉验证的方法，也就是第一次训练用E组测试，其余组训练，第二次训练用D组测试，其余组训练……

2.3模型拟合

模型拟合方式可能存在着三种情况

拟合良好

既能够很好的拟合训练数据，又能够很好的预测测试数据
过拟合

能够非常好的拟合训练数据，但对测试数据的预测很差
欠拟合

不能够很好的拟合训练数据，也不能用来预测测试数据

我们要避免过拟合和欠拟合情况发生

可以做这样一个例比，小晓调到了一个新的部门上班，这个部门有30人，他不知道在这个新部门的工资是多少钱，如果他把这个部门的30个人都问一遍，那么预测自己的工资大概率是准确的，这时候我们说他是拟合良好，而他只问身边一两个人就预测自己的工资，大概率是不准确的，此时是欠拟合，如果他问了整个公司4000人的工资，又过拟合，这时候对于自己工资的预测也是不准确的。

2.4 性能度量

2.4.1 二分问题的性能度量

准确率

查全率

2.4.2 其他性能度量

方差相同规模不同训练数据产生的差别

偏差模型输出与真实值的差别

Qodicat's World

Try something new and interesting