机器学习导读 概念介绍
Published in:2023-12-15 | category: 经典深度神经网络

1.机器学习是什么?

机器学习实际上就是以数据为基础,发现数据之间本来存在而没有被发现的规律,它的一个重要特征就是尽量避免人的参与,尝试直接从数据中发现规律和解决问题的方案。

2.机器学习基础概念

2.1 机器学习类型

2.1.1有监督学习

​ 用来学习的数据有明确的含义,机器根据数据及其含义学习,把数据称为“特征值”, 数据的含义称为“标签”

​ 典型应用比如分类 ,回归

2.1.2无监督学习

​ 指用来学习的数据没有明确的含义

​ 典型应用比如异常检测,分类

2.1.3半监督学习

​ 部分数据是有含义的

2.1.4强化学习

​ 它在解决问题的时候不断实践,在实践中探索尝试,然后总结出比较好的策略。比如阿尔法围棋就是这样去做的

2.2数据集划分

​ 数据集收集好后,我们不会把他们全部用于训练,好比题库我们有一百道题,老师给我们讲九十道题,剩下十道题进行训练测试,检验我们的学习效果。

​ 机器学习也是如此

  • 训练数据:又称训练集,是训练模型时使用的数据,使用训练集来生成模型,用于学习参数
  • 验证数据:又称验证集,用于选择超参数,用来评估与选择模型
  • 测试数据: 又称测试集 ,测试集来测试模型的评估泛化能力

比如我们将数据分成A,B,C,D,E 五组,其中E做测试组,其余组做训练组。

在数据很少的情况下,我们也可以采用交叉验证的方法,也就是第一次训练用E组测试,其余组训练,第二次训练用D组测试,其余组训练……

2.3模型拟合

模型拟合方式可能存在着三种情况

  • 拟合良好

    既能够很好的拟合训练数据,又能够很好的预测测试数据

  • 过拟合

    能够非常好的拟合训练数据,但对测试数据的预测很差

  • 欠拟合

    不能够很好的拟合训练数据,也不能用来预测测试数据

我们要避免过拟合和欠拟合情况发生

可以做这样一个例比,小晓调到了一个新的部门上班,这个部门有30人,他不知道在这个新部门的工资是多少钱,如果他把这个部门的30个人都问一遍,那么预测自己的工资大概率是准确的,这时候我们说他是拟合良好,而他只问身边一两个人就预测自己的工资,大概率是不准确的,此时是欠拟合,如果他问了整个公司4000人的工资,又过拟合,这时候对于自己工资的预测也是不准确的。

2.4 性能度量

2.4.1 二分问题的性能度量

​ 准确率

​ 查全率

2.4.2 其他性能度量

​ 方差 相同规模不同训练数据产生的差别

​ 偏差 模型输出与真实值的差别

3.OpenCV中的机器学习方法

3.1决策树

Prev:
经典网络(一)线性分类器
Next:
分类器整体介绍