机器学习基础

机器学习

machinelearning

基本术语

lris_table

如图所示表格,是鸢尾花(lris)相关信息的数据,其中:

  • 数据整体称为数据集(data set)
  • 每一行数据称为一个样本(sample)
  • 每一列(除表格最后一列)表达样本的一个特征(feature)
  • 最后一列,成为标记(label)

lris_feature

如图所示信息,其中 萼片长度、宽度,花瓣的长度、宽度称为 特征;每一行特征的值称为特征向量(数学上通常会将其表示为列向量)。

lris_feature2

若将该图中的数据表示为矩阵的方式,结果如图:

lris_array

选择两种鸢尾花的特征为例,将其表示为如图的二维空间(多维特征将其表示为多维空间)。

我们将这样的空间称为 特征空间(feature space)。

lris_feature_space

分类任务本质就是在特征空间切分,如图所示,在特征空间中,将鸢尾花根据两种特征分为了两类。

lris_feature_space2

机器学习的基本任务

机器学习的基本任务基本有两类,分别为:

  • 分类
  • 回归

分类任务

  • 一些算法只支持完成二分类的任务
  • 多分类的任务可以转换成二分类的任务
  • 一些算法天然的支持多分类问题

二分类

二分类问题的常见实例:

  • 判断邮件是垃圾邮件;不是垃圾邮件
  • 判断发放给客户信用卡有风险;无风险
  • 判断病患良性肿瘤;恶性肿瘤
  • 判断某支股票涨;跌

多分类

多分类问题的常见实例:

  • 数字识别
  • 图像识别
  • 判断发放给客户信用卡的风险评级
  • 围棋游戏等
  • 自动驾驶识别

多标签分类

如图所示,为多标签分类问题的常见实例:

label_classification

回归任务

回归问题的结果与分类问题的结果不同,回归问题的结果是一个连续数字的值,而非一个类别。

常见的回归问题有:

  • 房屋价格
  • 市场分析
  • 学术成绩
  • 股票价格

在一些情况下,回归任务可以简化成分类任务。

机器学习算法分类

监督学习

监督学习 supervised learning 主要处理的是分类问题和回归问题。

监督学习的含义是给机器的训练数据中拥有“标记”或者“答案”。根据这些数据进行模型的训练。

supervised_learning

  • 如根据图片判断猫狗(图像已经拥有了标定信息)

supervised_learning_2

  • 如更具手写字体识别数字(给出结果标记)

supervised_learning_3

  • 银行已经积累了一定的客户信息和他们信用卡的信用情况

  • 医院已经积累了一定的病人信息和他们最终确诊是否患病的情况。

常见的监督学习算法有:

  • k近邻
  • 线性回归和多项式回归
  • 逻辑回归
  • SVM
  • 决策树和随机森林

非监督学习

非监督学习 unsupervised learning 给机器的训练数据没有任何“标记”或者“答案”。

unsupervised_learning

对没有“标记”的数据进行分类 – 聚类分析。

unsupervised_learning_2

意义

对数据进行降维处理
  • 特征提取:行用卡的信用评级和人的胖瘦无关?
  • 特征压缩:PCA

降维处理的意义:方便可视化

我们无法理解四维以上空间,所以可以将其降维到三维或者二维空间,方便理解。

unsupervised_learning_3

异常检测

unsupervised_learning_4

半监督学习

semi-supervised learning

  • 一部分数据有“标记”或者答案,另一部分数据没有

  • 常见的场景:各种原因产生的标记缺失。

  • 我们通常都先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测。

增强学习

根据周围环境的情况,采取行动,根据采取行动的结果,学习行动方式。

reinforcement_learning

  • 无人驾驶
  • 机器人

在增强学习中,监督学习和半监督学习是基础。

机器学习的其他分类

在线学习和批量学习

在线学习

Online Learning

online_learning

  • 优点:及时反映新的环境变化

  • 问题:新的数据可能带来不好的变化,错误的数据可能带来错误的结果

    • 解决方案:需要加强对数据的监控
  • 也适用于数据量巨大,完全无法批量学习的环境

批量学习(离线学习)

Batch Learning / Offline Learning

batch_learning

  • 优点:简单

  • 问题:要考虑如如何适应环境变化

    • 解决方案:定时重新批量学习
  • 缺点:每次重新批量学习,运行量巨大。在某些环境变化非常快的情况下,甚至是不可能的。

参数学习和非参数学习

参数学习

Parametric Learning

如图所示,为房屋面积与价格的关系曲线。

parametric_learning

特点:一旦学习到了参数,就不需要原有的数据集。

非参数学习

Nonparametric Learning

  • 不对模型进行过多假设

  • 非参数不等于没有参数,而是对整个不进行建模,不学习一些参数