什么是监督学习?

监督学习机器学习的一个分支,是一种数据分析方法,它使用从数据中迭代学习的算法,使计算机无需明确编程就能够发现隐藏的洞见。监督学习是机器 “学习” 方式的三种方法之一:监督式、无监督式和优化式。

监督学习图

监督学习解决的是已知问题,并使用标记数据集来训练执行特定任务的算法。它使用模型来预测已知的结果,如 “图像的颜色是什么?”,“图片中有多少人?”,“哪些因素导致欺诈或产品缺陷?”等。例如,监督学习过程可以是从图像中对两轮车和四轮车辆进行分类。必须正确标记训练数据,才能确定车辆是两轮车还是四轮车。监督学习使算法能够从历史/训练数据中 “学习” 并将其应用于未知输入以获得正确的输出。监督学习使用决策树、随机森林和梯度提升机器进行操作。

相比之下,无监督学习是一种用于识别新模式和检测异常情况的机器学习类型。输入无监督学习算法的数据未标记。算法(或模型)尝试通过查找特征和模式来自行理解数据。无监督机器学习可以回答的一个示例问题是:“是否出现了新的欺诈集群、购买模式或失败模式?”无监督学习使用集群、主成分、神经网络和支持向量机。

优化是第三种机器学习类型,即使存在复杂的约束条件,也能找到最佳的解决方案。例如,优化学习可以回答 “采取或分配资源或设备维护计划的最佳途径是什么?”的问题。优化学习利用基于达尔文进化理论的遗传算法。

监督学习中的分类是什么?

监督学习有两种主要类型:分类和回归。分类是训练算法以对离散变量的输入数据进行分类的地方。在训练期间,为算法提供带有 “类” 标签的训练输入数据。例如,培训数据可能包括一组客户的最后一张信用卡账单,标有他们未来是否购买。当向算法显示新客户的信用余额时,它将客户分为 “将购买” 或 “将不购买” 组。

监督学习中的回归是什么?

与分类不同,回归是一种监督学习方法,在这种方法中,对算法进行训练,以预测连续范围内可能值的输出。例如,房地产培训数据将考虑到位置、面积和其他相关参数。输出是特定房地产的价格。

在回归中,算法需要识别输入参数和输出之间的功能关系。输出值不像分类那样离散,而是输入参数的函数。回归算法的正确性是根据准确输出和预测输出之间的方差计算的。

试用 TIBCO Data Science - 免费试用
试用 TIBCO Data Science - 免费试用
借助 TIBCO Data Science,在整个组织内实现机器学习的民主化、协作和运营。

分类的实际应用

二分类

该算法将输入数据分类到两个可能组中的一个。通常其中一个类表示 “正常/期望” 状态,另一个类表示 “异常/不希望” 状态。二分类的真实应用包括:

垃圾检测

该算法给出了在监督学习阶段标记为 “垃圾邮件” 或 “非垃圾邮件” 的示例电子邮件。稍后,当算法显示新的电子邮件输入时,它会预测邮件是 “垃圾邮件” 还是 “非垃圾邮件”。

流失预测

该算法使用之前已经取消订阅服务的客户的训练数据集。根据训练,该算法根据输入参数预测新客户是否终止订阅。

转化预测

该算法是根据买家数据以及他们是否购买了物品进行训练。然后,根据训练,算法预测新客户是否会进行购买。

用于二分类的主要算法包括逻辑回归和支持向量机。

多级分类

在多级分类中,训练数据集标记为多个可能类中的一个。与二分类不同的是,多类算法使用可分为许多可能类之一的数据进行训练。多级分类的应用程序包括:

  • 人脸分类:根据训练数据,模型对照片进行分类并将其映射到特定人员。在这里需要注意的一点是,可能会有大量的类标签。在这种情况下,就是成千上万的人。
  • 电子邮件分类:多级分类用于将电子邮件分为不同的类别:社交、教育、工作和家庭。
  • 用于多级分类的主要算法是随机森林、朴素贝叶斯、决策树、K 最近邻和梯度提升。

多标签分类

与结果只有一个可能的类的二进制和多级分类不同,多标签输出属于一个或多个类。这意味着相同的输入数据可能会被分类到不同的存储桶中。多标签分类的应用包括:

  • 照片检测:如果照片有多个物体,例如车辆、动物和人物,照片可能属于多个标签。
  • 音频/视频分类:歌曲和视频可能适合各种类型和情绪。多标签分类可用于分配这些多标签。
  • 文本分类:可以根据文章的内容对文章进行分类。

不平衡的分类

这是二分类的一个特殊情况,在训练数据集中存在类不平衡。训练数据中的大多数示例属于一个集合,一小部分属于第二组。不幸的是,大多数机器学习算法在类之间存在相同的分割时效果最佳。例如,假设您的培训数据,您有 10,000 个真实的客户交易,只有 100 笔欺诈性交易。为了平衡准确性,由于数据的不平衡,需要专门的技术。不平衡分类的应用可能是:

  • 欺诈检测:在用于训练的标签数据集中,只有少量输入被标记为欺诈。
  • 医学诊断:在庞大的样本库中,病例阳性的样本可能要少得多。

采用基于成本的方法和基于抽样的方法等专门技术来帮助处理不平衡的分类案例。

回归的实际应用

线性回归

监督学习中的线性回归训练一种算法来查找输入和输出数据之间的线性关系。它是最简单的模型,其中输出表示输出的线性加权组合。线性回归可用于预测连续范围内的值(例如销售额、价格-预测)或将它们分为类别(例如猫、狗-逻辑回归)。在线性回归的训练数据中,提供了输入变量(自变量)和相应的输出变量(因变量)。根据提供的标记输入数据,回归算法计算线性函数中的截距和 x 系数。线性回归的应用可能包括:

预测:线性回归最重要的应用之一是预测。预测可能具有不同的性质。企业使用线性回归来预测销售额或客户的购买行为。它还用于预测经济增长、房地产销售以及石油等商品的价格。根据工资的历史数据,线性回归也用于估计新员工的最佳工资。

逻辑回归

用于确定事件发生的概率。训练数据将有一个自变量,所需的输出将是介于 0 到 1 之间的值。使用逻辑回归训练算法后,它可以根据自变量(输入)的值预测因变量(介于 0 和 1 之间)的值。逻辑回归使用经典的 S 形 sigmoid 函数。在监督学习环境中的逻辑回归中,算法根据提供的训练数据估计 beta 系数值 b0 和 b1。

概率 = e^(b0 + b1 * X)

逻辑回归的应用包括:

  • 确定概率:逻辑回归的主要应用之一是确定事件的可能性。任何事件的概率介于 0 和 1 之间,这就是逻辑函数的输出。机器学习中的逻辑回归算法可用于预测选举结果、自然灾害的概率以及其他此类事件。
  • 分类:尽管逻辑回归使用连续函数,但其中的一些应用仍在分类中。它可以用于图像分离和相关的分类问题。

多项式回归

多项式回归用于不能整齐地融入线性回归的更复杂数据集。算法使用复杂的标签数据集进行训练,这些数据集可能无法很好拟合直线回归。如果这些训练数据与线性回归一起使用,则可能会导致拟合不足,因为算法无法捕获数据的真实趋势。多项式回归允许回归线中的曲率更大,因此可以更好地逼近变量和自变量之间的关系。

偏差和方差是与多项式回归相关的两个主要术语。偏差是通过简化拟合功能而出现的建模错误。方差还指由于使用过度复杂的函数拟合数据而导致的错误。

监督学习的基本步骤

要使用监督机器学习来执行和解决问题,必须:

  • 选择训练数据的类型:监督学习的第一步是确定用于训练的数据的性质。例如,在手写分析的情况下,这可以是单个字母、一个单词或一个句子。
  • 收集和清理训练数据:在此步骤中,训练数据是从各种来源收集的,并进行严格的数据清理。
  • 使用监督学习算法选择模型:根据输入数据的性质和所需用途,选择分类或回归算法。这可能是决策树、SVM、朴素贝叶斯或随机森林。选择算法时的主要考虑因素是训练速度、内存使用率、对新数据预测的准确性以及算法的透明度/可解释性。
  • 训练模型:通过训练数据的多次迭代来微调拟合函数,以提高准确性和预测速度。
  • 进行预测并评估模型:一旦拟合函数令人满意,就可以为算法提供新的数据集来进行新的预测。

优化和重新训练模型:数据衰减是机器学习的自然组成部分。因此,必须使用更新的数据定期重新训练模型以确保准确性。