什么是无监督学习?
无监督学习是机器学习(ML) “学习” 数据的方式之一。无监督学习使用未标记的数据,算法必须自己尝试理解这些数据。监督式学习的数据都进行了标记,因此有一个答案键可供机器衡量其准确性。如果机器学习是孩子学习骑自行车,那么监督式学习就是父母跑在自行车后面,把自行车扶正。无监督学习则交出自行车,拍着孩子的头部,然后说 “祝你好运”。
这样做的目标就是让机器在没有数据科学家的帮助或提示的情况下进行学习。在此过程中,它还应学会在有更合适的结果时调整结果和分组。这使机器能够理解数据并以它认为合适的方式处理数据。
无监督学习用于探索未知数据。它可以揭示可能错过的模式,或者检查对人类来说太大而无法应对的大型数据集。
无监督学习如何运作?
要了解无监督学习,我们必须了解监督式学习。如果一台计算机正在监督式学习环境中学习识别水果,那么它将会得到标记的水果示例图像。这称为输入数据。例如,这些标签会说香蕉是长的、弯曲的和黄色的,苹果是圆形的和红色的,橙子是球形的、蜡质和橙色的。经过足够的时间,机器应该能够根据这些描述符自信地确定哪个是哪种水果。例如,如果面对苹果,它就能够自信地说它不是橙色,因此它不是橙子,而且也不是黄色且长的,因此它不是香蕉。它是圆形的和红色的,所以它是苹果。
相比之下,无监督学习是在完全没有对数据进行分类或贴标签的情况进行。机器不知道水果的概念,所以它无法标记物体。但是,它可以根据它们的颜色、大小、形状和差异将它们组合在一起。机器根据相似之处将事物分组,在未标记的数据中找到隐藏的结构和模式。方法不分对错,也无需老师。没有结果,只是对数据的纯粹分析。
无监督学习使用一系列算法将数据放入广泛的群组,进行聚类和关联。

无监督学习中的集群算法
集群是指将对象分组到称为簇的子集中。这是了解数据结构的最佳方法之一。这些集群中会有一些类似的特征。此方法旨在让具有相同特征的组,然后将它们分配给相关集群。
分层集群
这是指计算机将应在一起的事物归入一个集群树中。所有数据都是一个集群,然后分解为较小的集群。数据将属于一个级联的集群组,从最通用的集群到最具体的和紧密分组的集群。因此,最终的结果是您可以看到不同的子组之间的关系如何,或者它们相距有多远。
k-均值集群
此算法将数据分离为尚未在数据中标记的不同集群。到集群中心的距离取决于关联的强度。数据点只能属于一个集群。k 较大意味着以相同的方式分组较小、粒度更多。每个集群都分配了一个数据点标签。
高斯混合模型
基于正态钟形曲线分布,组群以正常的预期密度分布,显示总体数据中的子群体。
模糊集群
这些集群可以重叠,因此每个数据点可以属于多个相关集群的数量,而不是数据点只能属于一个集群的硬集群。这是无监督学习领域的维恩图。
集群设定群体之间的关系,因此它们并不总是客户细分的最佳方法,这种算法不会将数据点视为个体。您需要应用更多的统计方法来进一步分析数据。
无监督学习中的关联
在机器学习中,算法会创建用于查找数据点之间关联的规则。它可以找到变量之间的关系,识别通常会一起出现的项目。例如,超市的篮子分析可以看出人们倾向于同时购买哪些物品,例如汤和面包卷。或者,当人们购买新房时,还有可能购买什么?这种算法非常适合识别营销机会。
无监督学习中的潜在变量模型
潜在变量建模显示可观察变量(或显变量)与隐藏或未观察变量(潜在变量)之间的关系。潜在变量模型主要用于数据预处理/清理,以此减少数据集的要素或将数据集细分为多个组件。
非监督训练在什么情况下是未知趋势和模式的首选?
由于机器不知道有 “正确” 的答案,因此只能根据信息(这意味着,没有科学家的偏见)让数据科学家了解更多关于数据的信息。算法可能会在数据中找到数据科学家以前看不到的有趣或隐藏的结构。这些隐藏的结构称为特征向量。
数据通常没有标签,因此,无监督学习无需数据科学家标记所有内容,这可能是一项耗时且通常无法完成的任务。无监督学习算法还允许执行更复杂的处理任务。再次,没有标记意味着可以映射复杂的关系和数据集群。没有数据标记意味着没有先入为主的想法,也没有偏见。
使用无监督学习的最佳时机是没有预先存在的数据或首选结果。无监督学习可以识别对未知数据集进行分类时可能有用的功能。例如,如果企业需要确定全新产品的目标市场。
无监督学习使用一种称降维的技术。这是当机器假定大量数据是冗余的时,在适用的情况下或者删除维度,或者将数据的某些部分合并在一起。数据压缩可节省时间并节省计算能力。
生成模型是无监督学习的另一个强项。生成模型显示数据中的分布情况。这是审查数据并可以从中创建新样本的过程。例如,可以为生成模型提供一组图像,然后根据这些图像创建一组制造的图像。