什么是数据挖掘?
数据挖掘是对数据的探索和分析,以发现有意义的模式或规则。它被归类为数据科学领域的一门学科。数据挖掘技术用来制作支持人工智能 (AI) 应用程序的机器学习 (ML) 模型。人工智能中数据挖掘的示例包括搜索引擎算法和推荐系统之类的事物。
数据挖掘工作原理
数据挖掘有助于回答基本查询和报告技术无法解决的问题。数据挖掘由几个关键标识符标记,下面将详细探讨这些标识符:
模式自动识别
数据挖掘模型是数据挖掘的基础,并且自动识别是指这些模型的执行方式。数据模型使用既定算法来挖掘构建模型所依据的数据。但是,大多数模型都可以归纳为新数据。评分是将任何模型应用于新数据并评估拟合适当性的过程。
预测最可能的结果
有几种数据挖掘形式本质上是预测性的。这方面的一个示例是基于教育和人口统计预测个人收入的模型。所做的每一项预测都有一定的概率来表明每个预测都可能成真。
在其他情况下,预测性数据挖掘可能会生成规则。这些是意味着特定结果的某些条件。规则的一个示例是,该规则规定,如果一个人拥有大学学位并且居住在城镇的特定地区,他们的收入可能会高于该地区的平均水平。这些规则伴随着相关的支持,即一个地区的人口百分比符合这一规则。
聚焦自然发生的分组
还有一些数据挖掘形式可以显示大数据中的自然分组。特定模式可能关注特定收入范围内的人口群体,而这个群体保持良好驾驶记录,每年都会在节假日租车。这些信息对租赁公司和保险公司都很有用。
数据挖掘的类型
有几种类型的数据挖掘,包括以下几种
线性回归
通过线性回归,企业可以在一个或多个独立输入的帮助下预测连续变量的值。这种方法通常用于房地产业务,根据面积、建造年份和邮政编码位置等变量来预测房屋价值。
逻辑回归
在此变体中,使用一个或多个独立输入来预测类别变量的概率。你会在银行系统中看到这种方法的使用,根据贷款申请人信用评分、收入、性别、年龄和许多其他个人因素来预测其拖欠贷款的可能性。
时间序列
这些是预测工具,其中模型利用时间作为基本自变量。零售商经常利用这种模型来预测对产品的需求并相应地处理库存。
分类/回归树
分类树或回归树是一种预测建模技术,预测类别变量和连续目标变量的值都可以进行预测。该模型基于此预测数据创建二进制规则集,以对新观测头下最大比例的同类目标变量进行分类和分组。根据这些规则,创建的新组将继续成为新观测值的预测值。
神经网络
神经网络设计为以类似于大脑功能的方式工作。就像刺激会导致大脑中的神经元发射从而启用行动一样,神经网络使用具有阈值要求的输入。这些输入将根据幅度 “触发” 或 “不触发” 其节点。这些发射或不发射的信号与可能隐藏在网络多层中的其他此类响应结合在一起。该过程会继续重复,直到创建输出。这样做的好处是近乎即时的输出,这项技术被广泛用于自动驾驶汽车以提高效率。
K-最近邻
这是一种依靠过去的观测结果对新观测结果进行分类的技术。K-最近邻是由数据驱动,而不是模型。在这里,没有关于数据的基本假设。也不存在用于解释数据输入的复杂过程。通过识别最接近的 K 邻域并分配众数值对新观测值进行分类。
无监督学习
这就是根据来自检查无监督任务的数据来观察底层模式。一些推荐系统使用无监督学习来跟踪一般用户模式,并为他们提供个性化的建议,以实现更好的客户互动。在无监督数据挖掘中使用的一些分析模型包括:
- 聚类
- 关联分析
- 主成分分析
- 实践中的监督和无监督方法

为什么数据挖掘很重要以及用在哪里?
每年产生的数据量大得惊人。而且,已经很庞大的数字还会每两年翻一番。数字世界由大约 90% 的非结构化数据组成,但这并不意味着信息量越大,知识就越好。数据挖掘旨在改变这种状况,有了它,企业可以:
- 以有组织的方式筛选大量重复的信息。
- 提取相关信息并充分利用这些信息以获得更好的结果。
- 加快明智决策的步伐。
您会发现,数据挖掘对于各行各业的分析工作至关重要。下面介绍一些行业是如何使用数据。
通信行业
通信行业,无论是市场营销还是其他行业,竞争都非常激烈,并且与收到多方吸引的客户打交道。使用数据挖掘方法来了解和筛选大量数据,有助于该行业创建有针对性的营销活动,从而确保大量成功销售和客户互动。
保险行业
在竞争激烈的市场中,该行业通常必须处理合规性问题、各种欺诈、风险评估和管理以及客户保留问题。通过数据挖掘,保险公司可以更好地为产品定价,为现有客户创造更好的选择,同时鼓励新客户注册。
教育行业
从数据角度了解学生进度使教育工作者能够在需要时为他们提供更好的个性化关注。可以尽早为可能需要干预策略的学生群体制定干预策略。
制造业
生产线故障或质量下降可能给任何制造业带来巨大损失。通过数据挖掘,公司将能够更好地规划其供应链。这意味着可以及早发现并处理可能出现的故障,质量检查可以更加严格,生产线中断降至最低。
银行业
银行业严重依赖数据挖掘和自动化算法,这些算法有助于理解金融系统中发生的数十亿笔交易。这样,金融机构将能够大概了解市场风险,更快地发现欺诈行为,管理其对监管要求的合规性,并确保其营销投资获得最佳回报。
零售行业
由于零售交易创下的交易额堪称天文数字,该行业可以使用大量数据来更好地了解消费者。数据挖掘可以帮助他们发展以改善客户关系,优化营销活动并预测销售额。
数据挖掘的过程
如下所述,数据挖掘过程有四个基本步骤。
定义问题
任何数据挖掘项目的第一步都是了解目标和要求。这必须从业务角度加以说明,并且还应制定基本的实施计划。如果业务问题是能够销售更多产品,那么数据挖掘问题将是 “哪种客户可能会购买该产品?”。实施过程首先要根据数据创建模型,例如早期的客户关系和属性,包括人口统计、家庭人数、年龄、住所等。
数据收集和准备
第二阶段包括数据收集和探索。对收集到的数据进行检查将有助于了解拟合度用来解决业务问题的准确性。在此阶段,人们可能会决定取消一些数据参数或引入一些新参数。在此处可以解决数据质量问题,并扫描数据中可能存在的模式。
数据准备阶段包括表格、案例和属性选择等任务。它还包括数据清理和转换、重复删除、标准化输入标题以及其他数据检查。
模型构建和评估
在第三步中,选择并应用各种建模技术,并将参数校准到最佳水平。在模型构建的初始阶段,最好使用经慎重选择的小型数据集。在这一点上,再评估模型如何解决业务问题是个好主意。在此阶段可以添加任何形式的改进。
模型部署
在最后的部署阶段,可以从收集的数据中获得洞见和可操作的信息。然后可以将这些知识部署到目标环境中。部署可以包括将模型应用于任何新数据、提取模型详细信息、将模型集成到应用程序中等等。
数据挖掘的挑战
毫无疑问,数据挖掘是一个强大的过程,但它确实存在一些挑战,尤其是它处理的复杂大数据数量不断增加。收集和分析所有这些数据只会继续变得更加复杂。以下是与数据挖掘相关的一些最重要的挑战:
大数据
在大数据方面,有四大挑战:
- 容量:大量数据涉及存储难题。此外,筛选如此庞大的数据涉及到查找正确数据的问题。当数据挖掘工具处理这样的容量时,处理速度会变慢。
- 多样性:在特定时刻,会收集和存储各种各样的数据。数据挖掘工具必须能够处理多种数据格式,这可能是一个挑战。
- 速度:现在收集数据的速度比以前快得多,这可能会带来问题。
- 准确性:这些海量数据的准确性可能具有挑战性,尤其是考虑到数据的数量、多样性和速度等因素。在这种情况下,主要的挑战是在数据数量和数据质量之间取得平衡。
过度拟合模型
这些很复杂,使用了太多的自变量来得出预测。随着容量和多样性的增加,过度拟合的风险也会增加。结果是模型开始在样本中显示自然误差,而不是显示潜在趋势。减少变量数量会导致模型不相关,而添加太多变量会限制模型。挑战在于如何正确调整所使用的变量及其在预测准确性方面的平衡。
规模成本
随着容量和速度的提高,公司需要努力扩大模型,以充分利用数据挖掘的优势。为此,公司需要投资一系列强大的计算能力、服务器和软件。对于公司来说,预算分配可能并不总是那么容易。
隐私和安全
存储需求在不断上升,各公司已转向云来满足其需求。但随之而来的是对数据的高级别安全措施的需求。在采取数据隐私和安全措施时,需要实施一系列内部规章制度。这需要改变工作方式,对于许多人来说,掌握起来难度很大。
在竞争激烈的时代,相关数据对于任何企业的运作都至关重要。数据挖掘可帮助组织更好地制定战略。数据挖掘是帮助企业获得这一优势的关键。做好这一点才是最重要的。
