什么是大数据?
大数据是指组织拥有的大量且不断增长的数据,这些数据无法使用传统方法进行分析。大数据(包括结构化和非结构化数据类型)通常是组织运行分析和提取的来源,可帮助他们制定更好的业务战略。它不仅仅是技术过程和应用的副产品。大数据是当今最重要的资产之一。
大数据可以由传统的结构化数据、非结构化或半结构化数据组成。社交媒体上用户生成的数据就是不断增长的非结构化大数据的示例。处理此类数据需要一种不同于结构化数据的方法,并辅以专门的工具和技术。
大数据是当今信息爆炸的副产品。商业和日常生活的各个领域都为蓬勃发展的大数据做出了贡献:零售、房地产、旅行和旅游、金融、社交媒体到技术,从我们走多少步到财务历史纪录等生活的各个方面,都是数据。
早在 2017 年,估计约有 38 亿人(约占世界人口的 47%)在使用互联网。在过去的几年中,智能电子设备的数量和种类猛增,并且持续增长。我们的日产量数据估计为 2.5 万亿字节,并且还在不断增长。
随着使用互联网的人数呈指数级增长,数据就会生生不息。
下面的数字将有助于人们对大数据巨头的规模有所了解。这就是网络领域每分钟都在发生的事情。你来算算看。
- 天气频道收到 18,055,555 个预报请求
- 人们使用 Skype 拨打 176,220 个电话
- Instagram 用户发布了 49,380 张照片
- Netflix 用户流式播放 97,222 小时的视频
大数据的特征
大数据的五个公认的特征:
- 数量
- 速度
- 多样性
- 真实性
- 价值
1.数量
如果我们将大数据视为金字塔,数量构成其庞大的基础。2012 年左右,当各组织开始每天收集超过 300 万条数据时,全球各地的公司管理的数据量开始猛增。据安东尼奥·德·内布里哈大学的工商管理硕士教授所说,从那时起,这一数据量估计大约每 40 个月翻一番。
2.速度
术语 “速度” 是指生成数据的速度。
可以成为资产的不仅仅是大数据的数量:大数据的流动速度(即速度)也很重要。它越接近实时,对于希望从中提取可行且有价值洞见的公司来说,就越有竞争优势。
例如,在大型体育赛事开始 45 分钟后,食品配送公司是否根据其销售数据决定购买 Google Ads 广告营销活动。几个小时后,同样的数据将失去意义。
推动此类快速数据需求的技术包括 RFID 标签、智能计量和各种传感器。
3.多样性
多样性是指公司可以获取大数据的来源范围以及数据可能出现的多种格式。这包括智能手机、内部设备、社交媒体聊天、股票行情数据和金融交易数据等来源。来源必须与收集数据的企业的性质特别相关。例如,零售公司必须关注用户在社交媒体上对其最近推出的服装系列的评价。制造业公司在关注社交媒体方面的嵌入价值会降低。
各种数据还可以进行扩展,帮助组织了解客户档案和角色。例如,一家公司会发现,不仅要知道有多少人打开时事通讯,还要知道他们为什么打开时事通讯以及区分受众的特征,这会很有帮助。
4.真实性
准确性引发对数据的质量和准确性的质疑。干净的数据是最值得信赖的。企业必须跨系统连接、清理和转换数据,才能信任数据。他们需要层次结构和多个数据链接来控制自己的数据。
5. 价值
金字塔的顶端是价值,即从大量数据中提取可行的业务洞见的能力。
价值能够预测有多少新会员将加入该网站,有多少客户将续保,预计会有多少订单等等。价值在于知道谁是最好的客户,谁会在几周或几个月后热情不再,不会再成为回头客。
公司通过利用大数据提供的洞见获利的能力来获得价值。他们可以深入了解客户,并继续提供更具相关性的产品。

大数据的主要类型和来源
流数据
这是来自物联网和互联设备的数据。此类数据按时间顺序流入系统。它可以从智能手机、可穿戴设备、智能汽车、工业设备和医疗设备等众多互联设备流入 IT 系统。流数据可以以先入为主或连续的方式进行分析,对其进行扫描以查看是否值得存储以供进一步分析,或者是否可以安全地将其丢弃。
社交媒体数据:
每天在 Facebook、Instagram、YouTube 等社交媒体平台上以照片、图片、GIF、视频、语音、评论(文本)和声音文件形式进行的数百万次互动构成了庞大的社交媒体数据。这对于销售、支持和营销活动尤其有价值。挑战在于,它主要是非结构化或半结构化形式,因此在进行分析之前需要进行额外处理。
公开可用的数据
这是指世界主要国家政府提供的包括 data.gov 门户在内的大量开放数据源。
其余的大数据来自云、数据湖、销售商、供应商或客户。
如何处理大数据
处理大数据始于制定利用大数据的策略。下一步是确定其来源、位置、系统、用户和所有者及其流入方式,并对其进行分类。然后创建一个基础架构来存储和管理数据,以便随时访问以供分析,最后一步是促进数据驱动型决策。该协议对于管理传统的结构化数据集以及非结构化和半结构化数据非常有用。
在制定大数据管理战略时,必须从业务增长和技术的角度考虑当前和未来的业务目标,将大数据与任何其他有价值的业务资产一样等同对待。
数据既可以在现场存储在传统数据仓库中,但近年来,云存储解决方案越来越受欢迎。这些解决方案更经济,并提供一定程度的灵活性。就处理而言,当今可用的计算系统在速度、功率和敏捷性方面能够满足访问如此庞大数据量的需求。整合数据、确保质量控制、提供数据治理以及为分析工具做好准备也是不容忽视的决定因素。
从大数据中获取最大价值的工具
大数据是推动我们这个时代的高级分析工作的动力,例如人工智能。公司使用收集到的数据的效率越高,从中挖掘出来的潜力就越大。投资于能够管理和分析海量数据(尤其是实时数据)的软件是大数据管理的重要一步。
MapReduce、BigTable 和 Hadoop:当需要存储大量数据并确定更好或更高效的业务活动方式时,可以利用 Hadoop 和基于云的分析等工具。这些有助于优化流程以实现成本优势。
此外,诸如 Hadoop 之类的高速工具与内存分析相结合,有助于识别未开发的资源,即用于分析的新数据源。捕获和分析数据的速度是公司快速做出决策的宝贵资产。
复杂的挑战需要聪明的解决方案。平台需要为组织提供简单直观的界面,确保即使是最不懂 IT 的人也能使用它们。该平台还应该能够利用全方位的大数据,实现准确实时的分析。如果能够处理来自不同来源的数多 TB 的数据集群,并成功地将其转变为提供有用洞见和工作流分析的仪表板,系统就会获得成功。

大数据分析:洞见
- 大数据分析让人们更深入地了解当前的市场状况、客户的购买行为、产品受欢迎程度等,从而优化制造或采购计划。
- 同样,大数据可以帮助企业详细了解客户的喜好、付费客户所属的受众特征,然后想出奖励和培养忠诚度的方法,以便长期留住客户。
- 让客户满意对于企业的长寿至关重要。大数据提供的见解在管理期望和为各种客户角色设计令人难忘且有效的营销活动方面大有帮助。
- 大数据分析也可以作为情绪衡量器,衡量消费者对您的品牌、服务或产品的看法。这对于管理品牌形象有很大的帮助。大数据洞见有助于提高在线知名度和受欢迎程度,并保持较高的评级。
- 大数据分析提供的洞见可帮助公司不断创新和重新开发产品,从而在竞争中保持领先地位。它们有助于确定故障、问题和缺陷的根本原因。
- 大数据有助于识别模式,计算风险组合,并在造成严重损害之前拦截欺诈行为。
处理大数据带来的长期好处
一旦组织在处理大数据所需的基础架构上投入了时间和资源,他们就可以期待获得以下好处:
- 优化资源和库存规划
- 更好的资产管理
- 更直观地了解客户档案
- 改善客户、销售商和供应商关系
- 缩短从订单到配送的时间
- 更好地整合整个供应链
- 更有效的战略规划
- 缩短解决供应链问题的反应时间
- 改善客户服务并加快周转速度
大数据如何影响各个行业:示例
教育领域的大数据
大数据推动了教育领域的重大变革,尤其是在以下方面:
- 创建更具定制性、动态性和交互性的学习和发展计划
- 重新定义教材的范围
- 修改评分系统以提高准确性
- 职业预测和咨询
保险业的大数据
保险业不仅与寻求人寿保险的个体有关,而且与各种类型和规模的企业有关。共同的因素是人和组织都容易受到逆境、灾难和其他不确定性的影响。因此,保险行业的数据可能有多种格式,来自不同的来源,并且可能会发生变化。
例如,如果客户在某个国家旅行时有意购买车险,则保险公司可以收集和运行该国家的驾驶条件和道路安全数据,然后相应地调整保费。他们还可以收集该客户的驾驶安全记录,在将该因素考虑在内后再向其出示保险购买政策。
除了此类风险评估外,保险公司还可以使用大数据进行威胁映射。这意味着他们可以考虑特定客户或公司可能出错的不同可能性,从而导致他们提出索赔。
政府的大数据
事实证明,大数据对世界各国政府影响特别大。不论是在地方,还是在国家和全球范围内,它在解决复杂问题、确保治理和影响重大事件方面发挥着重要作用。
大数据为收集和整理积累的数据带来了巨大的新机遇,并从中提取有用的洞见,为各种组织流程赋予了可行性和情境信息。