什么是数据科学?
数据科学 是一种多学科方法,通过将分析方法、领域专业知识和技术相结合,用于在数据中查找、提取和呈现模式。这种方法通常包括数据挖掘、预测、机器学习、预测分析、统计和 文本分析 等领域。随着数据以惊人的速度增长,公司利用数据中见解的竞赛还在继续。但是,大多数组织都面临着缺乏专家来分析其大数据,无法发现见解并探索其公司甚至不了解的问题。为了实现数据科学的价值并使其获利,组织必须将预见性见解、预测和优化策略注入业务和运营系统。许多企业现在都在为知识员工提供可以帮助他们执行自己的机器学习项目和任务的平台。能够提取将大量数据注入到业务中的趋势和机会,将为组织带来竞争优势。
数据科学包括描述性、诊断性、预测性和规范性能力。这意味着,通过数据科学,组织可以使用数据来弄清楚发生了什么、为什么发生、将发生什么以及应该如何处理预期结果。
了解数据科学是如何工作的
从概念上讲,数据科学过程非常容易理解,涉及以下步骤:
- 了解业务问题
- 收集和整合原始数据
- 探索、转换、清理和准备数据
- 根据数据创建和选择模型
- 测试、调整和部署模型
- 监控、测试、刷新和治理模型
了解业务问题
数据科学的过程首先是了解企业用户正在尝试解决的问题。例如,企业用户可能想问和了解 “我该如何增加销售额?”或者 “哪些技术最适合向我的客户销售?”这些问题非常广泛,模棱两可,不会引出立即可研究的假设。数据科学家的工作 是将这些商业问题分解为可研究和可测试的假设。例如,“我该如何增加销售额?”可以分解为几个较小的问题,例如 “什么条件导致销售额增加?是促销、天气还是季节性?”,“我们如何根据限制优化销售?”,以及 “每家商店明天/下周/下个月的销售额可能是多少?”要记住的重要事情是,人们需要了解需要做出的业务决策,然后从这里逆向思维。如果您能预测未来一小时/日/周/月的情况,您的业务流程将如何改变?
收集和集成原始数据
一旦了解了企业问题,下一步是收集和集成原始数据。首先,分析师必须查看哪些数据可用。通常,数据会有许多不同的格式和许多不同的系统,因此通常使用数据整理和数据准备技术将原始数据转换为适合将要使用的特定分析技术的可用格式。如果数据不可用,数据科学家、数据工程师和 IT 部门通常会协作将新数据引入沙盒环境进行测试。
探索和准备数据
现在,我们可以探索数据。大多数数据科学从业人员将使用数据可视化工具,该工具将数据组织成图表和可视化,以帮助他们了解数据中的一般模式、高层次相关性以及任何潜在的异常值。这也是分析师开始了解哪些因素可能有助于解决问题的时候。分析师已基本了解数据的行为方式以及可能需要考虑的潜在因素,分析师将转换、创建新特征(又称变量)并准备数据进行建模。
测试、调整和部署模型
这是大多数分析师,使用 机器学习 、 深度学习 、预测或自然语言处理(又名文本分析)等技术来测试不同的模型,使用算法从输入数据中创建模型的时候。将统计模型和算法应用于数据集,以尝试根据输入预测变量(例如,影响目标的因素)概括目标变量的行为(例如,您试图预测的内容)。
输出通常是预测、预报、异常和优化,可以显示在仪表板或嵌入式报表中,或直接注入业务系统,以便在接近影响点的地方做出决策。然后,在模型部署到可视化或业务系统中之后,它们将用于对以前从未见过的新输入数据进行评分。
监控、测试、刷新和治理模型
模型部署之后,必须对模型进行监控,以便随着现实世界事件行为的变化导致数据的变化而进行刷新和重新训练。因此,组织必须制定模型运营战略来治理和管理生产模型的变更。
除了将模型部署到仪表板和生产系统之外,数据科学家还可以创建可通过可视化或仪表板工具调用复杂的数据科学管道。通常,它们有一组减少和简化的参数和因子集,可由 公民数据科学家 进行调整。这有助于解决上述技能短缺的问题。因此,公民数据科学家,通常是商业或领域专家,可以选择感兴趣的参数并运行非常复杂的数据科学工作流程,而无需理解其背后的复杂性。这使他们能够在不需要数据科学家参与的情况下测试不同的场景。
总之,数据科学家使用数据讲述故事,然后提供企业可将其用于现实世界应用程序的预测性见解。如下图所示,其使用的过程是:
- 输入数据
- 准备数据
- 应用机器学习
- 部署、评分和管理模型
- 输出数据

数据科学过程的关键步骤
业务了解
- 了解要做出的业务决策
- 确定做出决策所需的数据
- 了解决策会使您的业务发生什么变化
- 确定支持决策所需的架构
- 组建跨职能部门的技术和项目管理团队
了解机器学习过程
- 数据采集和集成
- 数据探索 、准备和清理
- 数据预处理、转换和特征生成
- 模型开发和选择
- 模型测试和调整
- 模型部署
了解模型运营和治理流程
- 模型存储库、文档和版本控制
- 模型评分、API 框架和容器策略
- 模型执行环境
- 模型部署、集成和结果
- 模型监控、测试和刷新
数据科学需要哪些技能?
商业技能: 协作、团队合作、沟通、领域专业/业务知识
分析技巧: 数据准备、机器学习、统计、 地理空间分析 、 数据可视化
计算机科学 /IT 技能: 数据管道、模型部署、监控、管理、编程/编码
谁使用数据科学?
“ 隐藏的人才” 又名公民数据科学家: 通过点击式界面,每天使用数据和分析来解决特定的业务问题。
“ 业务驱动”: 专注于业务单位主导的计划和改善业务运营。
“ 专家”: 跨所有职能部门和业务部门解决问题,并与 IT 部门协作实施机器学习模型。获得高管的支持和资助。
“ Hotshots”: 利用大量数据源来解决新问题,使用机器学习原型解决方案,并大规模运行数据科学工作流程。支持 R、Python、Scala、Hadoop 和 Spark 等工具。
"未开发的潜力 ": 想跳入,但感觉他们没有获得支持或培训,或者不能为提供可重复使用模板技术的组织工作。
顶级数据科学任务
- 问题了解和分析
- 数据收集、数据准备/清理和基本的探索性数据分析
- 模型开发和测试
- 模型部署、监控和治理
- 将调查结果传达给业务决策者
数据科学解决哪些挑战?
以下是数据科学在不同行业解决挑战的示例:
能源
数据科学主要用于能源行业,以优化勘探、生产和运营,同时预测以下需求:
- 预测设备故障
- 预测未来的石油量和价格
- 优化分配
- 减少排放
- 分析地面成分
- 描绘水库特征
金融和保险
在金融和保险行业,数据科学主要侧重于降低风险、检测欺诈和优化客户体验。使用数据科学的一些示例包括:
- 预测信用风险
- 检测欺诈
- 分析客户
- 管理组合风险
- 确定流失的可能性
- 遵守 SOX、巴塞尔 II 等法规
医疗
医疗领域的数据科学主要用于提高护理质量、改善运营和降低成本。
- 预测疾病风险
- 检测欺诈性索赔
- 开出个性化药物剂量
- 分析图像以检测癌症
- 管理索赔
- 提高患者安全
- 确定谁的风险最大
制药
制药行业的数据科学主要用于确保安全性、产品质量和药物疗效,例如:
- 确定黄金批次
- 分析临床试验
- 追踪产品
- 分析稳定性 & 保质期
- 验证报告和分析是否符合法规性
- 分析制造流程、数据
制造
在 制造业 中,数据科学有助于优化流程、提高质量和监控供应商。一些示例如:
- 提高收益
- 减少废料、返工和 & 召回
- 检测保修欺诈
- 遵守法规
- 预测 & 防止设备故障
数据科学家面临的挑战
无法访问的数据
解决方法:
- 将来自多个不同来源的数据轻松合并到虚拟数据层
- 以可视方式操纵、清理和转换数据,以便为分析做好准备
- 使用内省和关系发现来理解和验证模型构建的数据关系
脏数据
解决方法:
- 人工智能助长了视觉争论,以自动建议转换、删除异常值和清理数据
- 自动化数据健康状况检查以填写缺失值、删除不重要变量并准备数据以备分析
- 大规模格式化和准备不同来源的数据
有限的人才 & 专业知识
解决方法:
- 使用自动化推荐和视觉见解以理解复杂性
- 利用整个团队而不仅仅是少数数据科学家的创造力,并在端到端分析生命周期中进行协作
- 创建可由公民数据科学家运行的可重复使用的参数化模板来扩展机器学习
结果未被使用
解决方法:
- 简化对操作系统的部署,以便在影响点将机器学习嵌入到业务流程中
- 通过模型监控、再培训和治理来操作数据科学
- 确保在端到端分析生命周期中成功移交:数据管道、模型构建、评分和应用开发

解决数据科学挑战
面向所有人的数据科学: 利用自动化、可重复使用的模板和跨职能团队的通用协作框架,实现数据科学的民主化和协作
加速创新: 利用本机算法、开源和合作伙伴生态系统快速设计新的灵活解决方案,同时确保治理
AnalytiCOPS: 通过管道监控、管理、更新和治理系统地关注数据科学的运营,从而实现数据科学的价值货币化
培训: 向公民数据科学家和其他想要学习数据科学实践的人提供教育和培训。
卓越中心: 建立卓越中心以推广最佳实践并促进创新和可重用性,从而在整个企业范围内扩展数据科学