什么是数据科学家?
数据科学家 是一个需要一系列技术和基于领域的技能来管理和分析数据以解决业务问题的职业。他们一部分是数学家,一部分是商业分析师,一部分是计算机科学家。优秀的数据科学家可以看到数据的趋势和模式,并知道如何使用数据来产生有用的、可行的结果。数据科学家处于现代企业的前沿,改变了我们的工作方式。
数据科学家的历史
2001 年,计算机科学家威廉·克利夫兰撰写了一篇文章 “数据科学:扩大统计技术领域的行动计划”。本文介绍了 数据科学 作为应用统计学家的学科。那仅仅是在 20 年前,自那时以来,技术和商业世界已迅速发生变化。
由于这是一条相对较新的职业道路,目前的数据科学家来自各种背景和专业。许多人以统计学家、数学家或数据分析师的身份开始了他们的职业生涯。但是,随着对计算机、人工智能(AI)和数据学习工具的访问变得普遍,其角色也在演变。数据科学家不再局限于 IT 部门;他们已成为整体业务不可或缺的一部分。由于数据科学家的发展和对业务的关键影响,数据科学家的角色需要一个具有逻辑、创新思维的人才能将数据见解转化为业务战略。
数据科学家需要什么资格?
在过去的十年中,高等教育机构为数据科学家开发了专门的课程。那些希望在该行业工作的人可以从许多大学获得数据科学学士或硕士学位。
数据科学家参加的课程通常包括统计建模、数据管理、数据可视化、机器学习、软件工程、数据伦理学、研究设计和用户体验。他们可能会学习 SQL、Python、Perl 和一系列其他编程语言,例如 R 语言。他们会熟悉 Hadoop、Pig、Spark、Hive 和 MapReduce。
但是,随着越来越多的开源软件可利用和数据科学工具的商业化,人们今天学到的东西可能很快就会过时。因此,数据科学家需要敏捷,并继续学习行业内的新技能和技术。

数据科学家需要的不仅仅是学位
一位优秀的数据科学家应该很好奇,始终寻求新信息和新思考方式来应对业务挑战。对于数据科学家来说,强烈的直觉感和需要证据的习惯也是很好的特征。他们需要有足够的创造力才能在没有答案的地方找到答案,不断寻找见解和结果。
数据科学家还需要深刻的域业务知识。了解数据和编程是一回事,从这些见解中深入了解创建业务战略是另一回事。他们应该能够看到企业面临的风险和机遇,并能够利用数据为业务增长提供战略。了解人们在某种天气下购买更多是一回事,但是企业如何利用这类信息呢?数据科学家的角色是找出并回答这样的问题—这些问题不断将业务推向新的高度。
优秀的数据科学家还需要出色的沟通技巧。能够向利益相关者和管理人员报告并清楚地说明分析结果。能够解释数据在哪里不完整,以及解决数据需要什么。在这些结果的基础上说服他们采取最佳行动方案。新的计划和技术将发生变化,但能够进行批判性思考并拥有良好的定量、特定领域的技能将始终是需要的。
数据科学家做什么?
数据科学家获取数据、发展假设和推断,然后使用机器学习来检测数据中的模式、关系和趋势。在任何一天,他们可能是:
- 分析数据集
- 清理数据
- 构建仪表板和报表
- 对数据进行可视化
- 进行统计推论
- 开发统计学习模型
- 创建复杂的预测模型
- 使用统计工具
- 向利益相关者传达分析结果
- 说服决策者
大型零售公司每天最多可生成 40 拍字节的数据。他们的数据科学家使用这些数据来预测一系列结果,包括人们何时何地购买某些物品。这使他们能够计划活动和销售以实现最大销售额,为事情定价,以便他们仍能获得最大的利润,但同时也可以移动最大的库存量。
数据科学家通常会以团队形式开发大数据以获取相关信息。他们还可以就应收集什么类型的数据、如何分析数据以及这种解释的结果向管理层提供咨询意见。2017 年的一项研究显示,数据科学家 80% 的时间花在数据管理上。找到它,清理和整理它。只剩下 20% 的工作时间用于实际执行分析。但是,即使这种情况正在发生变化,随着自动化机器学习和深度学习的出现,数据科学家们发现他们有更多的时间进行分析,因为这些工具已变得更加自动化,并占用了大部分数据清理和组织工作,使数据科学家有更多时间进行分析。
为什么数据科学家的角色如此重要?
对于企业来说,数据科学家是无价的。他们需要数百万甚至数十亿个数据点,然后将其转化为关键信息,以预测可能会节省或发展业务的组织。各行业数据科学家的一些例子包括:
营销优化
数据科学家是营销的关键组成部分。例如,数据科学家可以制作一组触发器,提醒企业他们的客户流失风险很高。在营销方面,众所周知,寻找新客户的成本远远超过保留现有客户的成本。数据科学家设置的触发器使公司能够介入进行更改或与客户交谈以保留它们。
医疗
对数据科学家来说,这是一个拥有巨大机遇的大领域。从管理名册和人员配置的最佳水平,到确定哪些患者面临不遵守医生命令的高风险,数据科学家可以找到数千个改善业务实践和健康结果的机会。
欺诈检测
保险和银行业通过使用数据科学家识别欺诈风险,每年节省数十亿美元。例如,当客户申请贷款时,会收集许多关于他们的数据点。这些信息将被处理,并与之前的欺诈案件的已知信息进行比较。系统几乎立即可以告知此人是否存在风险。
如何成为数据科学家
如果您有逻辑的大脑,能够为数字争辩,喜欢使用计算机,并对业务有敏锐的理解力,那么作为数据科学家的角色可能是你梦想的工作。
第一步是获得计算机科学、统计或相关领域的学士学位。这个学位将使您掌握以下方面的技能:
学士学位为您提供入门级知识,但随着该领域的增长,将需要更多的资格或专业学位。考虑数据或相关领域的硕士学位,然后开始深入了解您感兴趣的特定业务领域。
获得资格后,下一步是获得感兴趣领域的经验。医疗保健、市场营销、政府或企业都为专业化提供了良好的前景。虽然可以教授数据科学家技能,但了解数据与实际生活影响之间的关系需要将经验和时间花费在业务上。

数据科学家面临挑战
部分由于这是一个新行业,数据科学家正面临一些挑战。这是一个以男性为主的行业,与许多理工科(科学、技术、工程和数学)职业一样,女性有时进入和保持自己的职业生涯会面临额外的障碍。2019 年,只有 18% 的数据科学家是女性。这种缺乏多样性的情况开始在该领域造成问题。算法是由人类创造的,容易受到偏见的影响。例如,在银行业,作为单身女性在获得贷款方面是不理的。但是,数据显示,妇女在偿还贷款方面比男性表现更好。银行可能错过了最佳客户,而女性错过了财务安全和独立性。拥有多元化的劳动力将有助于克服这些错误和偏见。
由于是新行业,它也在努力保持一致的词汇和实践标准。预计标准需要在利益相关者、数据科学家自己和立法者之间达成共识,但迄今尚未形成任何标准。
人们也在推动一种可以轻松解释的可解释的人工智能。思想领袖认为,预测不应仅仅是从子虚乌有中得到的数字,而是您应该能够跟踪并轻松解释机器学习模型背后的逻辑。
数据科学家的当前展望
与大多数理工科职业生涯一样,数据科学家受到高度追捧并且是受重视的员工。目前,缺乏具有适当分析技能的合格数据科学家。由于薪资预期高于平均水平、市场快速增长以及对其价值的了解有所增加,数据科学家的就业选择非常出色。2018 年,数据科学家短缺 151,000 名,使其成为一个安全且不断发展的领域。
特别是,鼓励来自任职人数不足群体的人进入该领域。一些大学为这些人数不足的群体提供激励措施,让他们加入数据科学项目,而公司也越来越认识到多样性是无偏见的结果所必需的,因此这是一种有吸引力且稳定的就业选择。