Qu'est-ce qu'un Data Scientist ?

La profession de data scientist requiert un éventail de compétences techniques et liées au domaine pour gérer et analyser des données afin de résoudre des problèmes commerciaux. Le data scientist est en partie mathématicien, en partie analyste commercial et en partie informaticien. Un bon data scientist est capable de déceler des tendances et des modèles dans les données et sait comment les utiliser pour obtenir des résultats utiles et exploitables. Les data scientists sont à l'avant-garde des entreprises modernes, transformant la façon dont nous travaillons.

Diagramme des compétences du Data Scientist

Histoire des Data Scientists

En 2001, un informaticien, William S. Cleveland, a écrit un article intitulé « Data Science : An Action Plan for Expanding the Technical Area of Statistics ». Cet article présentait la Data Science comme une discipline des statisticiens appliqués. C'était il y a seulement 20 ans, et le monde de la technologie et des affaires a évolué rapidement depuis lors.

Étant donné qu'il s'agit d'un parcours professionnel relativement nouveau, les data scientists actuels viennent d'expérience et de spécialités très divers. Beaucoup commencent leurs carrières comme statisticiens, mathématiciens ou data scientist. Mais l'accès aux ordinateurs, à l'intelligence artificielle (IA) et aux outils d'apprentissage des données étant devenu courant, le rôle a évolué. Un Data Scientist n'est plus confiné au département informatique; il fait désormais partie intégrante de toute l'entreprise. En raison de son expansion et de son influence cruciale sur l'entreprise, le rôle du Data Scientist requiert une personne dotée de logique et innovante, capable de traduire les informations sur les données en stratégie commerciale.

Quelles sont les qualifications requises pour devenir Data Scientist ?

Au cours des dix dernières années, les établissements d'enseignement supérieur ont développé des cours spécifiques pour les data scientists. Ceux qui souhaitent travailler dans ce secteur peuvent obtenir une licence ou une maîtrise en science des données auprès d'un grand nombre d'universités.

Les cours que suivent les Data Scientists couvrent généralement la modélisation statistique, la data management, la data visualization, le machine learning, le génie logiciel, l'éthique des données, la conception de la recherche et l'expérience utilisateur. Ils peuvent apprendre SQL, Python, Perl et une série d'autres langages de programmation tels que R. Ils se familiariseront avec Hadoop, Pig, Spark, Hive et MapReduce.

Cependant, avec la disponibilité d'un plus grand nombre de logiciels open-source et d'outils de data science commercialisés, ce que les gens apprennent aujourd'hui pourrait bientôt devenir obsolète. Par conséquent, les data scientists doivent être agiles et continuer à acquérir de nouvelles compétences et techniques au sein du secteur.

Quel super-héros de la Data Science êtes-vous ?
Quel super-héros de la Data Science êtes-vous ?
Téléchargez cet e-book pour connaître les six compétences principales dont vous avez besoin pour vous démarquer en tant que data scientist.

Les data scientists ont besoin de plus qu'un simple diplôme

Un excellent data scientist doit être curieux, toujours à la recherche de nouvelles informations et penser à de nouvelles façons de confronter les défis de l'entreprise. Être très intuitif et avoir l'habitude d'exiger des preuves sont également d'excellentes qualités pour un data scientist. Celui-ci doit être suffisamment créatif pour trouver des réponses là où il n'y en a pas, en recherchant continuellement des idées et des résultats.

Les data scientists doivent également posséder une connaissance approfondie du domaine d'activité. Connaître les données et la programmation est une chose, avoir la perspicacité nécessaire pour créer une stratégie commerciale à partir de ces informations en est une autre. Ils doivent être capables d'identifier les risques et les opportunités de l'entreprise et d'utiliser ces données pour proposer des stratégies de croissance. C'est une chose de savoir que les gens achètent davantage lorsqu'il fait un certain temps, mais comment une entreprise peut-elle tirer parti de ce type d'information ? Le rôle du data scientist est de comprendre et de répondre à ce genre de questions, et ceci pousse continuellement l'entreprise vers de nouveaux sommets.

Un excellent data scientist doit également posséder d'excellentes compétences en communication : pour pouvoir rendre compte aux parties prenantes et aux responsables et expliquer clairement les résultats des analyses ; pour pouvoir expliquer où se situent les données incomplètes, et ce qu'il faut faire pour les résoudre ; pour convaincre et persuader de la meilleure ligne d'action selon ces résultats. Les nouveaux programmes et les nouvelles techniques évolueront, mais la capacité de penser de manière critique et d'avoir de bonnes compétences quantitatives et spécifiques au domaine seront toujours en demande.

Que fait un data scientist ?

Un data scientist prend des données, développe des hypothèses et des inférences, puis utilise le machine learning pour détecter des modèles, des relations et des tendances dans ces données. Chaque jour, il peut  :

  • Analyser des ensembles de données.
  • Nettoyer des données.
  • Création de tableaux de bord et de rapports
  • Visualiser des données.
  • Faire des inférences statistiques.
  • Développer des modèles d'apprentissage statistique.
  • Créer des modèles prédictifs complexes.
  • Utiliser des outils statistiques.
  • Communiquer les résultats de l'analyse aux parties prenantes.
  • Convaincre les décideurs.

Les grandes entreprises de vente au détail peuvent produire jusqu'à 40 pétaoctets de données chaque jour. Leurs data scientists utilisent ces données pour prédire une série de résultats, notamment quand et où les gens achètent certains articles. Cela leur permet de planifier des événements et des soldes pour maximiser les ventes, en fixant les prix de manière à réaliser un profit maximal, mais aussi à écouler la plus grande quantité de stock.

Les data scientists travaillent généralement en équipe pour exploiter les big data à la recherche d'informations pertinentes. Ils peuvent également conseiller la direction sur le type de données à collecter, la manière dont elles doivent être analysées et les résultats de cette interprétation. Une étude de 2017 a montré que 80 % du temps d'un data scientist est consacré au data management : à trouver les données, à les nettoyer et à les organiser. Il ne reste donc que 20 % de leur temps de travail pour effectuer réellement des analyses. Cependant, même cela est en train de changer : avec l'avènement du machine learning et du deep learning, les data scientists constatent qu'ils ont plus de temps pour l'analyse, car ces outils sont devenus plus automatisés et ont pris en charge une grande partie du nettoyage et de l'organisation des données, laissant aux data scientists plus de temps pour l'analyse.

Pourquoi le rôle des data scientists est-il si important ?

Pour une entreprise, un data scientist est inestimable. Il prend des millions, voire des milliards de points de données et les transforme en informations cruciales pour faire des prédictions sur une organisation qui pourraient soit sauver, soit développer une entreprise. Voici quelques exemples du rôle des data scientists par secteur d'activité :

Optimisation du marketing

Les data scientists sont un élément crucial du marketing. Par exemple, un data scientist peut produire un ensemble de déclencheurs qui alertent l'entreprise que ses clients présentent un risque élevé de désabonnement. En marketing, il est bien connu que le coût de la recherche d'un nouveau client dépasse largement le coût de la fidélisation d'un client existant. Les déclencheurs mis en place par le data scientist permettent à l'entreprise d'intervenir et d'apporter des changements ou de parler au client pour le fidéliser.

Santé

Il s'agit d'un domaine immense offrant des opportunités massives aux data scientists. Qu'il s'agisse de gérer les listes et les effectifs à des niveaux optimaux ou d'identifier les patients qui présentent un risque élevé de ne pas respecter les ordonnances de leur médecin, un data scientist peut trouver des milliers de possibilités d'améliorer les pratiques commerciales et les résultats en matière de santé.

Détection des fraudes

Les secteurs de l'assurance et de la banque économisent des milliards de dollars chaque année en utilisant des data scientists pour identifier les risques de fraude. Par exemple, lorsqu'un client fait une demande de prêt, un certain nombre de points de données sont collectés à son sujet. Ces informations sont traitées et comparées à des informations connues sur des cas de fraude antérieurs. Presque immédiatement, le système peut indiquer si cette personne présente un risque.

Comment devenir un scientifique des données

Si vous avez un cerveau logique, que vous savez manier les chiffres, que vous aimez travailler avec les ordinateurs et que vous avez une bonne compréhension du monde des affaires, le poste de data scientist peut être l'emploi de vos rêves.

La première étape consiste à obtenir une licence en informatique, en statistiques ou dans un domaine connexe. Ce diplôme vous permettra d'acquérir des compétences dans les domaines suivants :

  • Les mathématiques, en particulier les statistiques
  • Le codage
  • Les bases de données, lacs de données et le stockage distribué
  • Les techniques de nettoyage des données
  • Compétences en matière de visualisation de données et de rapports

Une licence vous donne des connaissances de base, mais à mesure que le domaine se développe, d'autres qualifications ou spécialisations seront nécessaires. Envisagez un master en Science des données ou dans un domaine connexe, et commencez à approfondir un domaine commercial spécifique qui vous intéresse.

Une fois les qualifications obtenues, l'étape suivante consiste à acquérir de l'expérience dans le domaine qui vous intéresse. Les soins de santé, le marketing, le gouvernement ou les affaires offrent tous d'excellentes perspectives de spécialisation. Si les compétences des data scientists peuvent être enseignées, comprendre les relations entre les données et les implications dans la vie réelle nécessite de l'expérience et du temps passé dans l'entreprise.

Logiciel de Data Science
Essai gratuit de TIBCO Data Science
Démocratisez, collaborez et rendez opérationnel le machine learning dans votre entreprise avec TIBCO Data Science.

Les défis auxquels sont confrontés les data scientists

En raison notamment du fait qu'il s'agit d'une nouvelle industrie, les data scientists sont confrontés à certains défis. Il s'agit d'une industrie dominée par les hommes, et comme de nombreuses carrières STEM (science, technologie, ingénierie et mathématiques), les femmes doivent parfois faire face à des obstacles supplémentaires pour entrer et maintenir leur carrière. En 2019, seules 18 % des data scientists étaient des femmes. Ce manque de diversité commence à créer des problèmes dans le domaine. Les algorithmes sont créés par des humains et sont susceptibles d'être biaisés. Par exemple, dans le secteur bancaire, le fait d'être une femme célibataire sera un élément négatif pour obtenir un prêt. Cependant, les données montrent que les femmes sont meilleures que les hommes pour le remboursement des prêts. Les banques risquent de passer à côté de leurs meilleurs clients, et les femmes à côté de la sécurité et de l'indépendance financières. Le fait de disposer d'une main-d'œuvre diversifiée permettra de lutter contre ces erreurs et ces préjugés.

Comme il s'agit d'un nouveau secteur, il est également difficile de trouver un vocabulaire cohérent et d'établir des normes de pratique. Les normes devraient faire l'objet d'un consensus entre les parties prenantes, les data scientists eux-mêmes et les législateurs, mais aucune n'a encore été établie.

Il y a également une forte demande pour une IA explicable qui peut être interprétée facilement. Les leaders d'opinion estiment que les prédictions ne doivent pas être des chiffres tirés au sort, mais qu'il faut pouvoir retracer et expliquer facilement la logique qui sous-tend les modèles de machine learning.

Perspectives actuelles pour les data scientists

Comme la plupart des carrières STEM, les data scientists sont des employés très recherchés et appréciés. À l'heure actuelle, il y a une pénurie de data scientists qualifiés possédant les compétences analytiques appropriées. Avec des attentes salariales supérieures à la moyenne, un marché en croissance rapide et une compréhension accrue de leur valeur, les options d'emploi pour les data scientists sont excellentes. En 2018, il y avait une pénurie de 151 000 data scientists, ce qui en fait un domaine sûr et en pleine croissance.

En particulier, les personnes issues de groupes sous-représentés sont encouragées à entrer dans ce domaine. Certaines universités offrent des incitations à ces groupes sous-représentés pour qu'ils rejoignent les programmes de data science, et les entreprises reconnaissent de plus en plus que la diversité est nécessaire pour obtenir des résultats impartiaux. Cela en fait une option de carrière intéressante et stable.