Qu'est-ce que la data quality ?
On parle de data quality lorsque les données répondent à l'objectif pour lequel elles ont été conçues. Les données sont également considérées comme de haute qualité lorsqu'elles représentent avec précision des constructions du monde réel.
Pour comprendre cela, il faut considérer les données comme la première pierre d'une hiérarchie qui se construit sur elles. Sur le socle formé par les données vient l'information, qui est une donnée placée dans son contexte. De l'information exploitable naît la connaissance, qui se transforme en sagesse lorsqu'elle est appliquée. Des données de mauvaise qualité entraîneront une mauvaise qualité de l'information, qui remontera dans la hiérarchie et aboutira à de mauvaises décisions commerciales.
Lorsque les données répondent à un objectif précis et représentent des constructions du monde réel, elles sont considérées comme étant de haute qualité. Cependant, cela peut aussi être de nature contradictoire.
Prenons par exemple l'enregistrement des données maîtres d'un client utilisant un produit de l'entreprise. Les données maîtres de l'enregistrement peuvent être suffisantes pour émettre une facture à ce client, mais l'absence de détails précis sur l'adresse et le numéro de téléphone peut ne pas être idéale pour le service clientèle, ce qui peut entraîner un problème commercial.
Idéalement, l'enregistrement des données maîtres devrait servir à plusieurs fins. Pour cela, il est nécessaire de procéder à un alignement sur le monde réel où les données correspondent à l'objectif visé et peuvent également être utilisées pour d'autres objectifs commerciaux. Cela devrait se faire sans un besoin disproportionné de ressources pour collecter les données. En d'autres termes, un équilibre entre les deux aspects de la définition de data quality est nécessaire.
L'erreur humaine arrive en tête de liste des causes d'inexactitude conduisant à des données de mauvaise qualité. La correction des données de mauvaise qualité prend du temps, demande des efforts herculéens et nécessite un mélange idéal de personnes, de processus et de technologies. Parmi les autres raisons de la mauvaise data quality, citons le manque de communication entre les services et les stratégies de données inadéquates. La résolution de ces problèmes dépend d'une gestion proactive.

Importance de la data quality
Dans toute la hiérarchie d'une entreprise, il ne fait aucun doute que des données de bonne qualité contribuent à améliorer les résultats. Toutefois, la question se pose toujours de savoir qui est chargé de veiller à ce que la data quality reste constamment élevée et comment ces efforts seront financés dans l'entreprise. La data quality doit être testée à un niveau infime pour comprendre son impact (positif ou négatif) sur l'entreprise, et cela peut s'avérer difficile. L'importance de la mise en place de protocoles pour garantir la data quality est illustrée par les exemples suivants :
- Pour le service marketing de votre entreprise, le problème des doublons dans les données peut entraîner un dépassement du budget marketing. Par exemple, la même base de données peut recevoir des documents marketing avec de légères variations dans le nom d'un client potentiel. Cela peut non seulement frustrer le client, mais aussi créer des doublons entiers dans les profils des clients.
- Le service des ventes en ligne peut mettre en avant un programme de création d'une décision d'achat en libre-service. Mais compte tenu du manque de données complètes sur les produits dans les bases de données existantes et de la manière dont les données relatives aux produits sont syndiquées entre les partenaires, la data quality peut devenir une tâche difficile à mettre en œuvre.
- Pour la partie chaîne d'approvisionnement de votre entreprise où vous cherchez peut-être à automatiser les processus, il est difficile d'obtenir des données de localisation fiables, car les mêmes normes et la même précision en matière de données de localisation ne peuvent pas s'appliquer à tous les sites desservis.
- Pour les services qui dépendent des rapports financiers, le problème de recevoir un large éventail de réponses à une même question est dû à l'incohérence des données, à l'absence de données actualisées ou à l'absence de paramètres de données clairs.
Tous ces éléments se conjuguent pour produire un impact très négatif sur les aspects opérationnels de l'entreprise et compliquent la réalisation de ses objectifs. La plupart de ces objectifs sont communs à un large éventail d'entreprises.
Sans une bonne data quality, les entreprises :
- Ne seront pas en mesure d'exploiter les nouvelles opportunités de marché. Cela peut nuire à leurs marges bénéficiaires et entraver leur trajectoire de croissance.
- Ne seront pas en mesure d'introduire des mesures de réduction des coûts. L'absence de données de bonne qualité nécessite un grand nombre d'inspections et de corrections manuelles avant de pouvoir les utiliser. L'automatisation des processus devient alors difficile sans données complètes et cohérentes.
- Ne seront pas en mesure de répondre aux exigences de conformité, car cela sera de plus en plus difficile sans données de bonne qualité. Les exigences couvrent des aspects tels que les réglementations en matière de confidentialité et de protection des données, ainsi que les exigences en matière de santé et de sécurité. Elles couvrent également des aspects de restrictions et de directives financières. Il est essentiel de disposer de données de bonne qualité pour atteindre les objectifs de conformité.
- Auront des difficultés à utiliser les outils d'analyse prédictive sur les actifs de données de l'entreprise. Cela peut affecter les décisions à court et à long terme, rendant les choses extrêmement difficiles pour l'entreprise en termes de progrès. Les difficultés rencontrées proviennent de problèmes tels que la duplication des données, les données incomplètes, l'incohérence ainsi que l'inexactitude des prédictions.

Les avantages des données de qualité
Les entreprises qui investissent dans la création de données de qualité peuvent exploiter les données pour prendre de meilleures décisions commerciales.
Des données de haute qualité pour une meilleure prise de décision
Le marché actuel est naturellement centré sur le consommateur. Grâce à des données de haute qualité, les entreprises pourront prendre de meilleures décisions. Par exemple, si une analyse des données montre que les gens passent de plus en plus de temps dehors à faire du shopping et à manger au restaurant le jeudi plutôt que le vendredi, les entreprises peuvent décider de rester ouvertes plus longtemps ou de proposer des offres uniques pour attirer les clients ce soir-là.
Meilleure collaboration entre les équipes
Lorsque les nombreux services d'une entreprise ont un accès constant aux mêmes données de haute qualité, il en résulte une communication bien meilleure et plus efficace. Il est ainsi plus facile pour tous les membres de l'équipe de rester alignés en termes de priorités, de messages diffusés et d'image de marque. Tout cela concourt à l'obtention de meilleurs résultats.
Mieux comprendre le client
Grâce à des données de bonne qualité, les entreprises sont en mesure de mieux évaluer les intérêts et les exigences des clients. Cela permet à l'entreprise de se développer en créant de meilleurs produits qui répondent aux besoins des clients. Les campagnes créées peuvent alors se fonder sur les désirs des consommateurs et sur le retour d'information direct des données, et non sur des hypothèses éclairées.
Comment évaluer la data quality ?
Étant donné que les entreprises risquent de perdre beaucoup si les processus opérationnels reposent sur des données de mauvaise qualité, il est impératif que les propriétaires et les directeurs comprennent comment évaluer la data quality. Cette tâche comprend la mise en place de mesures et de processus permettant d'évaluer la data quality. Les entreprises devront s'efforcer de faire en sorte que leurs données soient bien classées dans les évaluations tant objectives que subjectives. Pour que les entreprises puissent améliorer la data quality, elles doivent :
- Évaluer en profondeur les mesures de data quality, tant objectives que subjectives.
- Analyser les résultats et déterminer les causes de toute anomalie.
- Travailler sur les moyens de s'améliorer.
Évaluations des données subjectives
Avec les évaluations subjectives, les entreprises mesurent la façon dont les parties prenantes, les analystes, les collecteurs et les autres parties perçoivent la data quality. Si l'une des parties prenantes prend une décision sur la base des données qu'elle reçoit, mais constate qu'elles sont inexactes ou incomplètes, sa décision en sera affectée. Il faut en tenir compte lorsqu'on cherche à trouver des failles dans la data quality.
Évaluations objective des données
Les évaluations objectives de la data quality portent sur des indications mesurables, qui sont enregistrées dans un ensemble de données, puis évaluées à partir de deux points de vue :
- Ses performances dans le cadre d'une tâche spécifique
- Du point de vue de la métrique, il s'agit d'un ensemble de données qui peut être utilisé de manière indépendante.
Pour établir ces paramètres d'évaluation des données objectives, les entreprises peuvent travailler sur des principes pour développer des indicateurs clés de performance (KPI) qui correspondent à leurs besoins spécifiques. Ces indicateurs sont connus sous le nom de formes fonctionnelles. Il existe trois façons de mesurer la qualité des formes fonctionnelles :
- Ratio simple : ici, le nombre total de résultats souhaités est mesuré avec le total des résultats possibles. La fourchette se situe généralement entre 0 et 1, 1 étant le résultat le plus souhaité. Ce ratio permet de mesurer à la fois l'exhaustivité et la cohérence. Le problème est que ces deux dimensions peuvent être mesurées de différentes manières et que les entreprises devront mettre en place des critères précis pour obtenir les meilleures mesures.
- Minimum ou maximum : créée pour traiter de multiples variables de data quality, cette forme fonctionnelle a pour minimum un nombre conservateur et pour maximum un nombre plus libéral. Les variables, comme le niveau de précision des données, sont marquées par le minimum. Les aspects tels que l'exactitude ou/et l'accessibilité sont représentés par le maximum.
- Moyenne pondérée : utilisée comme alternative au minimum, elle peut être utilisée lorsqu'une entreprise essaie d'étudier et de comprendre la valeur que chaque variable apporte à l'équation.
Une fois qu'une entreprise a évalué tous les paramètres objectifs et subjectifs de la data quality, elle peut passer à l'adoption de mesures qui l'aideront à rationaliser ses processus. Prendre le temps d'examiner les processus et de prendre des décisions objectives est une perte de temps si les mesures prises ne sont pas efficaces et appliquées de manière cohérente.
Comment améliorer la data quality
Pour toute entreprise, l'amélioration de la data quality passe par un bon dosage de personnel qualifié, de processus intelligents et de technologies précises. Tous ces éléments, combinés à une gestion proactive de haut niveau, peuvent contribuer à améliorer considérablement la data quality.
Dimensions de la data quality
Lorsqu'on travaille à l'amélioration de la data quality, la tâche principale consiste à améliorer l'éventail des dimensions de la data quality. La dimension la plus abordée est celle de l'unicité des données maîtres des clients. Cette base de données souffre souvent de doublons, lorsque deux ou plusieurs lignes d'entrée peuvent contenir les mêmes données d'une entité (le client). Il existe de nombreuses façons de s'assurer que les données ne sont pas dupliquées, au point d'entrée ainsi qu'avec des techniques de déduplication des données déjà stockées dans les bases de données.
Dans le cas des données maîtres des produits, la dimension de l'unicité n'est pas un gros problème à résoudre. Il s'agit plutôt d'un problème d'exhaustivité. La principale raison de ce manque d'exhaustivité est que les différentes catégories de produits ont des exigences différentes et qu'elles ne sont pas toutes remplies. Dans de nombreux cas, la conformité des données relatives aux produits est directement liée aux lieux, par exemple les unités de mesure. Alors que les États-Unis mesurent la longueur en pouces, le reste du monde la mesure en centimètres.
Travailler sur les données maîtres d'un lieu pose le problème d'absence de modèle de saisie cohérent. Avec autant de formats différents utilisés dans le monde, la normalisation des entrées peut s'avérer extrêmement difficile.
Aspects à prendre en compte aux intersections
À un moment donné, les domaines de la localisation et de la clientèle vont se croiser et la dimension de la précision va être difficile à maintenir. En effet, les différents cas d'utilisation utilisent des dimensions de précision différentes pour la localisation.
Pour que cette intersection soit réussie, il est important de comprendre les désirs des clients, en fonction desquels les détails pertinents d'un produit peuvent être partagés avec eux. Cela facilitera l'intersection des domaines de données maîtres des clients et des produits.
Six dimensions primaires pour fonder les normes de la data quality
Ces normes peuvent varier d'un projet à l'autre, mais la base doit généralement rester la même. Les données de haute qualité auront toujours ces six normes de base.
- Exhaustivité : cherchez à savoir quels champs essentiels doivent être remplis pour qu'un ensemble de données soit considéré comme complet. Dans le cas d'une base de données clients, le nom et l'adresse sont indispensables, mais selon le produit ou le service, le sexe peut ne pas l'être. De plus en plus, la suppression de Monsieur/Madame/Mademoiselle est envisagée, non seulement pour ouvrir le champ aux personnes qui ne rentrent pas dans ces catégories, mais aussi parce qu'il n'est tout simplement pas nécessaire de le savoir.
- Cohérence : veillez à ce que toutes les itérations d'un élément de données soient identiques dans tous les rapports, résultats d'analyses ou feuilles de calcul qui sont établis et utilisés. Recherchez les incohérences car elles peuvent conduire à des données de mauvaise qualité. Un bon logiciel devrait permettre de supprimer ou d'identifier les incohérences.
- Précision: la cohérence est nécessaire pour garantir une valeur unique sur tous les canaux. L'exactitude, quant à elle, porte sur le fait que ces valeurs sont correctes et reflètent la réalité que les données représentent. Si cela pose un problème, l'utilisation de la robotique pour saisir les données peut éliminer l'erreur humaine.
- Format : s'assurer que les formats de saisie sont cohérents doit être la pierre angulaire de la saisie de données. Créez un format unique et respectez-le, même pour les plus petits détails comme l'année de fabrication. Format de date américain ou anglais ? Tout en majuscules ?
- Échéancier : l'efficacité de toute donnée dépend de son degré d'actualité et de pertinence au moment où elle est extraite pour être utilisée par l'utilisateur final. Lorsque les données sont actuelles, disponibles pour les décideurs au bon moment, et constituent la version la plus récente d'elles-mêmes, l'actualité est assurée.
- Intégrité : il s'agit d'un critère qui permet de vérifier si un ensemble de données est conforme aux règles et aux normes fixées par l'entreprise. Les valeurs manquantes peuvent perturber l'efficacité des données.
En veillant à ce que ces dimensions soient clairement respectées, les entreprises obtiendront des ensembles de données précises, de haute qualité et indispensables à la prise de décisions de qualité.