Je voulais vraiment vous attirer à lire ce billet de blogue, je me suis dit qu’en utilisant le mot « sexy » vous pourriez être intéressé. Mais, la qualité des données n’a rien de sexy, à la limite, ça donne plutôt la nausée !
Cependant, si vous saviez comment c’est important et que ce sera probablement l’un des plus grands enjeux que vous rencontrerez lors de votre implantation de l’analytique RH (outre l’obtention de l’approbation et d’un budget de la part de votre direction).
Très peu d’organisations disposent d’un entrepôt de données RH. La consolidation des données, le nettoyage des données, avoir à sa disposition une source unique et fiable — voilà les tâches auxquelles vous consacrerez le plus de temps, et non à la visualisation et à l’analyse (la vraie portion « sexy » de l’analytique RH). L’analyse s’avère simple une fois que les données sont en bon état.
Les données sont la pierre angulaire d’une initiative d’analytique RH. Vous savez ce qu’est une pierre angulaire ? Un fondement, une base ESSENTIELLE. Et la qualité de cette pierre angulaire est considérée comme l’aspect technique le plus important pour la réussite de vos initiatives d’analytique RH.
La qualité des données : un problème TI ou un problème RH ?
La qualité des données est souvent perçue comme un problème informatique, alors qu’il n’en est rien : c’est aux RH de l’assumer et de le corriger (je répète C’EST AUX RH DE L’ASSUMER ET DE LE CORRIGER). Souvent, l’équipe TI pourra mettre un pansement sur les problèmes de qualité des données dans la phase d’extraction, de transformation et de chargement, et c’est pour cette raison (le pansement) que les RH ne prennent pas la responsabilité de la qualité des données. Il faut donc se poser la question, doit-on mettre un pansement ou tout simplement attaquer le problème de front.
Il est difficile d’atteindre un niveau élevé de qualité des données, et les questions organisationnelles et de propriété des données ont une incidence considérable sur ce point. Je vous pose la question : à qui appartiennent les données provenant de votre système RH/paie ? Certainement pas au TI. À court terme, la solution facile consiste souvent à mettre des pansements sur les problèmes plutôt que de s’attaquer à la source du problème. Si vous n’avez pas confiance en vos données, vous êtes mort. L’analytique RH ne vous sera pas utile. Il vous faut donc assumer et débuter la correction de vos données.
Que faire en premier ?
Améliorer la qualité des données et ensuite implanter l’analytique RH ou bien implanter l’analytique RH sur de mauvaises données et améliorer les données au fur et à mesure ?
Cela semble évident, non ? Toute personne saine d’esprit ne se lancerait pas dans une initiative d’analytique RH avec de mauvaises données ! En réalité, beaucoup le font, car ils n’ont guère le choix. Premièrement, parce qu’ils n’ont aucune idée de la qualité de leurs données avant de lancer leur projet. De plus, il est très difficile de s’attaquer aux causes profondes de cette non-qualité sans y investir beaucoup de temps et de ressources.
Deuxièmement, le fait de posséder plusieurs systèmes opérationnels sans clé unique (comme un numéro d’employés par exemple), avoir des définitions de données incohérentes (par exemple, qu’est-ce qu’un employé ?) et de procéder à l’entrée de données de façon incorrecte (les données sont entrées par des humains…), tant que tout cela n’est pas exposé aux RH par le biais de rapports, il y a peu d’incitation à s’attaquer à la source du problème de qualité. Compte tenu de cette situation de l’œuf et de la poule, je recommande, si vous avez de graves problèmes de qualité des données, de poursuivre le projet d’analytique RH, mais avec des attentes claires et une portée de projet limitée. On découvre souvent l’ampleur du problème en mettant vraiment le projecteur sur les données !
Il est donc important de communiquer haut et fort des problèmes de qualité des données et des risques associés au déploiement d’outils d’analytique RH sur de mauvaises données. Il faut aussi conseiller les différentes parties prenantes sur ce qui peut être fait pour résoudre les problèmes de qualité des données — de manière systématique et organisationnelle. Se plaindre sans fournir de recommandations ne résout rien !
La qualité des données dépend de vos processus de saisie ! Est-il facile pour les gens de saisir de bonnes données ? Sont-ils motivés pour saisir des données de qualité ? Savent-ils pourquoi c’est important ? Validez-vous les données saisies RÉGULIÈREMENT ?
Vous devez changer les habitudes et les comportements de ceux qui saisissent les données ! Sinon, l’investissement dans votre SIRH sera inutile !
Avez-vous besoin de données parfaites ?
Tous les projets d’analytique RH nécessitent des données, mais ils ne nécessitent pas la perfection des données. La haute qualité devrait toujours être un objectif, mais la recherche de données complètes et parfaitement propres ne devrait pas être un obstacle au progrès ou une raison de ne pas entreprendre un projet d’analytique RH. Dans de nombreux cas, les données sont incomplètes, définies de manière incohérente, périmées, manquantes, sales (contenant des erreurs) ou stockées dans plusieurs systèmes déconnectés. Les défis sont réels et nombreux, mais ils ne sont pas insurmontables.
Que faire lorsque la qualité des données n’est pas bonne ?
Sans un degré raisonnable de confiance dans la qualité des données, l’analytique RH doit rester entre les mains d’experts (par exemple, l’équipe analytique RH) et ne doit pas être étendue au reste de l’équipe RH et certainement pas à la haute direction ou aux gestionnaires. Le déploiement de l’analytique RH, dans ce cas, doit se faire de manière limitée, ainsi les problèmes de qualité des données seront exposés, compris et finalement résolus. Ensuite, on pourra progressivement étendre le déploiement.
Comment savoir si la qualité des données est suffisante pour le projet que vous entreprenez ?
L’expression bien connue « garbage in, garbage out » est tout à fait appropriée dans le contexte de l’analytique RH. N’essayez pas de combler toutes les lacunes dans vos données et de résoudre tous les problèmes au point de perdre de vue les objectifs de votre analyse. Il y aura toujours des problèmes de données.
Pour savoir si la qualité de vos données est suffisante pour entreprendre votre projet, vous devez vous familiariser avec les données, les comprendre, c’est la première étape ! Dans de nombreux cas, cela signifie apprendre des autres, des experts du domaine RH. Il y a des choses beaucoup plus faciles que d’autres. Par exemple, si vous avez un âge négatif ou une ancienneté négative, ou un âge supérieur à 100 ans, vous savez que quelque chose ne va pas dans vos données. Cependant, si vous avez des valeurs négatives pour les ventes ? Cela indique-t-il une erreur ? Peut-être, mais vous devrez vérifier auprès des personnes responsables des ventes s’il s’agit bien d’une erreur, il peut s’agir d’une commande annulée ou d’une renégociation de prix d’une commande précédente. Vous devez investir du temps pour comprendre les données.
L’utilisation d’outil de profilage automatisé des données peut également aider à surmonter les difficultés liées aux données. Le profilage des données consiste à vérifier les valeurs autorisées, la logique et la cohérence des ensembles de données. Les outils de profilage des données analysent les données pour vérifier leur cohérence avec les règles de l’entreprise et fournissent des recommandations sur les domaines à approfondir dans un jeu de données. Après avoir établi le profil de vos données, comment déterminez-vous si les données sont « suffisamment bonnes » pour poursuivre l’analyse ? Là encore, il faut se tourner vers le propriétaire des données. Par exemple, dans notre plateforme Kara, nous avons mis en place un outil de profilage avec une règle de validation qui identifie tous les employés âgés de moins de 14 ans. Le but est de faire ressortir les valeurs aberrantes. Pour l’un de nos clients, nous avions beaucoup d’employés dans cette tranche d’âge. Nous avons donc discuté avec le client et il nous a expliqué que dans le secteur du commerce de détail (dépanneur), il embauchait de plus en plus de personnes de moins de 14 ans si le parent acceptait que l’enfant travaille (en grande partie en raison de la pénurie de main-d’œuvre).
Quels sont les problèmes courants liés aux données et quelles sont les solutions ?
Que faire si vous déterminez que les données ne sont pas assez bonnes pour poursuivre l’analyse ? La première étape consiste à comprendre les difficultés. Parfois, l’élément de données que vous souhaitez analyser comporte des valeurs manquantes. Parfois, les données n’ont pas été actualisées et, par conséquent, ne reflètent pas les valeurs les plus récentes. Dans certains cas, les données que vous voulez analyser n’existent même pas. Chacun de ces scénarios peut sembler frustrant, voire décourageant, mais il existe presque toujours une solution. Faites ce que vous pouvez avec ce que vous avez. Vous pouvez toujours aller de l’avant.
La première chose à faire, surtout au début, est de s’assurer que vous avez les bonnes définitions. Il est très important d’obtenir un accord à haut niveau sur les indicateurs, sur ceux qui sont les plus pertinents pour l’organisation et sur leurs définitions. Par exemple, parlons du nombre d’employés : cela semble facile, mais j’ai déjà vu une organisation qui a débattu pendant toute une journée sur la définition d’employé. Doit-on inclure les travailleurs temporaires ? Qu’en est-il des employés inactifs (personnes en congé parental ou en invalidité) ? Il est important de bien définir vos données et indicateurs RH et de mettre sur papier (virtuellement parlant) cette définition dans votre dictionnaire d’indicateurs.
Voici quelques conseils pour vérifier la qualité de vos données
a) Assurez-vous que vous disposez de tous les fichiers du jeu de données que vous attendiez et qu’ils contiennent toutes les informations nécessaires à la poursuite de votre projet. Vérifiez que les fichiers couvrent la période sur laquelle vous vous êtes mis d’accord. Ne vous contentez pas de vérifier les fins et les débuts de fichier — vérifiez aussi s’il y a des données partout.
b) Vérifiez si la quantité de données correspond à ce que vous connaissez de l’organisation (nombre d’enregistrements égal minimalement au nombre d’employés ?). Le nombre de lignes devrait être conforme à vos prévisions. Vérifiez que la dernière ligne de données soit complète, car un mauvais transfert de fichier peut couper la fin du fichier.
c) Vérifiez si la liste des colonnes est complète. Identifiez les colonnes de données qui n’ont pas été demandées, mais qui sont incluses, pour voir si elles peuvent être utiles à votre projet.
d) Examinez les listes de valeurs pour les champs codés. Sont-elles claires et conformes aux attentes ? Par exemple, pour la colonne du genre, si vous spécifiez 1 pour femme et 2 pour homme, y a-t-il d’autres valeurs que 1 et 2 dans votre jeu de données ?
e) Vérifiez l’étendue des valeurs dans chaque colonne. Y a-t-il des colonnes dont les valeurs ne semblent pas être distribuées de manière appropriée ou qui présentent des valeurs extrêmes ?
f) Est-ce que vos fichiers contiennent beaucoup de valeurs manquantes ? Et votre décision d’utiliser ou non ces données dépendra de ce qui manque. Par exemple, si vous voulez analyser l’impact de la diversité sur les promotions, si malheureusement vos données sur la diversité sont incomplètes, il vous sera impossible de tirer de bonnes conclusions. Lorsque vous travaillez avec des centaines et des milliers d’employés, quelques informations manquantes n’auront pas d’impact sur l’analyse globale. Toutefois, lorsque de grandes quantités de données sont manquantes, disons 50 % ou plus, vous devez considérer ces données comme suspectes dans votre analyse.
g) Vérifier la présence de doublons. Vous devrez peut-être confirmer avec le propriétaire des données s’il s’agit de véritables doublons ou si une colonne de données exclue permettrait de les distinguer.
h) Faites attention aux dates et on sait que les données RH comportent beaucoup de dates. Les dates peuvent être un problème majeur, car les différents systèmes ont des conventions différentes (séparation des chiffres par une barre oblique ou un tiret, les années sont indiquées par deux ou quatre chiffres, etc.).
Voilà, c’est tout pour l’instant. J’espère que vous comprenez maintenant l’importance de la qualité des données pour votre projet d’analytique RH ! Dans mon prochain billet, je vous parlerai des plus grandes menaces pour la qualité de vos données, des indicateurs à mettre en place pour mesurer la qualité de vos données, et finalement, quelles sont les meilleures pratiques pour améliorer la qualité de vos données. D’ici là, portez-vous bien et cessez de jouer à l’autruche, vous êtes responsables de la qualité de données RH. Il est temps de passer à l’action !
Si vous avez des questions, des commentaires, n’hésitez pas !
Comments