Nettoyage des données avec OpenRefine
Clientèle cible
Cette formation s’adresse aux scientifiques et ingénieurs désirant se perfectionner, aux étudiants gradués devant uniformiser et valider une grande quantité de données, aux chercheurs travaillant avec des données sales, aux scientifiques des données devant préparer des jeux de données servant à des projets d’intelligence artificielle.
Description
Les compagnies se tournent de plus en plus vers la collecte de données pour optimiser leurs processus, assister leur maturité technologique et guider leur progression dans un univers compétitif. Une erreur fréquente est de sous-estimer le temps à investir pour faire passer les données d'un état brut ou "sale" non utilisable pour analyse à un état "propre" qui permet ensuite leur analyse. Cette erreur force souvent les compagnies à abandonner des projets d'analyse de données, conduisant à des pertes financières puisque les données ont été collectées à fort prix, mais sont jugées inutilisables par les experts. Il peut s'agir d'erreurs de frappe, de formatage de date ou toute autre erreur pouvant se trouver dans les fichiers et qui nécessiteraient un effort humain sur plusieurs semaines ou mois, ce que les compagnies ne peuvent pas toujours se permettre. La formation permet de découvrir un outil qui permet de trouver et corriger rapidement ces erreurs communes et automatiser le nettoyage lors d'analyses ultérieures de données similaires.
Objectifs
- Utiliser les "facets"
- Détecter des erreurs et édition du contenu
- Automatiser le processus
- Bonifier les données
Contenu
Thème de la première demi-journée: Utilisation des fonctions dans l'interface graphique (débutant)
Thème de la seconde demi-journée: Utilisation du code et automatisation (intermédiaire)
- Exploration superficielle et rapide des données, détection des données aberrantes, des données manquantes, des erreurs de type de données.
- Utilisation des différents algorithmes de reconnaissance automatique du language et de regroupement de termes similaires. Correction manuelle ou automatique des erreurs dans le fichier.
- Utilisation du language GREL pour modifier le fichier. Création de fichier JSON contenant les étapes de nettoyage d'un fichier. Réutilisation du fichier JSON pour corriger automatiquement les données d'un nouveau fichier.
- Utilisation du language GREL et de bases de données externes pour bonifier des données déjà existantes. Utilisation de la réconciliation de données. Requêtes à une API à même OpenRefine.
Activités pédagogiques
- Exposé et discussion avec le formateur
- Réflexions et discussion entre les participants
- Réflexions individuelles
- Analyse d’exemples et de contre-exemples
- Exercices pratiques en équipe
- Rétroaction et apprentissage par les paires
Reconnaissance
Une attestation de participation reconnaissant les 7 heures de formation continue est décernée, après la formation, à chacun des participants qui respectent les conditions d'attestation.