Diviser une colonne en plusieurs

Il est possible de diviser les données d'une colonne en plusieurs colonnes si on retrouve, dans le contenu de cette colonne, un ou des caractères pouvant servir de séparateur. Par exemple, dans le jeu de données servant d'exemple pour le guide, on peut remarquer que la colonne Nom / Titre comporte le nom d'une personne suivi de son titre, les deux éléments étant séparés par une barre oblique. Il est possible - et souhaitable comme il s'agit de deux types de contenu distincts - de séparer cette colonne en deux de la manière suivante :

  1. Cliquez sur l'icône du triangle à gauche de l'entête Nom / Titre, cliquez sur Éditer la colonne et choisissez l'option Diviser en plusieurs colonnes...

    1. Vous devriez alors voir s'ouvrir la boîte de dialogue Diviser la colonne Nom / Titre en plusieurs colonnes

  2. Précisez le séparateur dans la boîte Séparateur. Il s'agit ici de la barre oblique. Si vous avez un œil de lynx, vous aurez remarqué qu'il y a des espaces avant et après le séparateur. Vous pouvez les indiquer ici, mais si vous oubliez de le faire, il est facile par la suite d'enlever les espaces en début ou fin d'un champ. Nous ferons ainsi exprès de les oublier pour voir comment procéder un peu plus tard!

    Par défaut, deux options sont sélectionnées concernant "l'après" de la division :

    • D'une part, l'option Deviner le type de cellule laisse à OpenRefine le soin de deviner le type de données que l'on retrouvera dans les cellules créées (texte, numérique, etc.) - que l'on peut corriger par la suite.

    • D'autre part, l'option Supprimer cette colonne permet d'effacer la colonne originale pour ne conserver que les colonnes résultant de la division. Comme il est facile d'annuler une opération, il n'est pas problématique de procéder ainsi; cela allégera la feuille de données.

    1. Après avoir cliqué sur OK, vous vous retrouverez dans l'interface principal d'OpenRefine et y verrez le résultat de la division :

  3. Faites au besoin un peu de "ménage" pour améliorer la lisibilité de la feuille de données. Vous pouvez par exemple renommer les deux colonnes (cliquez sur le triangle à gauche de l'entête à modifier, sur Éditer la colonne et ensuite sur Renommer cette colonne). De plus, il y aurait à enlever les espaces superflues à la fin de la première colonne et au début de la deuxième colonne. On retrouve dans les actions possibles pour une colonne, dans le menu Éditer les cellules, des Transformations courantes dont la suppression des espaces de début et de fin!

    1. Une fois le ménage terminé, vous devriez avoir maintenant la table de données nettoyée comme suit :

  4. Résultat

    Truc & astuce

    La possibilité de scinder la colonne Nom / Titre en deux colonnes repose sur le fait d'y avoir retrouvé un séparateur entre le nom et le titre (la barre oblique). On retrouve dans la nouvelle colonne Nom un autre séparateur, soit la virgule, qui pourrait permettre de rescinder pour distinguer le nom de famille du prénom, ce qui pourrait être intéressant comme cela permettrait de distinguer ces deux informations dans des traitements ultérieurs.