Couche sémantique présente dans le contenu : Expressions régulières [SCI6005 Automne 2023]

Couche sémantique présente dans le contenu : Expressions régulières

On ne peut parler de structuration de l'information dans un traitement de texte sans mentionner, à tout le moins rapidement, une autre fonctionnalité souvent méconnue, soit la possibilité de faire des recherches et des remplacements en exploitant des expressions régulières (appelées aussi expressions rationnelles). Les expressions régulières permettent de chercher des chaînes de caractères possédant certaines caractéristiques structurelles.

Il ne s'agit donc pas ici d'ajouter une couche sémantique à des contenus, mais plutôt d'exploiter certaines régularités dans un texte, qui sont habituellement des "marqueurs sémantiques", pour faire des recherches. Commençons par un exemple simple, soit la liste des noms des membres de l'équipe d'ABC courtage informationnel ci-dessous.

Exemple :

Courtiers et courtières en information d'ABC courtage informationnel

Barnett, Tyqueria

Bonner, Ceyonne

Carson, Cheakina

Carter, Zeva

Drapeau, Alucia

Dubé, Victorin

Erika, Nagaoka

Etsuko, Kamoto

Frazier, Kashayla

Gaudet, Sénard

Hatsuka, Tano

Horton, Yahoska

Johnson, Darelle

Jones, Samantha

Juneau, Arthurien

Kiko, Nagashima

Laberge, Tommy

Lacoste, Edward

Laprise, Ophina

Loiselle, Laura

Love, Addrian

Mccoy, Jerilene

Meilleur, Aldélina

Nolin, Bersilinie

Ome, Naya

Pitre, Jacob

Rainville, Kevin

Rhéaume, Sophia

Ryu, Wakamatsu

Santerre, Edmilda

Savard, Kayla

Sénécal, Roméric

Suzu, Naru

Sylvain, Patrick

Tansho, Kawabata

Toshiko, Hora

Trudeau, Daphnee

Vallée, Elvani

Wakako, Nakagome

Walton, Cynda

On remarque, dans cette liste, certains éléments structurels explicites, soit :

la virgule qui sépare le nom de famille du prénom
le retour de ligne à la fin de chaque nom.

Ces éléments structurels peuvent être exploités dans une recherche exploitant les expressions régulières afin d'inverser l'ordre nom-prénom dans la liste (par exemple, pour avoir Cynda Walton au lieu de Walton, Cynda). Lorsque l'on maîtrise les expressions régulières, ce type de transformation se fait en un seul rechercher-remplacer!

Il est à noter que les expressions régulières ne se retrouvent pas que dans les traitements de texte. Plusieurs environnements qui permettent le traitement du texte les incorporent. Ceci dit, l'implantation des expressions régulières peut varier d'un environnement à l'autre, certains environnements les implantant en totalité et d'autres uniquement partiellement. De plus la syntaxe peut varier. Les principales expressions régulières que l'on retrouve sont les suivantes :

Principales expressions régulières
Fonction	Exemple	Writer (LibreOffice)		Word (Microsoft Office)
Fonction	Exemple	Syntaxe générique	Syntaxe pour l'exemple	Syntaxe générique	Syntaxe pour l'exemple
Trouver n'importe quel caractère alphanumérique (alphanumérique = lettres, chiffres, caractères spéciaux)	Pour trouver crème et crime	Le point . représente n'importe quel caractère alphanumérique	`cr.me`	Le point d'interrogation ? représente n'importe quel caractère alphanumérique	`cr?me`
Trouver un caractère dans une plage de caractères	Pour trouver les lettres entre a et h	[premier caractère-dernier caractère]	`[a-h]`	[premier caractère-dernier caractère]	`[a-h]`
Trouver un certain nombre d'instances d'un caractère alphanumérique	Pour trouver une suite d'une ou plusieurs lettres e (par exemple, trouver : e, ee, eee, ...)	Le plus + pour au moins un caractère L'astérisque * pour 0 ou plusieurs caractères	`e+` (au moins un e) `e*` (aucun e ou plusieurs)	L'arobase @ pour au moins un caractère L'astérisque * pour 0 ou plusieurs caractères	`e@` (au moins un e) `e*` (aucun e ou plusieurs)
Trouver un mot à la fin d'un paragraphe	Pour trouver le mot information à la fin d'un paragraphe	Le signe de dollar $ permet de retrouver un mot en fin de paragraphe	`information$`	Ne s'applique pas car on peut retrouver la fin d'un paragraphe sans passer par les expressions régulières en en cherchant `^p`.	n.a.
Mettre en mémoire la chaîne trouvée pour pouvoir la réutiliser dans le Remplacer	Par exemple, mettre en mémoire la lettre trouvée dans une plage de caractères	La mise entre parenthèse permet de mettre en mémoire la chaîne retrouvée. Dans le remplacer, le signe de dollar $ suivi de l'ordre de mise en mémoire (on pourrait en effet mettre plus d'une chaîne de caractères en mémoire) permet d'insérer dans le texte ce qui a été mis en mémoire	`([a-h])` Pour réutiliser dans le remplacer : `$1`	La mise entre parenthèse permet de mettre en mémoire la chaîne retrouvée. Dans le remplacer, la barre oblique inversée \ suivie de l'ordre de mise en mémoire (on pourrait en effet mettre plus d'une chaîne de caractères en mémoire) permet d'insérer dans le texte ce qui a été mis en mémoire	`([a-h])` Pour réutiliser dans le remplacer : `\1`
Caractère d'échappement	Pour chercher le caractère [ sans qu'il soit interprété comme le caractère d'une expression régulière Note : à utiliser pour tous les caractères exploités dans la syntaxe des expressions régulières (par exemple, pour [, ], (, ), *, +)	La barre oblique inversée \	`\[`	La barre oblique inversée \	`\[`

Les différents éléments présentés ci-dessus peuvent être combinés dans une même expression de recherche pour représenter la forme du contenu recherché. Reprenons notre exemple de la liste des noms. Chacune des lignes possède une forme récurrente : nom, prénom[retour de ligne] qu'il est possible de rechercher ainsi dans Writer : (.+), (.+)$

(.+), permet de mettre en mémoire (en raison des parenthèses) la chaîne de caractères (en raison du point qui représente un caractère et du + qui précise qu'il y en a potentiellement un certain nombre) jusqu'à la virgule suivie de l'espace.
(.+)$ permet de mettre en mémoire la chaîne de caractères après l'espace jusqu'à la fin du paragraphe (en raison du signe de dollar).

L'inversion se fera dans la boîte de remplacement ainsi : $2 $1 qui indique en effet à Writer de retourner premièrement le deuxième élément (soit le prénom) mis en mémoire, d'ajouter ensuite une espace typographique et finalement d'ajouter le deuxième élément mis en mémoire (soit le nom).

L'exemple utilisé demeure un exemple très simple d'utilisation des expressions régulières. Ces dernières sont très puissantes pour le traitement de données. Dans le cadre du cours, vous les explorerez un peu dans le TP Structuration dans un tableur. Ce qui a été présenté dans les notes de cours suffiront pour faire le travail. Éventuellement, si vous avez à faire des traitements de données plus avancés, il est conseillé de les approfondir. Ce sont des outils fort utiles!