pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

HTML et SED

Posted in pluriTAL by pluritaluser on 3 janvier 2009

Moi et Hugo, on va présenter les différents sens du mot bouchon en plusieurs langues, j’ai commencé à mettre en ligne ce qu’on a fait mais je n’ai pas encore traité les accents pour que mon codage html soit compréhensible tant que ce n’est pas fini. Bien que je n’ai rien compris à ce que hexadécimal veut dire, une fois que j’ai fini d’écrire une page web, j’ai pris l’habitude de toujours convertir tous mes accents en héxadécimal car ça marche dans tous les systèmes d’exploitation: é -> é Mais je n’ai pas encore fait ça.

http://www.geocities.com/laviedesbouchonssurleweb/index.html

Pour l’édition de vos pages html, je vous conseille fortement d’utiliser internet explorer car je n’ai pas réussi à faire apparaître les images ni à faire fonctionner les liens sous Mozilla, ce navigateur est trop sécurisé.

Et je dois encore re-commencer à chercher des URLs une fois que j’aurai tout fini car la plupart des URLs que j’avais ont disparu.

Quand à la suppression du motif, EGREP -v ne marche pas car ça supprime la ligne entière avec le motif mais SED ça marche car ça sert à rechercher et remplacer un motif. Par contre les expressions régulières ne marchent pas dans la pratique avec SED.

Je ne sais pas écrire des boucles, et donc je suis en train de préparer un programme linéaire pour toutes les langues (en espérant que Hugo revienne de ses vacances car il fait plus de langues que moi) que vous pouvez réutiliser:

#!/bin/bash
#Portugais: bouchon conteneur
egrep -o -i « \b(((t|T)amp(as?|inhas?))|(TAMPAS?)) » ./CONTEXTES/Portugais/contexte-conteneur-pt.txt >> ./CONTEXTES/Portugais/formes-conteneur-pt.txt
sed -i.bak -e s/TAMPA//g ./CONTEXTES/Portugais/contexte-conteneur-pt.txt
sed -i -e s/Tampinhas//g ./CONTEXTES/Portugais/contexte-conteneur-pt.txt
sed -i -e s/Tampas//g ./CONTEXTES/Portugais/contexte-conteneur-pt.txt
sed -i -e s/tampas//g ./CONTEXTES/Portugais/contexte-conteneur-pt.txt
sed -i -e s/Tampa//g ./CONTEXTES/Portugais/contexte-conteneur-pt.txt
sed -i -e s/tampa//g ./CONTEXTES/Portugais/contexte-conteneur-pt.txt

Dans V1langue.sh:

cat ./CONTEXTES/Portugais/$i.txt >> ./CONTEXTES/Portugais/contexte-conteneur-pt.txt

concatène les contextes.

Dans nuage-de-mots.sh, on va mettre les expressions régulières de toutes les langues.

egrep cherche tampa et tampas et Tampa et Tampas et TAMPAS, mais l’option -o permet de ne récupérer que les formes. Le fichier formes-conteneur-lang ne sert que à vérifier ce qu’on va effacer.

sed efface le mot qu’il désigne en le remplaçant par rien: //

Dans la première ligne -i.bak fait une sauvegarde du contexte avec le mot bouchon sous le nom contexte-contezneur-lang.txt.bak

Dans la deuxième ligne,   » on ne le sauvegarde pas  » (je pense que on l’écrase au fur et à mesure qu’on dépièce les mots car i est une variable qu’on ne peut pas changer) pour ne pas l’écraser avec des fichiers sans l’ocurrence TAMPA

contexte-conteneur-pt.txt est le fichier qui subi les effacements.

Et si vous voulez tout recommencer sans avoir à relancer votre pgm avec cat ./CONTEXTES/Portugais/$i.txt >> ./CONTEXTES/Portugais/contexte-conteneur-pt.txt dans sa boucle, puisque je ne sais pas faire des boucles, voici un autre pgme linéaire inspiré sur celui de MARCO (qui propose du rm comme AGNES, mais là j’ai compris car c’était linéaire) !

zero-nuage-de-mots.sh

#!/bin/bash
# Langue: Portugais
echo -e « \nProgramme à utiliser quand on veut relancer nuage-de-mots.sh sans avoir à relancer V1langue.sh.\nFais attention à ce que tu vas faire, si tu tapes \ »y\ » tu vas tout effacer, si tu tapes \ »n\ » tu ne vas rien faire, si tu tapes \ »Ctrl+C\ » tu quittes le programme !\nLangue: Portugais !!! »;
echo -e « \nVeux-tu remettre à zéro le fichier de nuages de mots contexte-conteneur-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/contexte-conteneur-pt.txt;
cat ./CONTEXTES/Portugais/contexte-conteneur-pt.txt.bak >> ./CONTEXTES/Portugais/contexte-conteneur-pt.txt
echo -e « Veux-tu remettre à zéro le fichier de nuages de mots formes-conteneur-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/formes-conteneur-pt.txt;

echo -e « \nVeux-tu remettre à zéro le fichier de nuages de mots contexte-liege-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/contexte-liege-pt.txt;
cat ./CONTEXTES/Portugais/contexte-liege-pt.txt.bak >> ./CONTEXTES/Portugais/contexte-liege-pt.txt
echo -e « Veux-tu remettre à zéro le fichier de nuages de mots formes-liege-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/formes-liege-pt.txt;

echo -e « \nVeux-tu remettre à zéro le fichier de nuages de mots contexte-embouteillage-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/contexte-embouteillage-pt.txt;
cat ./CONTEXTES/Portugais/contexte-embouteillage-pt.txt.bak >> ./CONTEXTES/Portugais/contexte-embouteillage-pt.txt
echo -e « Veux-tu remettre à zéro le fichier de nuages de mots formes-embouteillage-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/formes-embouteillage-pt.txt;

echo -e « \nVeux-tu remettre à zéro le fichier de nuages de mots contexte-restaurant-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/contexte-restaurant-pt.txt;
cat ./CONTEXTES/Portugais/contexte-restaurant-pt.txt.bak >> ./CONTEXTES/Portugais/contexte-restaurant-pt.txt
echo -e « Veux-tu remettre à zéro le fichier de nuages de mots formes-restaurant-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/formes-restaurant-pt.txt;

il récupère le fichier .txt.bak et le remet dans le .txt

je n’ai pas effacé le .bak après mais je n’ai pas eu de prob avec le .bak ( je ne sais pas pq)

Françoise Del Socorro

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :