pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

ped14-IS : BARRAGE pour le cours du 26/10/06

Posted in Projet 2006-2007 by pluritaluser on 25 octobre 2006

Résumé des activités (4 étapes principales) :

(1/4) J’ai effectué une recherche sur Google. J’ai sauvegardé les résultats de la recherche (la page HTML avec 100 URL contenant les mots barrage ou barrages) dans un fichier qui m’a servit en tant que fichier d’entrée pour (2/4) l’aspiration des pages dans un répertoire local avec wget. Grâce au fichier traçant l’exécution de la commande wget, j’ai constitué (3/4) une liste des URL et des fichiers stockés localement. Finalement, (4/4) j’ai classé les pages aspirées d’après des critères sémantiques.

1) Recherche avec Google

Les options de recherche :

  • afficher les 100 premiers résultats (pour obtenir une cinquantaine de pages pertinentes, il vaut mieux commencer avec un nombre de pages plus important, car il y aura sûrement des déchets : pages non pertinentes, inaccessibles, …)
  • langue : français (pour être sûr qu’on va obtenir des pages en français)
  • le résultat contient au moins un de ces mots : barrage OR barrages (heureusement, la flexion de ce nom n’est pas trop riche, donc on peut en profiter pour rechercher toutes ces formes)

Google dit : Résultats 1 – 100 sur un total d’environ 3 850 000 pages en français pour barrage OR barrages.

Je sauvegarde le résultat de la recherche dans un fichier nommé googlebarrage.html (aller dans le menu Fichier / Enregistre sous.. de Firefox, option pages Web, HTML uniquement)

2) Aspiration des pages avec wget

Afin d’avoir un accès local aux pages dont les URLs sont contenus dans googlebarrage.html, je vais utiliser la commande wget. Une fois aspirées, les pages seront stockées dans le dossier pages-aspirées et prêtes pour le tri demandé.

Le répertoire courrant – on le sait grâce à la commande pwd (print working directory) – dans lequel vont être stockées les pages aspirées est le suivant :

/home/Ivan/projet_M_BARRAGE/pages-aspirees

La commande utilisée la suivante :

wget –-tries=2 –F –i ../liste_url/googlebarrage.html –o logfile.txt

Interprétation de la commande :
–-tries=2

le nombre d’essaies de connexion sur un serveur – cela évite que wget s’obstine à se connecter sur un site inaccessible ce qui peut durer très longtemps…

-F

Normalement, cette option devrait être utilisée pour forcer wget de lire le fichier input comme un fichier HTML s’il a un autre format. Dans notre cas, le fichier d’entrée est déjà en format HTML mais si j’exécute la commande sans l’option – F j’obtiens le message : No URLs found in ../liste_url/googlebarrage.html

-i

désigne le fichier d’entrée à partir du quel les pages sont aspirées (donc
ici ../liste_url/googlebarrage.html)

-o

désigne le fichier de suivi de l’opération (logfile.txt). Je vais me servir de ce fichier pour la récupération des URL pour ma liste.

3) Constitution de la liste des URLs

Maintenant, je vais constituer la liste des URLs des pages que j’ai aspirées avec succès à l’aide de wget à partir du fichier googlebarrage.html. Pour cela, il me semble utile d’utiliser le fichier logfile.txt qui a tracé automatiquement les activités de wget pendant l’aspiration.

J’ouvre logfile.txt avec PSPad (c’est un outil très pratique, allez le voir sur http://www.pspad.com) pour examiner et comprendre sa structure. En effet, les informations les plus importantes pour moi représentent le URL d’une page, le message qui dit que la page a été enregistrée avec succès dans le dossier ../pages-aspirees (ou qu’il y a eu une erreur) et le nom du fichier enregistré. Il serait donc utile de me constituer un fichier concernant uniquement ces trois
informations.

Je veux donc extraire les lignes avec les URL (sans les chiffres – adresses IP ? – qui suivent la suite http:// car ce n’est pas pertinent dans cette situation; je cherche donc le motif « http://%5B^0-9] » et la ligne avec le nom du fichier enregistré (le motif « saved »). Je veux que ces deux informations se suivent pour faciliter le traitement manuel qui m’attend. Pour cela, je vais utiliser la commande egrep. J’exécute la chaîne contenant les trois commandes suivante :

egrep –n http://%5B^0-9] logfile.txt >class.txt ; egrep –n saved logfile.txt >>class.txt ; sort –g class.txt >listeURL.txt

Interprétation de la commande :

-n

ajoute à la sortie le numéro de la ligne contenant le motif (cela va me servir après pour le classement)

« http://%5B^0-9]« et « saved »

les deux expressions régulières décrivant les motifs recherchés

logfile.txt

le fichier d’entrée (la sortie générée automatiquement par wget

class.txt

le fichier temporaire contenant la sortie des deux recherches concaténées

sort –g

pour classer les lignes de class.txt d’après la valeur du numéro de la ligne (cela me permet d’avoir ensemble les informations concernant l’opération sur une URL)

Grâce à ces opérations, j’obtiens donc : listeURL.txt mon fichier désiré. Il va falloir enlever manuellement les URL qui n’ont pas abouti à une page enregistrée (erreur de connexion). Voir une partie de ce fichier après le nettoyage (question de 2 minutes) ici :

177:–10:07:05– http://www.barrages-cfgb.org/
186:10:07:05 (715.57 KB/s) – `index.html’ saved [792/792]
194:–10:07:06– http://www.barrages-cfgb.org/index2.html
202:10:07:06 (699.31 KB/s) – `index2.html’ saved [768/768]
210:–10:07:07– http://barrages.tpe.free.fr/
219:10:07:07 (1.74 MB/s) – `index.html.1′ saved [2068]

etc….

Dans le cas idéal, ce fichier devrait contenir 200 lignes (pour les 100 URL trouvés par Google si wget a réussi à aspirer toutes les pages – il na faut pas bien sûr compter avec les URL qui ne pointent pas sur les résultats de la recherche), on va voir avec la commande wc -l listeURL.txt et on apprend qu’il en contient 194 (le nombre après le nettoyage manuel). Donc j’ai récupéré 194/2 de pages, ce qui fait : 97 fichiers accompagnés par leurs URL. Le dossier ../pages-aspirées contient 100 fichiers (je l’ai appris par la commande ls –l pages-aspirées | wc –l) donc il y a encore des fichiers que je vais devoir éliminer pendant la prochaine étape.

4) Classement des pages aspirées

Le moment de se mettre vraiment au travail arrive… Il va falloir parcourir la liste des URL, vérifier les pages aspirées, considérer leur pertinence et les classer en fonction de l’emploi du mot ‘barrage’ d’après des critères sémantique. Pour ceci, j’ai extrait le squelette de l’entrée ‘barrage’ dans le TLFi et je vais m’en servir pour donner les noms aux répertoires dans mon arborescence (marquée entre les crochets) :

I. sens concret, barrière, obstacle qui ferme un passage,

[obst] obstacle, barrage policier
[hydr] barrage hydraulique
[feod] barrage féodal

II. sens figuré, abstrait, difficulté, obstacle

[fig] opposition à (qqn, qqch.)

III. emploi spécifiques

[milit] tir de barrage, militaire
[psycho] test de barrage, psycho
[sport] match de barrage, sport

En plus, je vais créer un dossier temporaire [temp] pour stocker les pages qui ne peuvent pas être classées pour une raison ou une autre dans aucune de ces catégories.

La vérification de la pertinence des pages et leur tri m’a pris en gros une heure et demi, donc effectivement, c’est une tâche assez douloureuse. J’ai retenu 62 pages, les autres étaient inutilisables pour plusieurs raisons : souvent, un fichier stocké localement pointé sur une autre adresse Web, donc il était sans données linguistiques utilisables ; de l’ensemble des autres pages n’ont été retenues que celles qui contenaient le mot barrage figurant au moins dans une phrase verbale.
Le classement le voici :

[obst]
http://rebellyon.info/article879.html
http://www.liberation.fr/culture/musique/207691.FR.php
[hydr]
http://fr.wikipedia.org/wiki/Barrage
http://fr.wikipedia.org/wiki/Barrage_des_Trois-Gorges
http://www.ville-frejus.fr/hermes/patrimoine/malpasset.htm
http://armorance.free.fr/barrage.htm
http://www.cnrs.fr/cw/dossiers/doseau/decouv/degradation/15_construction.htm
http://www.ecolo.org/documents/documents_in_french/malpasset/malpasset.htm
http://www.prim.net/citoyen/definition_risque_majeur/21_9_risq_barrage.html `
http://www.prim.net/citoyen/definition_risque_majeur/dossier_risque_rupture_barrage/lerisquerupture.htm
http://www.ecologie.gouv.fr/rubrique.php3?id_rubrique=1104
http://www.ecologie.gouv.fr/emeddiat/3?id_article=226
http://www.bubastis.be/voyage/nubie/nubie04a.html
http://www.futura-sciences.com/news-consequences-barrages-poissons_8480.php
http://www.futura-sciences.com/news-consequences-barrages-poissons_8480.php
http://www.rivernet.org/general/dams/decommissioning/poutes_f.htm
http://www.rivernet.org/general/dams/decommissioning/decom3_f.htm
http://www.cite-sciences.fr/francais/ala_cite/science_actualites/sitesactu/
question_actu.php?langue=fr&id_article=6563
(le lien précédent est écrit sur 2 lignes)
http://www.fleuverhone.com/barrage.html
http://www.projetmontsaintmichel.fr/projet/barrage.asp
http://www.ird.fr/fr/actualites/fiches/1996/fiche3.htm
http://www.tourisme83.com/malpasset.htm
http://www.monde-diplomatique.fr/carnet/2006-05-22-Trois-Gorges
http://www.cg34.fr/environnement/eau/hydrolique/barrage/barrage.html
http://services-techniques.met.wallonie.be/fr/voies_hydrauliques/les_barrages_de_la_meuse_/
http://www.chine-informations.com/mods/news/
chine-le-barrage-des-trois-gorges-toujours-controverse-pour-sa-mise-en-eau_2171.html
(le lien précédent est écrit sur 2 lignes)
http://escaleenchine.free.fr/carnet_route/barrage.htm
http://www.chine-informations.com/mods/news/
chine-le-plus-grand-barrage-du-monde-introduit-en-bourse_2348.html
(le lien précédent est écrit sur 2 lignes)
http://www.langogne.com/barrage.htm
http://www.hydroquebec.com/visitez/visite_virtuelle/barrage.html
http://www.hydroquebec.com/visitez/cote_nord/manic-5.html
http://www.aude.pref.gouv.fr/ddrm/risque-barr/bar2.html
http://www.ac-grenoble.fr/aix/albanais/eau/les_lacs_en_general_eau.htm
http://www.ac-grenoble.fr/risqmaj/realisations/73/beaufort/barrages.htm
http://www.grande-dixence.ch/fr/gd_hydraulique/barrages.php
http://agora.qc.ca/mot.nsf/Dossiers/Barrage
http://agora.qc.ca/mot.nsf/Dossiers/Barrage
http://www.radio.cz/fr/article/84140
http://www.radio.cz/fr/article/83604
http://www.h2o.net/magazine/atlas/fiches/lacs/kariba/francais/kariba_p1.htm
http://nini.1bis.free.fr/
http://www.ain.pref.gouv.fr/ddaf/ode/amenage/securite.html
http://www.cg66.fr/environnement/barrages/vinca_agly/index.html
http://www.amisdelaterre.org/article.php3?id_article=1574
http://www.amisdelaterre.org/article.php3?id_article=604
http://www.xresistance.org/aigle.html
http://met.wallonie.be/opencms/opencms/fr/chantiers/realisation_0003.html
http://fr.encarta.msn.com/encyclopedia_741539353/Inga_barrage_et_chutes_d’.html
http://www.teaser.fr/~pgreuter/barrage.htm
http://graduateschool.paristech.org/cours.php?id=69461
[feod]
n/a
[fig]
http://www.eurosport.fr/moto/gp-du-portugal/2006/sport_sto985199.shtml
http://www.liberation.fr/culture/musique/207691.FR.php
http://www.france.attac.org/a5902
http://www.france.attac.org/spip.php?article5661
[milit]
n/a
[psycho]
n/a
[sport]
http://www.sport24.com/
sport24_article_actualite_sportive_football__equipe_de_france_espoirs__barrage_retour__
israel_france__compte_rendu_cruelle_impuissance_11442.html
(le lien précédent est écrit sur 3 lignes)
http://fr.allafrica.com/stories/200610130253.html
[temp]
http://www.taverne-du-barrage.com /
http://www.patrimoine-de-france.org/mots/mots-acade-8-3991.html
http://www.guinguette-le-barrage.com/
http://www.commeaucinema.com/news.php3?nominfos=41261
http://compagniedubarrage.blogspirit.com/

Remarque : L’inclusion du pluriel dans le motif recherché sur Google « barrage OR barrages » a probablement influencé le « dosage » des différents emplois sémantiques du barrage dans les pages avec lesquelles j’ai travaillé. Son emploi au sens figuré ou dans les locutions spécifiques est lié plutôt au singulier, donc l’acceptation du pluriel pour la recherche de pages favorise plutôt son emploi au sens concret.
Ivan ŠMILAUER, Master 1 Pro Inalco || ivansmil@centrum.cz

Publicités

Une Réponse

Subscribe to comments with RSS.

  1. tal-p3 said, on 26 octobre 2006 at 8:49

    Modification de l’écriture de certains liens
    Disposition sur plusieurs lignes


Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :