pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Aspiration des pages web avec la commande wget

Posted in Projet 2007-2008 by pluritaluser on 14 novembre 2007

Bonsoir,

Nous avons jusque là recensé et gardé 7 sens pour le mot“raison” pour les langues française,bulgare et arabe.

Il nous faut maintenant aspirer les pages web contenus dans des fichiers .txt.Pour chaque sens et pour chaque langue,nous avons créer un dossier que nous avons appellé sens1, sens2, sens3 etc…Dans chacun de ces répertoires,il y a les fichiers correpondants.

Nous avons appris en cours comment aspirer les pages web avec la commande wget sous cygwin.

Pour récupérer ces pages àpartir d’un fichier .txt, il faut tout d’abord seplacer dans le sous répertoire qui va contenir lespages web aspirés.

Une fois que l’on est dans ce sous répertoire, on lance la commande wget tout en s’assurant que le nom de chemin qui la suit est celui qui
contient le fichier d’URL.

ex :

je suis sous cygwin dans le répertoire suivant

C:\Documents and Settings\Nadia\Mes documents\masterTAL\projet_encadre\pages_aspirees\francais\sens1

c’est « ce répertoire qui récupérera » les pages web aspirées correspondant au sens 1 de raison en français

avec wget -i,je vais chercher le fichier sens1fr.txt, donc je dois remonter dans l’arborescence:

 

 

je tape donc sous cygwin la commande suivante:

wget-i ../../../sens/sens1fr.txt

 

 

 et voici mes page aspirées dans le sous repertoire où je me trouvais avec Cygwin

prochainement, le script du tableau avec les urls.

MN

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :