pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Wget – Ce qui se passe probablement avec wget

Posted in pluriTAL, Projet 2008-2009 by pluritaluser on 8 novembre 2008
J’ai tapé à l’écran une commande bash pour qu’elle éxécute mon programme V1PT.sh qui sert à récupérer un corpus pour le mot bouchon en lui demandant d’annoter tout ce qui se passe dans le répertoire où j’étais grâce à 2>>:
$ sh ./PROGRAMMES/V1PT.sh < ./PROGRAMMES/donneespt.txt 2>>wgetexplique.txt

D’après wgetexplique.txt, wget télécharge les pages en commençant par l’adresse http:// mentionée à première ligne du fichier texte et en terminant par celle de la dernière ligne de celui-ci. Puis passe au fichier texte d’après dont l’emplacement est référencé dans donneespt.txt. Il compte chaque page téléchargée de telle sorte que i=i+1 grâce à la commande let « i+=1 » et assigne chaque numéro de page html au nom de la page téléchargée ./PAGES-ASPIREES/$i.html. Toutes les pages sont stockées dans le répertoire choisi qui s’appelle /PAGES-ASPIREES/ à l’adresse relative choisie.
D’après l’aide de wget (wget -h), wget-O écrit des documents dans un fichier (write documents to file), c’est à dire prend le code source de l’adresse http:// à laquelle $nom1 se réfère à chaque fois que la boucle tourne, et l’écrit dans un fichier tout neuf dont le nom est identique au décompte des page ($i) et qui est transformé en fichier .html grâce à l’extension. En tout cas je pense, qu’on peut décoder ce que la commande wget -O ./PAGES-ASPIREES/$i.html $nom1 fait de cette manière-là.
De plus d’après wgetexplique.txt, il note dans les propriétés de chaque page la date et l’heure de sa création (exemple: –2008-11-08 15:44:19–). A chaque fois qu’il télécharge, il prend en compte le nom de domaine et l’adresse IP du site, il s’y connecte, puis il envoi une demande, probablement une demande d’autorisation pour télécharger la page, puis la page lui dit OK. Puis il estime la longueur de la page et le type de fichier dont il s’agit [text/html] puis il sauve la page vers ./PAGES-ASPIREES/$i.html. Et une fois que le processus est finalisé il dit OK et donne la vitesse de comunication en Kilobits par secondes.
Françoise Del Socorro
Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :