pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

La commande wget

Posted in pluriTAL, Projet 2008-2009 by pluritaluser on 29 octobre 2008

Voici donc la commande que nous allons devoir utiliser afin de recueillir les pages web sélectionnées.

Deux petits détails me posent toutefois problème.
En effet, après quelques expérimentations d’aspiration, je remarque que tous les sites web ne sont pas forcément aspirés.
Certains, semble-t-il, échouent lors du téléchargement.
Le second soucis est dans un but plus « pratique », puisqu’il s’agit de savoir comment inclure dans le tableau des pages entières de textes qui ne sont pas sous la forme d’un fichier comme pour les liens mais sous la forme de plein de fichiers (qui d’ailleurs ne sont pas forcément en format html).

Enfin, je me suis permis de changer quelques détails sur le script de mon précédent article de sorte qu’il apparaisse de façon automatique un titre pour chaque tableau.
(ATTENTION ! Ceci est vrai à la condition expresse que le nom de chaque fichier txt soit écrit d’une manière qu’il puisse être traité automatiquement.
« Liens en arabe d’égalité » doit donc être intitulé Liens_en_arabe_d-egalite.txt .)

_____

Concernant le transcodage du script :

je précise, au cas où, qu’il ne faut pas oublier de positionner le répertoire courant là où se situent les scripts, à défaut de quoi, il faudra taper toute l’arborescence.
(dans le genre : dos2unix /home/administrateur/plurital/PROGRAMMES/fait-tableau-v1.sh .)

Si ça ne marche pas malgré tout, faire un copier/coller du message qui apparait dans cygwin permettrait d’en savoir plus.

Bien cordialement,

Richard Delaplace

Publicités

Une Réponse

Subscribe to comments with RSS.

  1. tal-p3 said, on 29 octobre 2008 at 9:15

    Richard

    Les 2 remarques concernant wget seront traitées en cours…
    En attendant :
    – essayez de repérer les messages d’erreur quand wget échoue
    – regardez les tableaux en ligne des travaux antérieurs, les colonnes « n’incluent pas des pages entières » mais soit des liens soit des « vues partielles » des liens originaux.

    SF


Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :