pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

BaO2: Treetagger – limité à 1000 mots !

Posted in Boîte à Outils, pluriTAL by pluritaluser on 23 mars 2009

Bonjour,

Tout d’abord j’ai joint mes deux fichiers de fils RSS en un seul: livres-culture.txt, cygwin a dit:

ERROR: Not enough memory
aborted.

Ensuite j’ai modifié mon programme parcours-arborescence et je les ai disjoint en livres.txt ( 5043 mots d’après Treetagger en ligne) et culture.txt (6535 mots d’après Treetagger en ligne), mais cygwin continue de donner le même message d’erreur pour Treetagger (idem en ligne). Alors que quand il n’y avait pas de saut à la ligne, cela fonctionnait, mais je pense que quand il n’y a jamais de saut à la ligne sûrement le texte doit être tronqué par notepad++ sans preuves.

Alors que pour le petit corpus de janvier, cela fonctionnait. Et j’ai refait des tests avec Notepad++, conclusion il y a un bug quand on veut visualiser une ligne de plus de 65535 caractères environ sans aucun retour charriot, les espaces sont comptés, dans le cas de l’assemblage manuel livres.txt + culture.txt, on voit apparaître des lettres superposés, dans le cas de l’assemblage mécanique le texte est tronqué à 79% mais dans le cas de l’assemblage manuel, presque tout le texte est là sauf  5%. Mais avec le retour charriot tout semble marcher sauf que je n’ai pas réussi à trouver une manière de le contrôler car les phrases de culture et livres se mélangent (ou alors tout est faux) au lieu que les deux parties se suivent.

Donc il vaut mieux avoir deux output livres.txt et culture.txt et des retours charriots si on veut être sûr de la réponse de notepad car les corpus sont trop gros même s’ils sont plus petits qu’un long devoir (texte+culture en mode LF =22 pages).

(Calculs tirés de la partie inférieur de Notepad++ où les colonnes indiquent le numéro du caractère où on est et où on a la somme des caractères qu’il a pu compter:

Sans retour charriot:

culture.txt + livres.txt sans retour charriot (collage manuel): 68982 cractères reconnus mais 65535 cararctères visualisables + symbole d’erreur (lettres superposées).
livres-culture.txt sans retour charriot: 69626 caractères reconnus, pas de symbole d’erreur, mais que 15039 caractères visualisés.
culture.txt sans retour charriot: 38870 caractères y compris l’espace reconnus, un caractère en plus visualisé.
livres.txt sans retour charriot:30232 caractères y compris l’espace reconnus, un caractère en plus visualisé.

Avec retour charriot:


livres-culture.txt avec retour charriot: 70326 caractères reconnus, les caractères en plus sont dus à l’espace et aux sauts de ligne.
culture.txt: 39663 caractères reconnus, les caractères en plus sont dus à l’espace et aux sauts de ligne.
livres.txt: 30678 caractères reconnus, les caractères en plus sont dus à l’espace et aux sauts de ligne.

Donc on a bien la somme des deux. Mais on ne peut pas vérifier que les deux parties sont entières car il y a des mélanges phrastiques.)

Et donc comment faire pour couper le texte en tranches de nombre de lignes qui contiennent moins de 1000mots en Perl ?

Je vais recopier votre cours, regarder de nouveau vos slides sur perl et réfléchir à comment faire ce programme et après je vous re-questionnerais, mais si quelqu’un à une idée, merci de nous la faire parvenir !

Françoise Del Socorro

————————————————————————–

Je remets en question ma théorie selon laquelle le TreeTagger téléchargé est limité à 1000mots comme le TreeTagger en ligne ainsi que la théorie de Nassim selon laquelle le TreeTagger ne fonctionne pas sous Windows Vista. Je pense que comme le programme nécessite qu’on configure des variables d’environnement pour qu’il fonctionne (et je ne sais pas ce que c’est) et que je n’ai fait que copier-coller le programme alors c’est normal qu’il ne fonctionne pas. Donc j’ai besoin de votre aide pour finir l’installation.

Réinstallation de TreeTagger sous Windows Vista Basic

Install.txt

OK (ActivPerl 5.10, sa version gratuite vient avec le ppm, pour avoir son Icône cliquez sur ouvrir avec.) 1. Install a Perl interpreter (if you have not already installed one).

You can download Perl for free at

http://www.perl.com/pub/language/info/software.html

OK (C:\TreeTagger) 2. Move the TreeTagger directory to the root directory of drive C:.

OK (avec 7-Zip, on n’a plus besoin de renommer les fichiers qui étaient zippés sous linux.) 3. Download the PC parameter files for the languages you need, decompress

them (e.g. using Winzip) and move them to the subdirectory lib.

Rename the parameter files to <language>.par

Example: Rename french-par-linux-3.1.bin to french.par

OK (Panneau de configuration > Système > Paramètre système avancé > Variables d’environnement – autoexec.bat n’existe plus au-delà de Windows 98, mais c’est plus facile.) 4. Add the following line to autoexec.bat (Windows 95/98) set PATH=C:\TreeTagger\bin;%PATH% or change the corresponding system settings (Windows NT).

5. Open a shell and type the command

set PATH=C:\TreeTagger\bin;%PATH%

6. Change to the directory C:\TreeTagger

7. Now you can test the tagger, e.g. by analyzing this file with the command

tag-english INSTALL.txt

Sur l’invite de commandes il ne se passe rien ni sur cygwin:

*Invite de commandes j’ai tapé

C:\Users\fran>PATH=C:\TreeTagger\bin;%PATH% et il est revenu à la ligne mais quand

C:\Users\fran>cd C:\TreeTagger\

C:\TreeTagger>tag-english INSTALL.txt

‘perl’ n’est pas reconnu en tant que commande interne

ou externe, un programme exécutable ou un fichier de commandes.

*Cygwin j’ai tapé

fran@Charmmy-Kitty ~

$ PATH=C:\TreeTagger\bin;%PATH%

bash: fg: %PATH%: no such job

fran@Charmmy-Kitty ~

$ cd /cygdrive/C/TreeTagger

fran@Charmmy-Kitty /cygdrive/C/TreeTagger

$ tag-english INSTALL.txt

bash: tag-english: command not found

Donc comment finaliser l’installation de TreeTagger ?

Françoise Del Socorro

—————————————————————————–

Françoise

Pour travailler avec treetagger sous windows, on peut faire simple (comme on le fait en cours).

1. Vous récupérez treetagger pour windows sur la page du cours

(http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/BAO-master/treetagger-win32.zip)

2. Vous dézippez cette archive. Treetagger est disponible dans une sous-arborescence de cette archive avec plusieurs sous-dossiers (bin, cmd…). Mettez l’arborescence « pas trop loin » de votre répertoire de travail pour les BàO puis lancer les commandes pour l’étiquetage (tokenisation, étiquetage, normalisation XML cf mode d’emploi disponible dans l’archive) en adaptant avec des chemins relatifs correspondants à votre organisation locale sur votre disque.

Si c’est pas clair, on regarde mercredi.

SF

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :