pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Modifications sur tree-tagger2xml.pl

Posted in Boîte à Outils, Projet 2006-2007 by pluritaluser on 21 février 2007

Bonjour à tous,

Quelques modifs sur tree-tagger2xml.pl:

Voici la solution pour retirer le retour à la ligne qui apparaît systématiquement après le lemme dans le fichier xml sortie tree-tagger:
$Ligne=~s/(.*?)(\r)$/$1/g;
Le caractère fin de ligne à supprimer est « \r » et non « \n « , puisqu’il a été généré par cygwin! (ce serait trop beau si c’était toujours le même!)
On peut supprimer les chevrons à « unknown » dans tree-tagger2xml (plutot que dans le lancement de tree-tagger avec l’option -no -unknown):

$Ligne=~s/\<unknown\>/unknown/g;

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :