pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

BàO séance n°5

Posted in Boîte à Outils, Projet 2006-2007 by tal-p3 on 21 février 2007

5ème séance le 21/02/2007

Début BàO série 3 « extraction de patrons »

  • en entrée, les sorties produites dans BàO série 2 (sortie étiquetée « brute » et structurée),
  • en sortie des extractions de patrons syntaxiques (via programme ou via XSLT/XPath).
  • Détail sur la page du cours.

Modifications sur tree-tagger2xml.pl (suite)

Posted in Boîte à Outils, Projet 2006-2007 by pluritaluser on 21 février 2007

Pardon j’ai oublié de signer!

C’était Marianna en direct de l’ILPGA.

Bon courage à tous!

Modifications sur tree-tagger2xml.pl

Posted in Boîte à Outils, Projet 2006-2007 by pluritaluser on 21 février 2007

Bonjour à tous,

Quelques modifs sur tree-tagger2xml.pl:

Voici la solution pour retirer le retour à la ligne qui apparaît systématiquement après le lemme dans le fichier xml sortie tree-tagger:
$Ligne=~s/(.*?)(\r)$/$1/g;
Le caractère fin de ligne à supprimer est « \r » et non « \n « , puisqu’il a été généré par cygwin! (ce serait trop beau si c’était toujours le même!)
On peut supprimer les chevrons à « unknown » dans tree-tagger2xml (plutot que dans le lancement de tree-tagger avec l’option -no -unknown):

$Ligne=~s/\<unknown\>/unknown/g;

BàO séance n°4

Posted in Boîte à Outils, Projet 2006-2007 by tal-p3 on 14 février 2007

4ème séance le 14/02/2007

Suite BàO série 2 « étiquetage »
Mise en oeuvre du programme « étiquetage » sur le corpus de travail : via treetagger et cordial.
Prochaine séance la semaine prochaine :

  • BàO série 3 :

    • en entrée, les sorties produites dans BàO série 2 (sortie étiquetée « brute » et structurée),
    • en sortie des extractions de patrons syntaxiques (via programme ou via XSLT/XPath).
    • Détail sur la page du cours.

BàO séance n°3

Posted in Boîte à Outils, Projet 2006-2007 by tal-p3 on 8 février 2007

3ème séance le 07/02/2007

Début BàO série 2 « étiquetage »
Mise en oeuvre du programme « étiquetage » sur le corpus de travail : via treetagger et cordial. 2 versions du programme : étiquetage à la volée avec treetagger, étiquetage global avec cordial.
Prochaine séance la semaine prochaine :

  • suite BàO série 2 …

procédure de nettoyage Cours 3

Posted in Boîte à Outils, Projet 2006-2007 by pluritaluser on 7 février 2007

Salut à tous!

voici le bout de code pour nettoyer les 4 entités qui posent problème à l’affichage (si j’ai bien compris, il n’y en a que 4, mais c’est à vérifier!!)

sub nettoyage {
my ($ligne) = shift(@_);
$ligne=~s/’/’/g;
$ligne=~s/é/é/g;
$ligne=~s/ê/è/g;
$ligne=~s/ »/ »/g;
return $ligne;
}

bon taf à tous! :p

Marguerite