BàO séance n°5
5ème séance le 21/02/2007
Début BàO série 3 « extraction de patrons »
- en entrée, les sorties produites dans BàO série 2 (sortie étiquetée « brute » et structurée),
- en sortie des extractions de patrons syntaxiques (via programme ou via XSLT/XPath).
- Détail sur la page du cours.
Modifications sur tree-tagger2xml.pl (suite)
Pardon j’ai oublié de signer!
C’était Marianna en direct de l’ILPGA.
Bon courage à tous!
Modifications sur tree-tagger2xml.pl
Bonjour à tous,
Quelques modifs sur tree-tagger2xml.pl:
Voici la solution pour retirer le retour à la ligne qui apparaît systématiquement après le lemme dans le fichier xml sortie tree-tagger:
$Ligne=~s/(.*?)(\r)$/$1/g;
Le caractère fin de ligne à supprimer est « \r » et non « \n « , puisqu’il a été généré par cygwin! (ce serait trop beau si c’était toujours le même!)
On peut supprimer les chevrons à « unknown » dans tree-tagger2xml (plutot que dans le lancement de tree-tagger avec l’option -no -unknown):
$Ligne=~s/\<unknown\>/unknown/g;
BàO séance n°4
4ème séance le 14/02/2007
Suite BàO série 2 « étiquetage »
Mise en oeuvre du programme « étiquetage » sur le corpus de travail : via treetagger et cordial.
Prochaine séance la semaine prochaine :
- BàO série 3 :
- en entrée, les sorties produites dans BàO série 2 (sortie étiquetée « brute » et structurée),
- en sortie des extractions de patrons syntaxiques (via programme ou via XSLT/XPath).
- Détail sur la page du cours.
- en entrée, les sorties produites dans BàO série 2 (sortie étiquetée « brute » et structurée),
BàO séance n°3
3ème séance le 07/02/2007
Début BàO série 2 « étiquetage »
Mise en oeuvre du programme « étiquetage » sur le corpus de travail : via treetagger et cordial. 2 versions du programme : étiquetage à la volée avec treetagger, étiquetage global avec cordial.
Prochaine séance la semaine prochaine :
- suite BàO série 2 …
procédure de nettoyage Cours 3
Salut à tous!
voici le bout de code pour nettoyer les 4 entités qui posent problème à l’affichage (si j’ai bien compris, il n’y en a que 4, mais c’est à vérifier!!)
sub nettoyage {
my ($ligne) = shift(@_);
$ligne=~s/’/’/g;
$ligne=~s/é/é/g;
$ligne=~s/ê/è/g;
$ligne=~s/ »/ »/g;
return $ligne;
}
bon taf à tous! :p
Marguerite
leave a comment