pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Boîte à Outils Série 3

Posted in Boîte à Outils, Projet 2005-2006 by tal-p3 on 15 février 2006

Le travail amorcé ce matin (BàO série 3) devra se poursuivre en tenant compte des mises à jour suivantes :

Le programme d’extraction terminologique présenté ce matin par JMD est (et était dès ce matin) tout à fait opérationnel ; pour vous aider à comprendre ce programme nous avons enrichi la page de présentation de celui-ci sur la page suivante : Travail du 15.02.2006

Plusieurs petites modifications ont été apportées (elles sont documentées dans le programme) :

  • le fichier des patrons doit être donné dans la ligne de commandes au lancement du programme
  • le programme génère un fichier de trace contenant les “activités principales�? du programme
  • les commentaires

La page précédente donne accès au programme et aux fichiers de test utilisés pour la mise au point de ce programme :

Lien “[Lien vers script et ressources de test]�?

Cette archive contient :

  • le programme : trouve_term.pl
  • 2 fichiers de sortie du treetagger (SORTIE-TREETAGGER.txt et une-description-etiquetee-avec-treetagger.txt) : le premier est assez volumineux, le second correspond au contenu d’une balise DESCRIPTION extraite d’un fils RSS
  • 2 fichiers de sortie du programme trouve_term.pl (resultat-extraction-SORTIE-TREETAGGER.txt et resultat-extraction-sur-une-description.txt) : pour vous prouver que ça marche effectivement…
  • les 2 fichiers de patrons utilisés sur les 2 fichiers de test : patrons-1.txt pour SORTIE-TREETAGGER.txt et patrons-2.txt pour une-description-etiquetee-avec-treetagger.txt
  • les fichiers de TRACE n’ont pas été insérés dans cette archive (en faisant tourner le programme, ils apparaîtront…)

Votre travail consiste donc à :

  • Tester ce programme en modifiant le fichier des patrons suivant les besoins (si pb envoyer un mail à SF avec les explications nécessaires et un bout du fichier de TRACE)
  • Vous devrez ensuite adapter ce programme pour qu’il soit capable de prendre en entrée des sorties issues de CORDIAL (pour produire évidemment le même type de résultat)
  • Vous devrez enfin reprendre le programme de parcours d’arborescence vu dans les BàO série 1 et 2, modifier le programme de parcours afin de produire en sortie un fichier contenant le résultat du filtrage terminologique sur l’arborescence complète des fils RSS (l’étiquetage étant réalisé à la volée avec treetagger, cf BàO série 2). Pour cette partie, il s’agit en fait d’�?inclure�? (modulo quelques aménagements) le programme trouve_term.pl dans le programme de parcours, juste après la phase d’étiquetage à la volée réalisée par treetagger.

Dans la suite du cours (BàO série 4), le programme construit ici sera enrichi pour produire des sorties réutilisées par un programme générant des graphes.

Rappel :

  • les travaux BàO série 1 et 2 doivent être envoyés à SF avant mardi 21/02 22h (zippés sous la forme prenom-nom.zip). Ces travaux seront mis en ligne sur la page du cours (rubrique “Boîtes à outils : travaux réalisés�?)
  • RAFFINEMENT (optionnel provisoirement) : Vous pouvez intégrer aux travaux BàO série 1 et 2 à rendre la partie amorcée aujourd’hui concernant l’extraction terminologique. Le travail BàO série 3 sera à rendre plus tard avec celui fait dans la BàO série 4.

Bon travail.

Commentaires fermés sur Boîte à Outils Série 3