pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Projet Nuages : Phase 1 / Etape 2 (via treetagger) (par Z. M.)

Posted in pr-Nuages (SF), Projet 2005-2006 by tal-p3 on 28 mai 2006

(voir aussi ici)

La chaîne des traitements

Le point de départ : Des arborescences de dossiers dans lesquels sont stockés des fils RSS le Monde et AFP.

Les traitements à réaliser : Effectuer sur les données des deux corpus les mêmes opérations définies dans les déférentes boîtes à outils.
Le schéma suivant résume ces opérations :

Le programme : Usage: perl projet_n.pl nom du répertoire chemin d’accées à Treetagger chemin d’acces à AltovaXSLT
Entrée: nom du répertoire racine de l’arborescence.

Sortie:
Une arborescence de répertoires de racine corpus_res qui regroupe :
1-Des fichiers contenant les textes des balises description.
2- Des fichiers contenant ces textes étiquetés avec Treetagger.
3- Des fichiers contenant les suite des termes correspondants aux patrons (NOM, ADJ) et (ADJ, NOM).
4. Des fichiers au format Graphml et Pajek.
Source: le programme commenté est disponible ici .

Exemple d’utilisation:
perl projet_n.pl e:/fils-presse-archivage/2005/ /cygdrive/c/TT/bin/treetagger.exe /cygdrive/c/altova/AltovaXSLT.exe

Fonctionnement:

Parcourir l’arborescence des répertoires en entrée à l’aide du programme de parcours de la boîte à outils 1.
À chaque passage par un dossier, si le niveau du dossier est supérieur au niveau choisi au lancement
du programme, créer un autre dossier portant le même nom dans l’arborescence résultat.
Extraire le contenu de balises description de chaque fil RSS, étiqueter le résultat avec Treetagger, puis à l’aide de la commande « system » de Perl, on appel tous les programmes déjà réalisés pour les boîtes à outils. Le regroupement des résultats se fait à l’aide de la procédure « regrouper », le niveau d’un dossier est calculé grâce à la procédure « niveau ».
Pour générer les graphes de BO4 et de l’information mutuelle, on utilise la procédure gengraphe

Le schéma suivant explique le fonctionnement du programme :

Utilisation du programme:

Dans cet exemple on lance le programme sur le dossier DEC (corpus fils-de-presse-archivage)

Trois regroupements sont possibles. Pour un regroupement par jour, on obtient l’arborescence résultat (de racine corpus_res) suivante :

corpus_T : le texte avec un mot par ligne.
corpus_E : le texte étiqueté.
corpus_XT : le suites {nom, adjectif} et {adjectif, nom}.
corpus_IM : le fichiers des fenêtres pour l’information mutuelle.
corpus_IM.net : le fichier Pajek pour l’information mutuelle.
corpus_P.net : graphe des termes de la boîte à outils 4.
patron-graphml.xml: le fichier graphml de la boîte à outils 4.
Les autre fichiers xml sont utilisés pour le calcul de l’information mutuelle.
Le graphe de l’information mutuelle pour le dossier 1 :

Remarques:

1-Le programme nécessite des heures d’exécution pour traiter complètement le corpus.
2- Pour générer les graphes Pajek (corpus_IM.net), il était nécessaire de changer
l’attribut encodage du graphe XML pour pouvoir le traiter avec AltovaXSLT .(le supprimer ou utiliser CP1252).
3- Les étiquettes traitées sont {nom, adjectif, abréviations} et les paramètres vus en cours
pour le calcul de l’information mutuelle sont utilisés dans l’exemple précèdent.
Z. MAAFA

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :