pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Projet Nuages : Phase 1 / Etape 2 (via Cordial) (par Li-chi WU)

Posted in pr-Nuages (SF), Projet 2005-2006 by tal-p3 on 30 mai 2006

(voir aussi ici)

 

Présentation du processus d'étiquetage CORDIAL

 

 

 

 

Filtrage

Extrait le texte des balises description

 

Nous avons modifié le script pour Cordial du projet Boites à outils et l’avons appliqué à l'ensemble de corpus Nuage de la version 1 (fils + nuages). Nous avons d’abord fait trois sorties de fichiers textes qui contiennent tous les contenus textuels des balises description : un fichier sur l'ensemble du corpus de la version 1 (l'année 2005 et 2006), deux autres année par année (l'un pour l'année 2005, l'autre pour l'année 2006).

 

Problèmes rencontrés

Nous avons essayé de lancer trois fichiers sous Cordial, malheureusement, cela n'a pas marché car tous les fichiers texte sont volumineux. Pour faciliter le travail sous Cordial, nous voulions avoir un fichier moins volumineux, aussi avons-nous décidé d'avoir plusieurs fichiers présenté par mois, voire par quinzaine, à partir des fichiers sorties textes (les fichiers de 2005 et de 2006).

 

Avant de découper les deux fichiers alourdis, nous avons créé un petit programme ci-dessous pour que des fils (des textes dans les balises ’description’) soient présentés par une seule ligne. Cela permet de mieux lancer le programme de l’étape suivant.

 

while (<>) {

 

if (/200[5-6][A-Z][a-z][a-z][0-9][0-9][0-9][0-9][0-9][0-9][0-9]+$/) {

chomp($_);

print $_;

print " # ";

$_=<>;

print;

}

}

 


Ensuite, nous avons lancé la commande d'Egrep pour récupérer la partie ne contenant que les contenus d'un mois, lorsque le fichier était encore trop volumineux sous Cordial, nous avons récupéré seulement celle du 15 jours. Enfin nous avons étiqueté tous les fichiers textes récupérés à l’aide de Cordial qui nous a fait remarquer qu’il n’acceptait que le fichier de moins de 5 M.

 

Le fichier étiqueté est présenté un mot par ligne avec le paramétrage de l’étiquetage : Lemmes, Abrégé en majuscules sous type grammatical, sans numéroter les phrases, sans codage spécialisé et sans corriger les erreurs. L’étiquetage Cordial est indiqué ainsi : mot lemme patron.

 

Il n’est pas possible de présenter ce corpus sous forme d’un seul fichier, il est donc découpé en plusieurs fichiers sorties nommés par date.

Voici le programme lancé.

Extraction des patrons morpho-syntaxiques

A l’aide du programme d’extraction du projet précédent de boites à outils, nous obtenons des fichiers contenants tous les suites de mots correspondant au patron morpho-syntaxique choisi comme Nom + Adj (NC[A-Z]+ ADJ[A-Z]+). Dans cet étape, nous n’avons pas eu de problème dans le processus des traitement. Mais le processus se ralentit à cause des fichiers alourdis, cela nous a consacré beaucoup de temps pour chaque fichier.

Des textes aux graphes

Les extractions patrons obtenus dans l’étape précédent vont être représenté sous forme de graphe. Ce dernier est réalisé sous un logiciel Pajek qui permet de traiter des données de réseau de grande taille.

 

On transforme les fichiers des patrons morpho-syntaxiques au format graphml à l’aide d’un programme. Ces fichiers graphml sont convertis au format .net grâce à la feuille de style. Pajek est alors utilisé pour former des graphes.

On élabore le graphe d'un Nom + Adj pour le mois novembre 2005.

 

Information mutuelle

Nous avons écrit un programme perl afin d’avoir une entrée fichier qui convient pour lancer dans cette partie.

 

Source : fichiers étiquetés

Voici le programme :

while ($l=<>) {

# récupération des lemmes $1 et leur catégories $2 dans tous les occurrences

if ($l=~/[^\t]+\t([^\t]+)\t([^\t]+)/) {

$a=$1;

$b=$2;

$b=~s/

//g;

# impression d’un tiret bas entre le lemme et sa catégorie

print $a."_".$b;

}

 

if ($l=~/#/) {

# <FinFenetre/> marque les fins des fenêtres

print "<FinFenetre/>\n";

}

}

Nous avons utilisé les programmes fournis pour lancer cette chaîne.

 

Voici les paramétrages pour obtenir les graphes.

FaitCooccurrencesDansFenetre.pl

les catégories Nom commun et Adjectif avec une distance plafond de 2 mots et une cooccurrence plancher de 1.

Cooccurrences DansFenetre2IM.pl

 

une fréquence plancher de 20.

IM2GraphML.pl

une distance plafond de 2 et une IM plancher de 3.0

On élabore le graphe d'information mutuelle avec la valeur ci-dessus pour le mois mars 2006.

 

 

mars 2006

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :