pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Travaux Nuages 05/06

cf Projet « Fils de Presse » : http://tal.univ-paris3.fr/filspresse/

 


PHASE 1

Etape 1 : Présentation du corpus

 


Etape 2 : étiquetage et graphe
Lecture n°1 :Pour la partie Info-mutuelle, on pourra voir ci-dessous une première phase de génération de graphes via Pajek : (cf billet complet ici : Des Grappes de Mots)

Application sur un corpus constitué de tous les fils RSS du Monde et AFP, novembre 2005-mars 2006 (499.000 mots)

(1) Filtrage des catégories NOM, ADJ, fréquence de cooccurrence > 10, Coeff IM > 9

(2) Filtrage des catégories NOM, VERBE, fréquence de cooccurrence > 10, Coeff IM > 8

Lecture n°2 : On pourra aussi regarder le travail réalisé ici : des nuages de mots qui s’attirent (mars-avril 2006)

 


(1) Travail réalisé par Y. L. : (cf billet en ligne (v1) et version finale) (voir aussi ici : v1 et 2)

Fils RSS:Le traitement est décrit ci dessous. Les classes iterd et tagger de la boite à outils ont été ré-utilisées :

process

Les étapes sont les suivantes (codées dans le fichier fils2text.pl ).

  1. On lit les fils dans l’arborescence donnée sur le CD /mnt/cdrom/xxx. ( Pour plus de commodité une copie a été faite sur le disque dur).
  2. Pour chaque fil, on extrait le texte des balises « description » ( avec le module XPath ) et le cumule dans un fichier ( fichier « filetotag » ) indiquant pour chaque fils son nom et le texte extrait. Chaque section se distingue avec un séparateur ayant un format précis que tree-tagger va marquer comme <unknown> et que l’on utilisera dans la partie suivante pour refabriquer l’arborescence. Le fichier « filetotag » est crée à la racine de cette arborescence « résultat » . ( Figure 1 ). Sur Windows le fichier filetotag est automatiquement coupé en morceaux afin de pouvoir être étiqueté
  3. Le fichier « filetotag » ( ou ses morceaux les uns à la suite des autres ) est ensuite envoyé à tree-tagger qui fabrique le fichier « resultag » dans le même répertoire.
  4. Le fichier « resultag » est lu. Sur un séparateur on recrée une structure identique à celle de départ, le texte taggé est alors transformé en xml et compressé. ( Figure 2 ).
Figure 1.L’arboresence des résultats et les fichiers de travail Figure 2. Les fils étiquetés et compressés
a q

Problèmes rencontrés ( Le traitement a été fait sur un PIII / 700Mhz / 256 Mb ):

  1. Le nombre très élevé de fils ( environ 15 000 ) donne un temps de création du fichier filetotag ( 10Mb ) d’environ 50 mn ( temps utilisateur ). Divers essais ont été faits pour créer un fichier compressé mais le temps d’exécution est multiplié par 4. De fait des problèmes de fuite mémoire sont apparus dans le module Compress::ZLib. Conclusion : Le processus se ralentit au fur à mesure qu’il avance… On a donc choisi de ne pas créer le fichier filetotag compressé.
  2. Il n’a pas été possible de présenter le « corpus étiqueté » sous forme d’un seul fichier xml car:
    1. La librairie libxml ne peut allouer suffisamment de mémoire pour le créer.
    2. Une transformation xslt prenant un tel fichier en entrée sera pour le moins « peu performante ».
  3. On a donc choisi de créer un fichier xml par fil et de le compresser (*) pour ne pas utiliser trop de place.( Figure 2 ).
  4. Il est nécessaire pour la version Windows de tree-tagger de découper le fichier d’entrée en morceaux de moins de 200 k.

(*) Ces compressions ont été faites avec la commande system pour éviter les Pbs évoqués ci dessus. Ainsi au total environ 15000 processus auront été créés…

Données pour l’information mutuelle :
Le processus ci dessus a créé un fichier nommé im.win au même endroit que les fichiers filetotag et resultag ci dessus.

Il va pouvoir être à son tour donné comme entrée au script mknet qui se charge de créer le graphe final.

Les paramètres de ce script sont documentés dans l’aide en ligne . Ca ressemble à :

Usage : mknet [–garder=’pattern’ –distplaf=val –cooplanch=val –freqplanch=val –imdistplaf=val –Implanch=val ] mesfenetres.win mongraf.netPour plus d’info sur la signification des arguments voir doc information mutuelle.Ce qu’on peut dire ici :–garder=’pattern’ : liste d’étiquettes ( séparées par | ) relatives à l’étiqueteur utilisé
–distplaf=val : val est la distance plafond demandée par FaitCooccurrencesDansFenetre.pl
–cooplanch=val : val est la coocurrence plancher demandée par FaitCooccurrencesDansFenetre.pl
–freqplanch=val : val est la fréquence plancher demandée par CooccurrencesDansFenetre2IM.pl
–imdistplaf=val : val est la distance plafond demandée par IM2GraphML.pl
–Implanch=val : (noter I majuscule…) val est la valeur « IM plancher » demandée par IM2GraphML.plIl y a des valeurs par défaut qu’il est fortement déconseillé d’ utiliser. Elles valent :–garder=NIL ( ce qui revient à ne rien garder.. )
–distplaf=20
–cooplanch=3
–freqplanch=5
–imdistplaf=8
–Implanch=9.0Les Arguments :
$1 : Le nom du fichier contenant les Fenêtres.
$2 : Le nom du fichier .net représentant le graphe PajekExemple pour du beurre :
mknet –garder=’ADV|ADJ|NOM’ –distplaf=20 –cooplanch=3 –freqplanch=5 –imdistplaf=8 –Implanch=9.0 mesFenetres.win monGraphe.net

Notes sur l’utilisation du script mknet :

  1. Il fonctionne sur Linux et sur Cygwin mais pas sous msdosse.
  2. Il est nécessaire d’avoir dans le même répertoire les scripts utilisés à savoir:
    1. CooccurrencesDansFenetre2IM.pl
    2. FaitIndexDeFenetres.pl fils2text.pl
    3. FaitCooccurrencesDansFenetre.pl
    4. IM2GraphML.pl
    5. GraphML2Pajek.xsl
  3. Le script utilise xsltproc comme moteur xslt.

 


(2) Travail réalisé par Z. M. : (cf billet en ligne) (voir aussi ici)

La chaîne de traitements

Le point de départ : Des arborescences de dossiers dans lesquels sont stockés des fils RSS le Monde et AFP.

Les traitements à réaliser : Effectuer sur les données des deux corpus les mêmes opérations définies dans les déférentes boîtes à outils.
Le schéma suivant résume ces opérations :

Le programme : Usage: perl projet_n.pl nom du répertoire chemin d’accées à Treetagger chemin d’acces à AltovaXSLT
Entrée: nom du répertoire racine de l’arborescence.

Sortie:
Une arborescence de répertoires de racine corpus_res qui regroupe :
1-Des fichiers contenant les textes des balises description.
2- Des fichiers contenant ces textes étiquetés avec Treetagger.
3- Des fichiers contenant les suite des termes correspondants aux patrons (NOM, ADJ) et (ADJ, NOM).
4. Des fichiers au format Graphml et Pajek.
Source: le programme commenté est disponible ici .

Exemple d’utilisation:
perl projet_n.pl e:/fils-presse-archivage/2005/ /cygdrive/c/TT/bin/treetagger.exe /cygdrive/c/altova/AltovaXSLT.exe

Fonctionnement:

Parcourir l’arborescence des répertoires en entrée à l’aide du programme de parcours de la boîte à outils 1.
À chaque passage par un dossier, si le niveau du dossier est supérieur au niveau choisi au lancement
du programme, créer un autre dossier portant le même nom dans l’arborescence résultat.
Extraire le contenu de balises description de chaque fil RSS, étiqueter le résultat avec Treetagger, puis à l’aide de la commande « system » de Perl, on appel tous les programmes déjà réalisés pour les boîtes à outils. Le regroupement des résultats se fait à l’aide de la procédure « regrouper », le niveau d’un dossier est calculé grâce à la procédure « niveau ».
Pour générer les graphes de BO4 et de l’information mutuelle, on utilise la procédure gengraphe

Le schéma suivant explique le fonctionnement du programme :

Utilisation du programme:

Dans cet exemple on lance le programme sur le dossier DEC (corpus fils-de-presse-archivage)

Trois regroupements sont possibles. Pour un regroupement par jour, on obtient l’arborescence résultat (de racine corpus_res) suivante :

corpus_T : le texte avec un mot par ligne.
corpus_E : le texte étiqueté.
corpus_XT : le suites {nom, adjectif} et {adjectif, nom}.
corpus_IM : le fichiers des fenêtres pour l’information mutuelle.
corpus_IM.net : le fichier Pajek pour l’information mutuelle.
corpus_P.net : graphe des termes de la boîte à outils 4.
patron-graphml.xml: le fichier graphml de la boîte à outils 4.
Les autre fichiers xml sont utilisés pour le calcul de l’information mutuelle.
Le graphe de l’information mutuelle pour le dossier 1 :

Remarques:

1-Le programme nécessite des heures d’exécution pour traiter complètement le corpus.
2- Pour générer les graphes Pajek (corpus_IM.net), il était nécessaire de changer
l’attribut encodage du graphe XML pour pouvoir le traiter avec AltovaXSLT .(le supprimer ou utiliser CP1252).
3- Les étiquettes traitées sont {nom, adjectif, abréviations} et les paramètres vus en cours
pour le calcul de l’information mutuelle sont utilisés dans l’exemple précèdent.
Z. MAAFA


(3) Travail réalisé par Li-Chi W. : (cf billet en ligne)

(voir aussi ici)

 

Présentation du processus d’étiquetage CORDIAL

 

 

 

 

Filtrage

Extrait le texte des balises description

 

Nous avons modifié le script pour Cordial du projet Boites à outils et l’avons appliqué à l’ensemble de corpus Nuage de la version 1 (fils + nuages). Nous avons d’abord fait trois sorties de fichiers textes qui contiennent tous les contenus textuels des balises description : un fichier sur l’ensemble du corpus de la version 1 (l’année 2005 et 2006), deux autres année par année (l’un pour l’année 2005, l’autre pour l’année 2006).

 

Problèmes rencontrés

Nous avons essayé de lancer trois fichiers sous Cordial, malheureusement, cela n’a pas marché car tous les fichiers texte sont volumineux. Pour faciliter le travail sous Cordial, nous voulions avoir un fichier moins volumineux, aussi avons-nous décidé d’avoir plusieurs fichiers présenté par mois, voire par quinzaine, à partir des fichiers sorties textes (les fichiers de 2005 et de 2006).

 

Avant de découper les deux fichiers alourdis, nous avons créé un petit programme ci-dessous pour que des fils (des textes dans les balises ’description’) soient présentés par une seule ligne. Cela permet de mieux lancer le programme de l’étape suivant.

 

while (<>) {

 

if (/200[5-6][A-Z][a-z][a-z][0-9][0-9][0-9][0-9][0-9][0-9][0-9]+$/) {

chomp($_);

print $_;

print  » # « ;

$_=<>;

print;

}

}

 


Ensuite, nous avons lancé la commande d’Egrep pour récupérer la partie ne contenant que les contenus d’un mois, lorsque le fichier était encore trop volumineux sous Cordial, nous avons récupéré seulement celle du 15 jours. Enfin nous avons étiqueté tous les fichiers textes récupérés à l’aide de Cordial qui nous a fait remarquer qu’il n’acceptait que le fichier de moins de 5 M.

 

Le fichier étiqueté est présenté un mot par ligne avec le paramétrage de l’étiquetage : Lemmes, Abrégé en majuscules sous type grammatical, sans numéroter les phrases, sans codage spécialisé et sans corriger les erreurs. L’étiquetage Cordial est indiqué ainsi : mot lemme patron.

 

Il n’est pas possible de présenter ce corpus sous forme d’un seul fichier, il est donc découpé en plusieurs fichiers sorties nommés par date.

Voici le programme lancé.

Extraction des patrons morpho-syntaxiques

A l’aide du programme d’extraction du projet précédent de boites à outils, nous obtenons des fichiers contenants tous les suites de mots correspondant au patron morpho-syntaxique choisi comme Nom + Adj (NC[A-Z]+ ADJ[A-Z]+). Dans cet étape, nous n’avons pas eu de problème dans le processus des traitement. Mais le processus se ralentit à cause des fichiers alourdis, cela nous a consacré beaucoup de temps pour chaque fichier.

Des textes aux graphes

Les extractions patrons obtenus dans l’étape précédent vont être représenté sous forme de graphe. Ce dernier est réalisé sous un logiciel Pajek qui permet de traiter des données de réseau de grande taille.

 

On transforme les fichiers des patrons morpho-syntaxiques au format graphml à l’aide d’un programme. Ces fichiers graphml sont convertis au format .net grâce à la feuille de style. Pajek est alors utilisé pour former des graphes.

On élabore le graphe d’un Nom + Adj pour le mois novembre 2005.

 

Information mutuelle

Nous avons écrit un programme perl afin d’avoir une entrée fichier qui convient pour lancer dans cette partie.

 

Source : fichiers étiquetés

Voici le programme :

while ($l=<>) {

# récupération des lemmes $1 et leur catégories $2 dans tous les occurrences

if ($l=~/[^\t]+\t([^\t]+)\t([^\t]+)/) {

$a=$1;

$b=$2;

$b=~s/

//g;

# impression d’un tiret bas entre le lemme et sa catégorie

print $a. »_ ».$b;

}

 

if ($l=~/#/) {

# <FinFenetre/> marque les fins des fenêtres

print « <FinFenetre/>\n »;

}

}

Nous avons utilisé les programmes fournis pour lancer cette chaîne.

 

Voici les paramétrages pour obtenir les graphes.

FaitCooccurrencesDansFenetre.pl

les catégories Nom commun et Adjectif avec une distance plafond de 2 mots et une cooccurrence plancher de 1.

Cooccurrences DansFenetre2IM.pl

 

une fréquence plancher de 20.

IM2GraphML.pl

une distance plafond de 2 et une IM plancher de 3.0

On élabore le graphe d’information mutuelle avec la valeur ci-dessus pour le mois mars 2006.

 

 

mars 2006


(4) Travail réalisé par Anne Oganga :

(voir aussi ici)

 

Projet Nuage Etiquetage sous CORDIAL

Oganga anne(master TAL)

Présentation du processus d’étiquetage CORDIAL

FILTRAGE

Extrait des textes des balises description des fils de presse : Le Monde et AFP

Un fichier volumineux divisé en plusieurs sorties.

ETIQUETAGE-CORDIAL

Etiquetage des textes avec cordial

Plusieurs sorties du même fichier-classement du 1-15 ou bien un mois entier. Etiquetage sous Cordial.

Information Mutuelle

Terminologie aux Graphe

Extrait le lemme et sa catégorie sous forme un item par ligne

Mesurer la valeur de l’information mutuelle des termes afin de former un graphe

Extraction des patrons des morpho-syntaxique

(NC[A-Z]+ADJ[A-Z]+)

 

Des textes aux graphes

Entrée fichiers de termes patrons

Sortie :patrons au format graphml

Application une feuille de style pour charger le résultat sous PAJEK pour un graphe

While (<>) {

If (/200[5-6] [A-Z] [a-z] [0-9] [0-9] [0-9] [0-9] [0-9] [0-9] [0-9]+$/) {

Chomp($_);

Print $_;

Print  » #  » ;

}

}

Ensuite, nous avons lancé la commande d’Egrep pour récupérer la partie ne contenant que les contenus d’un mois, lorsque le fichier était encore trop volumineux sous Cordial, nous avons récupéré seulement celle du 15 jours. Enfin nous avons étiqueté tous les fichiers textes récupérés à l’aide de Cordial qui nous a fait remarquer qu’il n’acceptait que le fichier de moins de 5 M.

Le fichier étiqueté est présenté un mot par ligne avec le paramétrage de l’étiquetage : Lemmes, Abrégé en majuscules sous type grammatical, sans numéroter les phrases, sans codage spécialisé et sans corriger les erreurs. L’étiquetage Cordial est indiqué ainsi : mot lemme patron.

Il n’est pas possible de présenter ce corpus sous forme d’un seul fichier, il est donc découpé en plusieurs fichiers sorties nommés par date.

Voici le programme lancé.

Extractiondes patrons morpho-syntaxiques

A l’aide du programme d’extraction du projet précédent de boites à outils, nous obtenons des fichiers contenants tous les suites de mots correspondant au patron morpho-syntaxique choisi comme Nom + Adj (NC[A-Z]+ ADJ[A-Z]+). Dans cet étape, nous n’avons pas eu de problème dans le processus des traitement. Mais le processus se ralentit à cause des fichiers alourdis, cela nous a consacré beaucoup de temps pour chaque fichier.

Des textes aux graphes

Les extractions patrons obtenus dans l’étape précédent vont être représenté sous forme de graphe. Ce dernier est réalisé sous un logiciel Pajek qui permet de traiter des données de réseau de grande taille.

On transforme les fichiers des patrons morpho-syntaxiques au format graphml à l’aide d’un programme. Ces fichiers graphml sont convertis au format .net grâce à la feuille de style. Pajek est alors utilisé pour former des graphes.

On élabore le graphe d’un patron Nom + Adj pour le mois Décembre 2005.pajek1


Information mutuelle

Nous avons écrit un programme perl afin d’avoir une entrée fichier qui convient pour lancer dans cette partie.

Source : fichiers étiquetés

Voici le programme :

while ($l=<>) {

# récupération des lemmes $1 et leur catégories $2 dans tous les occurrences
if ($l=~/[^\t]+\t([^\t]+)\t([^\t]+)/) {
$a=$1;
$b=$2;
$b=~s/
//g;

# impression d’un tiret bas entre le lemme et sa catégorie
print $a. »_ ».$b;
} <!–[if !supportEmptyParas]–> <!–[endif]–>
if ($l=~/#/) {
<!–[if !supportEmptyParas]–> <!–[endif]–>
# <FinFenetre/> marque les fins des fenêtres
print « <FinFenetre/>\n »;
}
}

Nous avons utilisé les programmes fournis pour lancer cette chaîne.

Voici les paramétrages pour obtenir les graphes.

FaitCooccurrencesDansFenetre.pl

<!–[if !supportEmptyParas]–> les catégories Nom commun et Adjectif avec une distance plafond de 2 mots et une cooccurrence plancher de 1.<!–[endif]–>

CooccurrencesDansFenetre2IM.pl

<!–[if !supportEmptyParas]–> une fréquence plancher de 20.

IM2GraphML.pl

<!–[if !supportEmptyParas]–> une distance plafond de 2 et une IM plancher de 3.0

On élabore le graphe de l’information mutuelle avec la valeur ci-dessus pour le décembre 2005.pajek2


(5) Travail réalisé par Hamri Nacer :

Présentation disponible ici.

 

 


Etape 3 : segments avec Lexico3

 


Etape 4 : Nuages de termes

 

 

 

 


PHASE 2

 


Etape 2 : les virus dans les fils

Travail réalisé par Aurélia et Virginie (cf billet en ligne)

Partant des fichiers XML, nous avons créé un script Perl permettant, non seulement de nettoyer le fichier des balises XML, mais également d’ajouter une balise date et une balise heure que Lexico3 pourra prendre en compte. Ces deux balises contiennent ce qui était présent dans les balises date et heure des fichiers XML initiaux. Nous en avons modifié la mise en forme afin d’obtenir un format lisible par Lexico3. Nous avons aussi ajouté un caractère § délimitant chaque fil, plus pertinent pour la segmentation que le point. En effet un même fil peut contenir plusieurs phrases.

Voici un extrait du fichier de sortie :

§ <date=2006-01-28> <heure=15> En raison du virus chikungunya, qui touche la Réunion depuis mars 2005, le préfet de l’île, Laurent Cayrel, a décidé de différer la rentrée scolaire d’une semaine.
§ <date=2006-01-29> <heure=13> Le gouvernement a décidé samedi d’accentuer la mobilisation pour tenter d’enrayer l’épidémie de Chikungunya à La Réunion, qui a déjà touché quelque 30 000 personnes depuis février 2005, dont plus de 5 000 nouveaux cas dans la deuxième semaine de janvier.
§ <date=2006-02-06> <heure=11> Quelque 230 000 élèves de La Réunion reprennent le chemin de l’école lundi, avec une semaine de retard due à la désinsectisation des établissements scolaires pour éliminer le moustique vecteur du chikungunya.
Nous avons soumis les deux fichiers, aviaire et chikungunya, au logiciel Lexico3. Ce dernier crée automatiquement un dictionnaire. Pour chacun des fichiers nous avons sélectionné les mots les plus fréquents et les plus pertinents afin d’étudier leur distribution (carte des sections). Nous avons également utilisé ce logiciel pour extraire les concordances de ces deux termes, c’est-à-dire leurs contextes d’apparition.

Voir le rapport sur aviaire

Voir le rapport sur chikungunya

Interprétation des résultats :

– la carte des sections de la forme « avaire » a montré que sur les 224 occurrences de cette forme, une seule n’apparait pas avec le mot « grippe » mais avec le mot « crise ».

– le concordiancier de la forme « H5N1 » permet de constater que cette forme est toujours utilisée avec le mot « virus ». De plus, elle est généralement suivie de l’expression « de la grippe aviaire ».

– le graphe comparant les expressions « grippe aviaire » et « virus H5N1 » nous indique que c’est l’expression « grippe aviaire » qui est plus utilisée que « virus H5N1 ».

– le concordancier du mot chikungunya permet de voir qu’il est souvent utilisé (16 fois sur 31 fois où ce mot apparaît) avec l’expression « épidémie de ».

 


Etape 3 : Information mutuelle

(1) Travail réalisé par Aurélia et Virginie (cf billet en ligne)

Il s’agit de créer, à partir d’un fichier xml contenant les occurrences d’une forme, un fichier texte qui pourra être utilisé par les programmes qui constituent la chaîne d’information mutuelle. Cette chaîne permet de faire ressortir les mots qui s’attirent. Voir la description.

Le format d’entrée doit être sous la forme d’une suite de fenêtres (explications dans la description ci-dessus). Dans notre cas on considère que chaque balise description constistue une fenêtre.

Explications du programme :

#!/usr/bin/perl
print « Quel est le fichier à filtrer?\n » ;
$fichier=<STDIN> ;
chomp $fichier ;
open(FILEINPUT, »$fichier ») ;
open(TEMP, »>im.txt ») ;
while ($ligne = <FILEINPUT>){
open(FILEOUTPUT, »>res.txt ») ;
# On recherche dans chaque ligne la balise description suivie de n’importe quels caractères suivi d’une balise fin de link suivi de n’importe quels caractères.
$ligne=~/(<description>.*<\/link>)(.*)/;
# On enregistre le contenu des variables mémorisé par les parenthèses lors de la recherche.
$date=$1;
$des=$2;
# On retire les balises MOT.
$des=~s/<\/?MOT>//g;
# On sépare le texte en un mot par ligne.
$des=~s/([ ,\;:!?\.’\ »\(\)])/\n$1\n/g;
$des=~s/(<content>)/$1\n/g;

print FILEOUTPUT « $date $des » ;
close (FILEOUTPUT);

# Lancement du TreeTagger sur le fichier que l’on vient de créer.
system (« bin/tree-tagger.exe -token lib/french.par res.txt tree.txt »);
open (TREE, »tree.txt »);

while ($ligne=<TREE>){
# Dans le fichier étiqueté on remplace les tabulations par un underscore.
$ligne=~s/\t/_/;
# Remplacement des balises de fin de description par une balise FinFenetre nécessaire au programme d’information mutuelle.
$ligne=~s/(\/description.*)/\r\n<FinFenetre\/>\r\n/;
$ligne=~s/ //g;
# Modification des fins de ligne ^M par \r.
$ligne=~s/^M/\r/g;

# Impression dans le fichier de sortie quand il ne s’agit pas d’une ligne vide.
if ($ligne!~/^$/){
print TEMP « $ligne »;
}
}
}

close(TREE);
close(FILEINPUT);
close(FILEOUTPUT);
close(TEMP);

Voir le fichier de résultats pour aviaire et celui pour chikungunya.

(2) Travail réalisé par Aurélia et Virginie (cf billet en ligne)

Les programmes utilisés dans cette partie ainsi que leurs explications sont présents ici.

On applique ces programmes Perl sur le fichier de sortie crée pour la chaîne d’information mutuelle (cf post « Création du format d’entrée pour la chaîne d’information mutuelle ») lui même obtenu à partir des fils contenant la forme « aviaire ».

Pour aviaire :

Programme FaitCooccurrencesDansFenetre.pl :

Nous avons gardé les catégories NOM et ADJ, sur une distance plafond de 20 mots et une cooccurrence plancher de 2.

Programme CooccurrencesDansFenetre2IM.pl :

Nous avons utilisé une fréquence plancher de 3.

Programme IM2GraphML.pl :

Nous avons utilisé une distance plafond de 8 et une IM plancher de 9.0

On élabore le graphe d’aviaire avec Pajek et on obtient :

(Cliquez sur l’image pour l’agrandir)

Pour chikungunya :

Programme FaitCooccurrencesDansFenetre.pl :

Nous avons gardé les catégories NOM et ADJ, sur une distance plafond de 20 mots et une cooccurrence plancher de 2.

Programme CooccurrencesDansFenetre2IM.pl :

Nous avons utilisé une fréquence plancher de 2.

Programme IM2GraphML.pl :

Nous avons utilisé une distance plafond de 2 et une IM plancher de 3.0

On élabore le graphe de chikungunya avec Pajek et on obtient :

Laisser un commentaire