pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Projet Nuages : Phase 2 / Etape 2 – Concordances des formes aviare et chikungunya sous Lexico3 (par Aurélia et Virginie)

Posted in pr-Nuages (SF) by tal-p3 on 19 mai 2006

Partant des fichiers XML, nous avons créé un script Perl permettant, non seulement de nettoyer le fichier des balises XML, mais également d'ajouter une balise date et une balise heure que Lexico3 pourra prendre en compte. Ces deux balises contiennent ce qui était présent dans les balises date et heure des fichiers XML initiaux. Nous en avons modifié la mise en forme afin d'obtenir un format lisible par Lexico3. Nous avons aussi ajouté un caractère § délimitant chaque fil, plus pertinent pour la segmentation que le point. En effet un même fil peut contenir plusieurs phrases.

Voici un extrait du fichier de sortie :

§ <date=2006-01-28> <heure=15> En raison du virus chikungunya, qui touche la Réunion depuis mars 2005, le préfet de l'île, Laurent Cayrel, a décidé de différer la rentrée scolaire d'une semaine.
§ <date=2006-01-29> <heure=13> Le gouvernement a décidé samedi d'accentuer la mobilisation pour tenter d'enrayer l'épidémie de Chikungunya à La Réunion, qui a déjà touché quelque 30 000 personnes depuis février 2005, dont plus de 5 000 nouveaux cas dans la deuxième semaine de janvier.
§ <date=2006-02-06> <heure=11> Quelque 230 000 élèves de La Réunion reprennent le chemin de l'école lundi, avec une semaine de retard due à la désinsectisation des établissements scolaires pour éliminer le moustique vecteur du chikungunya.
Nous avons soumis les deux fichiers, aviaire et chikungunya, au logiciel Lexico3. Ce dernier crée automatiquement un dictionnaire. Pour chacun des fichiers nous avons sélectionné les mots les plus fréquents et les plus pertinents afin d'étudier leur distribution (carte des sections). Nous avons également utilisé ce logiciel pour extraire les concordances de ces deux termes, c'est-à-dire leurs contextes d'apparition.

Voir le rapport sur aviaire

Voir le rapport sur chikungunya

Interprétation des résultats :

– la carte des sections de la forme "avaire" a montré que sur les 224 occurrences de cette forme, une seule n'apparait pas avec le mot "grippe" mais avec le mot "crise".

– le concordiancier de la forme "H5N1" permet de constater que cette forme est toujours utilisée avec le mot "virus". De plus, elle est généralement suivie de l'expression "de la grippe aviaire".

– le graphe comparant les expressions "grippe aviaire" et "virus H5N1" nous indique que c'est l'expression "grippe aviaire" qui est plus utilisée que "virus H5N1".

– le concordancier du mot chikungunya permet de voir qu'il est souvent utilisé (16 fois sur 31 fois où ce mot apparaît) avec l'expression "épidémie de".

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :