pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Nuages 05/06

Projet dit Nuages

cf Projet « Fils de Presse » : http://tal.univ-paris3.fr/filspresse/

Préambule

Cette page sera le lieu d’une synthèse « au fil de l’eau » de l’évolution de projet.

Participants

  • Y. LAM (yan.lam@free.fr)
  • V. PICARD (niny.p@wanadoo.fr)
  • A. TRINQUIER (aurelia.trinquier@libertysurf.fr)
  • W. Li-Chi (wulucie@yahoo.com.tw)
  • E. Chachaty (edch55@yahoo.com)
  • Y. Hiard (email)
  • H. Ratsimba (hoby.eva@caramail.com)
  • V. Ordonez (email)
  • Z. Maafa (zamaafabp@yahoo.fr)
  • N. Hamri (email)
  • S. Achouri (email)

Présentation du projet

Travaux à réaliser :

 

Travaux en cours :

 

Annexes (données présentées en Phase 2)

1er jeu de données

Dans la Phase 2, nous utilisons les résultats produits par Lexico3 sur un corpus regroupant l’ensemble des articles de la version électronique (Projet Veille Le Monde) du journal Le Monde sur la période avril 2003 – mars 2006 :

Délimiteurs .,:;!?/_-\ »‘()[]{}§$

nombre des occurrences : 63 356 925
nombre des formes : 440 572
frequence maximale : 3 265 759
nombre des hapax : 182 795
nombre des clés(type) : 5
nombre des clés(ctnu) : 114 391

On donne à voir ci-dessous des graphiques de ventilation de certaines formes graphiques (via Chronofil et ChronoMonde) et des concordances construites via Lexico3. D’autres graphiques de ventilation sont disponibles dans NUAGES-WIP .

Les concordances fournissent, sur l’emploi d’une forme donnée, une vision plus synthétique que celle qui résulte de la lecture séquentielle. En particulier, elles permettent d’étudier plus facilement les rapports qui peuvent exister entre les différents contextes d’une même forme [L. Lebart, A. Salem, Statistique Textuelle, DUNOD, 1994 (p. 54)]

2ème jeu de données

On donne à voir ci-dessous les résultats produits par Lexico3 sur un corpus issu du précédent (le corpus Monde complet) et résultant de l’extraction de tous les articles contenant une chaîne de caractères couverte par l’expression régulière suivante : (aviaire|chikungunya ).

Délimiteurs .,:;!?/_-\ »‘()[]{}§$

nombre des occurrences : 241 189
nombre des formes : 20 785
frequence maximale : 14 047
nombre des hapax : 10 068

  1. Principales caractéristiques de la partition : MOIS
  2. Principales caractéristiques de la partition : RUBRIQUE
  3. Graphique de ventilation pour la partition : MOIS (1) (la forme aviaire, partition MOIS, fréquence relative)
  4. Graphique de ventilation pour la partition : MOIS (2) (la forme aviaire, partition MOIS, fréquence absolue)
  5. Graphique de ventilation pour la partition : MOIS (3) (la forme aviaire, partition MOIS, spécificité)
  6. Graphique de ventilation pour la partition : MOIS (4) (la forme chikungunya , partition MOIS, fréquence relative)
  7. Graphique de ventilation pour la partition : MOIS (5) (la forme chikungunya , partition MOIS, fréquence absolue)
  8. Graphique de ventilation pour la partition : MOIS (6) (la forme chikungunya , partition MOIS, spécificité)
  9. Graphique de ventilation pour la partition : MOIS (7) (les formes aviaireet chikungunya , partition MOIS, fréquence relative)
  10. Graphique de ventilation pour la partition : MOIS (8) (les formes aviaireet chikungunya , partition MOIS, fréquence absolue)
  11. Graphique de ventilation pour la partition : MOIS (9) (les formes aviaireet chikungunya , partition MOIS, spécificité)
  12. Segments répétés (liste complète avec fréquence)
  13. Sections découpées d’après le délimiteur: § – vue n°1(1) (un carré = 1 article, projection de la forme aviaire(carré bleu) et de la forme chikungunya (carré rouge)
  14. Sections découpées d’après le délimiteur: § – vue n°1(2) (idem avec marquage chronologique, partition MOIS)
  15. Spécifs – Sections (1) (les cooccurrents de la forme chikungunya : formes + segments)
  16. Spécifs – Sections (2) (les cooccurrents de la forme aviaire: formes + segments)

Précisions sur les 2 derniers résultats :
Mots spécifiques dans les sections contenant un mot de la famille aviaire dans un cas et chikungunya dans l’autre (i.e. les co-occurrents de chacun). A partir de la carte des sections (résultat 13), on demande à Lexico3 de rechercher les mots spécifiques contenus dans l’ensemble des carrés bleus, c’est à dire qu’on lui demande de rechercher les mots spécifiques dans les sections qui contiennent la forme aviaire. On obtient une liste de mots qui portent soit un indice de spécificité positif soit un indice de spécificité négatif, dans le premier cas, on aboutit en gros à une liste des co-occurrents des mots de la famille aviaire, dans le second cas on obtient des mots qui n’apparaissent pas avec cette famille de mots. Idem avec les carrés rouges pour chikungunya .
(spécificité positive – (sp) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique positive de la partie j (ou forme caractéristique* de cette partie) si sa sous-fréquence est « anormalement élevée » dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou supérieures à la sous-fréquence constatée est inférieure au seuil fixé au départ.
spécificité négative – (sp) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique négative de la partie j si sa sous-fréquence est anormalement faible dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou inférieures à la sous-fréquence constatée est inférieure au seuil fixé au départ.
L. Lebart, A. Salem, Statistique Textuelle, DUNOD, 1994)

Liens externes

Laisser un commentaire