pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Projet Nuages (Phases de travail)

Posted in pr-Nuages (SF), Projet 2005-2006 by tal-p3 on 1 mars 2006

Le travail à réaliser sur ce projet est décrit dans le document suivant : NUAGES-WIP (format PDF). On présente ci-dessous les grandes étapes de ce travail. [Remarques : (1) Ce document sera mis à jour régulièrement, (2) les données présentées dans ce document seront accessibles en ligne au format HTML dans la page Nuages de ce blog]

Présentation des données disponibles sur votre DVD

  • Le corpus Fils de Presse : Cette page suivante rassemble chronologiquement les archives des Fils de Presse (Le Monde) utilisées pour le projet. Période traitée : 19/11/2005 – 23/02/2006
  • Le corpus Fils de Presse + articles complets au format Lexico3 : Cette page rassemble chronologiquement les archives des Fils de Presse (Le Monde) et les contenus textuels au format Lexico3 (fil + article). Période traitée : 17/01/2006 – 23/02/2006
  • Les outils : Outils « Fils de Presse » + Outils « Fils de Presse + articles »

PHASE 1 :

Etape 1 : prise en main
• Parcourir les 2 états du corpus : (V1) la version « fils+nuages », (V2) la version « (fils+nuages)+(articles complet au format Lexico3)
• Rédiger un court texte de présentation de ces données (sur ce blog)

Etape 2 : étiquetage et graphe
• Etiquetage du corpus : en utilisant les « boîtes à outils » développés en cours, vous devrez étiqueter l’ensemble du corpus (versions (V1) et (V2)) : 1 groupe de travail treetagger et 1 groupe de travail Cordial
• Extraire une liste de termes sur la base d’un patron morphosyntaxique à définir (cf Boite à Outils n°3) et en construire une représentation sous la forme d’un graphe via Pajek (cf Boite à Outils n°4) : chaque groupe travaillera sur ses propres résultats
• Préparer un format de sortie pour la chaîne de traitement « information mutuelle » : (voir la présentation dans la phase 2 (cf NUAGES-WIP))

Etape 3 : les segments avec Lexico3
• A partir de la version V2 du corpus, construire un corpus chronologique pour Lexico3 couvrant toute la période disponible.
• Construire la liste des Segments répétés (longueur 2…). Construire une représentation graphique de ces segments via pajek

IMPORTANT : toutes vos activités doivent conduire à rédiger des notes sur ce blog

PHASE 2 :

Dans cette partie, on va s’intéresser à deux formes graphiques particulières : « aviaire » et « chikungunya ». On commence par présenter des données complémentaires autour de ces 2 formes (cf NUAGES-WIP), on donne ensuite des pistes de travail sur le corpus de travail déjà utilisé dans la phase 1 (cf NUAGES-WIP).

Publicités

Commentaires fermés sur Projet Nuages (Phases de travail)

%d blogueurs aiment cette page :