pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Projet Nuages : Phase 1 / Etape 1 – Organisation des données (par Z.M)

Posted in Fil(s) de Presse, pr-Nuages (SF) by tal-p3 on 29 mars 2006

Au niveau de la racine du DVD on trouve trois dossiers : fils-presse-archivage qui contient le premier corpus, fils-presse-articles-archivage contenant le deuxième corpus et un dossier outils dans lequel sont regroupés des programmes développés pour traiter l’ensemble des données

1. Le dossier fils-presse-archivage :

Dans ce dossier on trouve deux arborescences de dossiers, la première de racine 2005 pour stocker les fils reçus en 2005 et la deuxième de racine 2006 pour les fils de presse des trois premiers mois de l’année 2006.

Une version compressée pour chaque arborescence est également disponible dans ce dossier.

On trouve, en plus, un index et des fichiers xsl et java script.

Chaque arborescence est formée d’un ensemble de dossiers organisés en niveaux :

1. le premier niveau correspond à l’année de publication des fils.

2. le deuxième niveau correspond aux mois.

3. le troisième niveau correspond aux jours de publications.

4. le quatrième niveau contient les dossiers dans lesquels sont regroupés tous les fils de presse reçus au même moment

5. le cinquième niveau contient les documents RSS qui forment le corpus et des fichiers html permettant la visualisation du corpus et des nuages de mots.

Les dossiers de chaque niveau contiennent les dossiers du niveau suivant.

Exemple :

Le dossier mois « Dec » contient 31 dossier jour (de 1 a 31)

2. Le dossier fils-presse-articles-archivage :

Ce dossier contient le deuxième corpus organisé dans une arborescence de racine 2006.Il est aussi disponible sous forme d’une archive.

Les arborescences de dossiers du premier et du deuxième corpus ont la même structure.

Le deuxième corpus contient en plus des fils de presse, une version texte format lexico3 pour chaque fil.

3. Utilisation de l’index :

A partir du document html index qui se trouve au niveau de la racine du DVD, on peut accéder à tous les fichiers des deux corpus et au contenu du dossier outil.

Un premier lien index permet l’accès à tous les fils de presses (Monde et AFP) du premier corpus.

Pour les fils de presse le monde reçus au même moment, on trouve un nuage de mots et un autre nuage avec des liens vers le contexte.

De même, deux nuages sont créés pour le fil AFP.

Un comptage des formes est également disponible avec des liens qui pointent vers leurs définitions dans le TLFI.

Le deuxième lien index permet l’accès au second corpus de la même manière, on trouve, en plus, des liens vers des fichiers lexico3 associes aux fils de presses le monde.

On trouve aussi les deux types de nuages décrits précédemment et un comptage des formes.

Z.MAAFA

Projet Nuage : présentation du corpus par Li-Chi et Anne

Posted in pr-Nuages (SF) by tal-p3 on 21 mars 2006

Dans le projet nuage, on nous a fourni un CD qui contient :

-le corpus « Fils de presse »

-le corpus « Fils de presse+Articles complets associés au format Lexico3 »

-les outils

  • Le Corpus Fils de Presse

Le lien « index » pointe des liens vers les fils de presse classés par date et heure. Le corpus est tiré de la période du 19 nov 2005 au 23 fév 2006. Ces liens donnent accès aux fichiers en format xml et les liens (contenant la presse Le Monde et AFP) de nuages de mots. Ces derniers contiennent les liens vers des nuage de mots en version 1 et 2, le titre, son lien en ligne vers l’article, sa description (le résumé de l’article), sa date de publication et son lien permanent. La version 1 n’a que les mots classés par ordre de fréquence dans les fils, leur taille est déterminée par cette fréquence (plus le mot est fréquent, plus sa taille de police est grande). La version 2 a également les nuages de mots dans lequel chaque mot donne accès via un clic aux contextes dans lesquels ce mot apparaît. Le contexte est formé par le titre de d’article, sa description dans le fil original et URL de cette description et son lien en ligne. Dans la page des nuages de mots, on trouve aussi les nombres de comptages des nuages de mots classés par ordre de fréquence et son nombre de fréquence, et un lien de la définision du mot dans le TLFi.

  • Le Corpus de Fils de Presse + articles complet au format Lexico3

Le lien « index » pointe vers une page contenant des liens vers le fils de presse (Le Monde) classés par date et heure. Le corpus est tiré de la période du 17 jan 2006 au 23 fév 2006. Ces liens donnent accès aux fichiers en format xml, aux extraits du texte brut et aux liens de nuages de mots. Les contenus de ces liens sont les même que ceux du lien « index » précédent. On ne le répète plus.
Li-chi

Anne

Projet Nuages : Phase 1 / Etape 1 – Observation du corpus (par Aurélia et Virginie)

Posted in pr-Nuages (SF) by tal-p3 on 19 mars 2006

Les Fils au format XML

Les fils sont principalement issus du site Le Monde (certains viennent de l'AFP) qui édite, des fils RSS qui ont été archivés heure par heure.

Aperçu de l'arborescence

Ces fils sont au format xml et ils ont la forme suivante :

Ils contiennent une balise "description" qui fera ensuite l'objet de l'étiquetage

Les Nuages

Ils permettent, à partir du nombre d'occurrences de chaque mot du texte, de visualiser leur fréquence (voir le paragraphe "Architecture du projet nuage de mots" dans le descriptif du projet).

Plus le terme apparaît tôt et plus sa case est grosse, plus il est fréquent dans le texte de départ.
Exemple

Il existe deux versions du corpus :

  • Version 1 : Les fils au format xml + les nuages qui contient environ 49100 fils.

  • Version 2 : Les fils au format xml + les nuages + les articles complets au format texte préparés au format Lexico 3 qui contient environ 31700 fils.

Dans les fichiers textes,en plus du contenu des balises description, on trouve le contenu de l'article qui n'était mentionné que par la présence d'un lien dans le fichier XML (cela crée un lien entre le "monde profond", c'est-à-dire l'intégralité des textes du monde, et le "monde de surface", les fils rss contenant la balise description qui est a priori un résumé de l'article ) et des balises qui permettront l'analyse par le logiciel Lexico3.

Les balises titre présentes dans les fichiers xml sont absentes des fichiers texte. Pourtant, il aurait pu être utile de les conserver puisque certaines sont indispenseable à la compréhension du contenu de la description.

Aurélia, Virginie

Projet Nuages : Phase 1 / Etape 1 – Présentation du corpus (par Hoby, Yann et Violeta)

Posted in Fil(s) de Presse, pr-Nuages (SF) by tal-p3 on 15 mars 2006

Le corpus est stocké sur un dvd et il occupe plus ou moins deux giga-octets.
On a un index,avec un tableau dans lequel on trouve des liens vers les
fils de presse classés par date et heure. Ces liens pointent vers des fichiers au format texte et leur pendants au format xml.

(lien vers image index.bmp)

On trouve aussi un lien direct vers les nuages de mots v1 (nuages de mots uniquement ) et v2 (nuages de mot et contextes dans les articles) Il y a aussi des liens vers les versions en ligne des articles.
Sur le dvd on trouve une panoplie d'outils qui vont nous servir a exploiter le corpus proprement dit.

Description interne

Sur la page index on trouve:
1 un lien vers le site du projet nuages
2 des liens vers les versions xml et txt etiquetées avec lexico 3 des fils présentés dans un tableau
3 sous ce tableau on trouve egalement un lien vers les nuages de mots extraits de ces fils en et hors contexte
4 on trouve egalement dans cette page les liens vers les articles en ligne
présenté comme suit :
le titre de l'article
le lien vers cet article
le contenu de la balise description
la date et l'heure de publication
ainsi que le lien permanent (souvent la même url que le premier lien)

Yann HIARD

Hoby RATSIMBA

Violetta Ordonez

Projet Nuages : Phase 1 / Etape 1 – Commentaires sur le Corpus (par Yann L.)

Posted in pr-Nuages (SF), Projet 2005-2006 by tal-p3 on 15 mars 2006

Organisation des fils de presse sur le DVD.

La racine 2006 est divisée en 3 parties : Jan , Feb , Mar qui correspondent aux 3 mois de l’année sur lesquels le travail va porter.
Cette racine contient un index général (index.xml ) qui pointe sur les différents fils organisés dans les répertoires décrits ci dessous.

Pour chacune de ces 3 parties on trouve correspondant à chaque jour du mois, un répertoire qui contient tous les fils arrivés dans une demi-heure donnée. De plus ce répertoire contient un index local qui associe un fil avec son correspondant au format Lexico3.

Un second index pointe sur 2 nuages. Un contenant les mots , l’autre contenant les mots avec un extrait du contexte et les liens vers l’article du Monde.
En plus un résumé de chaque article est disponible sur cet index avec un lien vers l’article.

Exemple: Les fils arrivés à 12h30 le 15 Février 2006 sont dans le répertoire F:\fils-presse-articles-archivage\2006\Feb\15\12-30-00.

Format des fils:
Ils sont au format xml conforme au schéma RSS. Le nom de chaque fils est une identification de l’article correspondant dans le journal Le Monde.

Yann

Site complémentaire Communautés

Posted in pr-Communautés (BH), Projet 2005-2006 by tal-p3 on 9 mars 2006

Projet Nuages (Phases de travail)

Posted in pr-Nuages (SF), Projet 2005-2006 by tal-p3 on 1 mars 2006

Le travail à réaliser sur ce projet est décrit dans le document suivant : NUAGES-WIP (format PDF). On présente ci-dessous les grandes étapes de ce travail. [Remarques : (1) Ce document sera mis à jour régulièrement, (2) les données présentées dans ce document seront accessibles en ligne au format HTML dans la page Nuages de ce blog]

Présentation des données disponibles sur votre DVD

  • Le corpus Fils de Presse : Cette page suivante rassemble chronologiquement les archives des Fils de Presse (Le Monde) utilisées pour le projet. Période traitée : 19/11/2005 – 23/02/2006
  • Le corpus Fils de Presse + articles complets au format Lexico3 : Cette page rassemble chronologiquement les archives des Fils de Presse (Le Monde) et les contenus textuels au format Lexico3 (fil + article). Période traitée : 17/01/2006 – 23/02/2006
  • Les outils : Outils « Fils de Presse » + Outils « Fils de Presse + articles »

PHASE 1 :

Etape 1 : prise en main
• Parcourir les 2 états du corpus : (V1) la version « fils+nuages », (V2) la version « (fils+nuages)+(articles complet au format Lexico3)
• Rédiger un court texte de présentation de ces données (sur ce blog)

Etape 2 : étiquetage et graphe
• Etiquetage du corpus : en utilisant les « boîtes à outils » développés en cours, vous devrez étiqueter l’ensemble du corpus (versions (V1) et (V2)) : 1 groupe de travail treetagger et 1 groupe de travail Cordial
• Extraire une liste de termes sur la base d’un patron morphosyntaxique à définir (cf Boite à Outils n°3) et en construire une représentation sous la forme d’un graphe via Pajek (cf Boite à Outils n°4) : chaque groupe travaillera sur ses propres résultats
• Préparer un format de sortie pour la chaîne de traitement « information mutuelle » : (voir la présentation dans la phase 2 (cf NUAGES-WIP))

Etape 3 : les segments avec Lexico3
• A partir de la version V2 du corpus, construire un corpus chronologique pour Lexico3 couvrant toute la période disponible.
• Construire la liste des Segments répétés (longueur 2…). Construire une représentation graphique de ces segments via pajek

IMPORTANT : toutes vos activités doivent conduire à rédiger des notes sur ce blog

PHASE 2 :

Dans cette partie, on va s’intéresser à deux formes graphiques particulières : « aviaire » et « chikungunya ». On commence par présenter des données complémentaires autour de ces 2 formes (cf NUAGES-WIP), on donne ensuite des pistes de travail sur le corpus de travail déjà utilisé dans la phase 1 (cf NUAGES-WIP).

Commentaires fermés sur Projet Nuages (Phases de travail)