pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Projet Nuages : Phase 1 / Etape 1 – Présentation du corpus (par Hoby, Yann et Violeta)

Posted in Fil(s) de Presse, pr-Nuages (SF) by tal-p3 on 15 mars 2006

Le corpus est stocké sur un dvd et il occupe plus ou moins deux giga-octets.
On a un index,avec un tableau dans lequel on trouve des liens vers les
fils de presse classés par date et heure. Ces liens pointent vers des fichiers au format texte et leur pendants au format xml.

(lien vers image index.bmp)

On trouve aussi un lien direct vers les nuages de mots v1 (nuages de mots uniquement ) et v2 (nuages de mot et contextes dans les articles) Il y a aussi des liens vers les versions en ligne des articles.
Sur le dvd on trouve une panoplie d'outils qui vont nous servir a exploiter le corpus proprement dit.

Description interne

Sur la page index on trouve:
1 un lien vers le site du projet nuages
2 des liens vers les versions xml et txt etiquetées avec lexico 3 des fils présentés dans un tableau
3 sous ce tableau on trouve egalement un lien vers les nuages de mots extraits de ces fils en et hors contexte
4 on trouve egalement dans cette page les liens vers les articles en ligne
présenté comme suit :
le titre de l'article
le lien vers cet article
le contenu de la balise description
la date et l'heure de publication
ainsi que le lien permanent (souvent la même url que le premier lien)

Yann HIARD

Hoby RATSIMBA

Violetta Ordonez

Projet Nuages : Phase 1 / Etape 1 – Commentaires sur le Corpus (par Yann L.)

Posted in pr-Nuages (SF), Projet 2005-2006 by tal-p3 on 15 mars 2006

Organisation des fils de presse sur le DVD.

La racine 2006 est divisée en 3 parties : Jan , Feb , Mar qui correspondent aux 3 mois de l’année sur lesquels le travail va porter.
Cette racine contient un index général (index.xml ) qui pointe sur les différents fils organisés dans les répertoires décrits ci dessous.

Pour chacune de ces 3 parties on trouve correspondant à chaque jour du mois, un répertoire qui contient tous les fils arrivés dans une demi-heure donnée. De plus ce répertoire contient un index local qui associe un fil avec son correspondant au format Lexico3.

Un second index pointe sur 2 nuages. Un contenant les mots , l’autre contenant les mots avec un extrait du contexte et les liens vers l’article du Monde.
En plus un résumé de chaque article est disponible sur cet index avec un lien vers l’article.

Exemple: Les fils arrivés à 12h30 le 15 Février 2006 sont dans le répertoire F:\fils-presse-articles-archivage\2006\Feb\15\12-30-00.

Format des fils:
Ils sont au format xml conforme au schéma RSS. Le nom de chaque fils est une identification de l’article correspondant dans le journal Le Monde.

Yann