pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Projet Nuages : Phase 1 / Etape 1 – Présentation du corpus (par Hoby, Yann et Violeta)

Posted in Fil(s) de Presse, pr-Nuages (SF) by tal-p3 on 15 mars 2006

Le corpus est stocké sur un dvd et il occupe plus ou moins deux giga-octets.
On a un index,avec un tableau dans lequel on trouve des liens vers les
fils de presse classés par date et heure. Ces liens pointent vers des fichiers au format texte et leur pendants au format xml.

(lien vers image index.bmp)

On trouve aussi un lien direct vers les nuages de mots v1 (nuages de mots uniquement ) et v2 (nuages de mot et contextes dans les articles) Il y a aussi des liens vers les versions en ligne des articles.
Sur le dvd on trouve une panoplie d'outils qui vont nous servir a exploiter le corpus proprement dit.

Description interne

Sur la page index on trouve:
1 un lien vers le site du projet nuages
2 des liens vers les versions xml et txt etiquetées avec lexico 3 des fils présentés dans un tableau
3 sous ce tableau on trouve egalement un lien vers les nuages de mots extraits de ces fils en et hors contexte
4 on trouve egalement dans cette page les liens vers les articles en ligne
présenté comme suit :
le titre de l'article
le lien vers cet article
le contenu de la balise description
la date et l'heure de publication
ainsi que le lien permanent (souvent la même url que le premier lien)

Yann HIARD

Hoby RATSIMBA

Violetta Ordonez

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :