pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Projet Nuages : Phase 1 / Etape 1 – Commentaires sur le Corpus (par Yann L.)

Posted in pr-Nuages (SF), Projet 2005-2006 by tal-p3 on 15 mars 2006

Organisation des fils de presse sur le DVD.

La racine 2006 est divisée en 3 parties : Jan , Feb , Mar qui correspondent aux 3 mois de l’année sur lesquels le travail va porter.
Cette racine contient un index général (index.xml ) qui pointe sur les différents fils organisés dans les répertoires décrits ci dessous.

Pour chacune de ces 3 parties on trouve correspondant à chaque jour du mois, un répertoire qui contient tous les fils arrivés dans une demi-heure donnée. De plus ce répertoire contient un index local qui associe un fil avec son correspondant au format Lexico3.

Un second index pointe sur 2 nuages. Un contenant les mots , l’autre contenant les mots avec un extrait du contexte et les liens vers l’article du Monde.
En plus un résumé de chaque article est disponible sur cet index avec un lien vers l’article.

Exemple: Les fils arrivés à 12h30 le 15 Février 2006 sont dans le répertoire F:\fils-presse-articles-archivage\2006\Feb\15\12-30-00.

Format des fils:
Ils sont au format xml conforme au schéma RSS. Le nom de chaque fils est une identification de l’article correspondant dans le journal Le Monde.

Yann

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :