pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Projet Nuages : Phase 1 / Etape 1 – Organisation des données (par Z.M)

Posted in Fil(s) de Presse, pr-Nuages (SF) by tal-p3 on 29 mars 2006

Au niveau de la racine du DVD on trouve trois dossiers : fils-presse-archivage qui contient le premier corpus, fils-presse-articles-archivage contenant le deuxième corpus et un dossier outils dans lequel sont regroupés des programmes développés pour traiter l’ensemble des données

1. Le dossier fils-presse-archivage :

Dans ce dossier on trouve deux arborescences de dossiers, la première de racine 2005 pour stocker les fils reçus en 2005 et la deuxième de racine 2006 pour les fils de presse des trois premiers mois de l’année 2006.

Une version compressée pour chaque arborescence est également disponible dans ce dossier.

On trouve, en plus, un index et des fichiers xsl et java script.

Chaque arborescence est formée d’un ensemble de dossiers organisés en niveaux :

1. le premier niveau correspond à l’année de publication des fils.

2. le deuxième niveau correspond aux mois.

3. le troisième niveau correspond aux jours de publications.

4. le quatrième niveau contient les dossiers dans lesquels sont regroupés tous les fils de presse reçus au même moment

5. le cinquième niveau contient les documents RSS qui forment le corpus et des fichiers html permettant la visualisation du corpus et des nuages de mots.

Les dossiers de chaque niveau contiennent les dossiers du niveau suivant.

Exemple :

Le dossier mois « Dec » contient 31 dossier jour (de 1 a 31)

2. Le dossier fils-presse-articles-archivage :

Ce dossier contient le deuxième corpus organisé dans une arborescence de racine 2006.Il est aussi disponible sous forme d’une archive.

Les arborescences de dossiers du premier et du deuxième corpus ont la même structure.

Le deuxième corpus contient en plus des fils de presse, une version texte format lexico3 pour chaque fil.

3. Utilisation de l’index :

A partir du document html index qui se trouve au niveau de la racine du DVD, on peut accéder à tous les fichiers des deux corpus et au contenu du dossier outil.

Un premier lien index permet l’accès à tous les fils de presses (Monde et AFP) du premier corpus.

Pour les fils de presse le monde reçus au même moment, on trouve un nuage de mots et un autre nuage avec des liens vers le contexte.

De même, deux nuages sont créés pour le fil AFP.

Un comptage des formes est également disponible avec des liens qui pointent vers leurs définitions dans le TLFI.

Le deuxième lien index permet l’accès au second corpus de la même manière, on trouve, en plus, des liens vers des fichiers lexico3 associes aux fils de presses le monde.

On trouve aussi les deux types de nuages décrits précédemment et un comptage des formes.

Z.MAAFA

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :