pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

étapes : projet Navigation sur Le Monde

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 3 avril 2007

bonjour tous le monde

séance n° 01

le corpus: le Monde Profond phase 2

les étapes:

  1. Décompression des deux répertoires (2006/2007) (qui sont disponible sur le CD) du corpus le Monde Profond phase 2.
  2. On a procédé à une concaténation des fichiers (.txt) qui sont pré-traités pour une utilisation ultérieure avec LEXICO 3 .

Cette concaténation de fichiers est faite par étapes, par rubriques (du journal Le Monde. Par exemple : à la une, International et ensuite par année (2006 puis 2007).

  • Premièrement on obtient des mini corpus ( chaque rubrique est concaténée pour chacune des deux années 2006 & 2007 ). Cette concaténation est faite un programme Perl dans lequel il suffit de remplacer le nom du fichier à traiter (le nom du fil = le nom de la rubrique) en changeant l’extention (.xml par .txt)
  • En deuxième lieu on procède à la concaténation de chacune des rubriques de chaque année afin d’obtenir le corpus final qui sera prêt à l’emploi (via LEXICO 3)

bon courage à tous

Boualem & Bounouar

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :