pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Ce qu’on a fait à la première semaine du S2 du M1 PluriTAL

Posted in Boîte à Outils, Master TAL Recherche, pluriTAL by pluritaluser on 31 janvier 2009

A faire ce weekend pour les absents:

0) On a grève des enseignants lundi. D’après Mr Fleury et Mr Daube on a cours lundi à l’INALCO à 14h contrairement à ce qu’on nous a dit Vendredi.

1) Envoyer un e-mail à la prof de syntaxe Mme SAMVELIAN sans contenu: pollet.samvelian@univ-paris3.fr avec comme objet/titre:  Syntaxe formelle

(ça va être utile pour savoir si on aura cours ou grève Mardi)

2) Trouver un corpus avec un taux élevé de redondances (espressions semblables / mêmes mots qui se suivent pour ne pas avoir que du: « et le », et du « et la » à analyser) et télécharger Lexico 3, c’est écrit qu’il faut payer, mais si on clique dessus, on télécharge sans payer. Si vous ne savez pas où le trouver, tapez sur le moteur de recherche: lexico3 , et cliquez sur Lexico 3 Web Page.

Le corpus peut être un discours, un forum, un blog, des sms, etc… et la taille n’est pas importante, c’est la redondance qui est importante, mais je pense que ça doit être assez long pour pouvoir faire des analyses statistiques dessus.

3)  Télécharger les corpus de Le Monde pour 15jours et pour 1 année ( 2008 ) sur le site de Mr Fleury, choisir la rubrique RSS  qui vous intéresse sur les diapos,  et insérer un programme de ce style dans parcours-arborescence-fichiers:

#       Insérer ici votre code (le filtreur)

if ($file=~/0,2-3208,1-0,0\.xml) #numero de la rubrique qui vous intéresse

open(FILEINPUT, »$ARGV[0] »);

open(FILEOUTPUT, »>resu.txt »); #nom de la rubrique qui vous intéresse

$i=1;

while ($ligne = <FILEINPUT>){

if ($ligne=~/<description>([^<]+)<\/description>/) {

my $recup=$1; #la variable $1 est remplacée par recup

$recup=~s/’/\’/g;

$recup=~s/ »/\ »/g;

$recup=~s/é/é/g;

$recup=~s/ê/ê/g;

print FILEOUTPUT « Contenu de description n° $i: $recup \n »;

$i++;

}

}

close(FILEINPUT);

close(FILEOUTPUT);

print $i++, »\n »;

}

}

}

4) Aller sur le site de Agora ou demander à quelqu’un de Paris 3 d’y aller pour télécharger les fichiers pour le cours de Document structuré de Mr Fleury, et apprendre comment faire des pages en .xml et des feuilles de style.

C’est ce qu’on a fait cette semaine.

Françoise Del Socorro

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :