pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Blog projet n°1

Posted in Master TAL Recherche, Projet 2009-2010 by pluritaluser on 25 octobre 2009

Blog pour le cours de programmation et projet encadré dans le cadre du master 1 plurital

GIMENEZ Johnny et LEGOUY Benoît

http://martine-apprend-le-tal.over-blog.com/

Pour Françoise

Posted in Boîte à Outils, Master TAL Recherche, pluriTAL, Projet 2008-2009 by pluritaluser on 15 mars 2009

#/usr/bin/perl

my $rep= »$ARGV[0] »;

$rep=~ s/[\/]$//;

my $DUMPFULL1= » »;

my %tableaudestextes=(); #—————————————-

my $output1= »test1.xml »;

if (!open (FILEOUT, »>$output1″)) { die « Pb a l’ouverture du fichier $output1 »};

&parcoursarborescencefichiers($rep);

sub parcoursarborescencefichiers {

 my $path = shift(@_);

opendir(DIR, $path) or die « can’t open $path: $!\n »;

my @files = readdir(DIR);

closedir(DIR);

foreach my $file (@files) {

next if $file =~ /^\.\.?$/;

 $file = $path. »/ ».$file;

if (-d $file) {

&parcoursarborescencefichiers($file);

}

if (-f $file) {

if ($file=~/\.xml/){

open(FILEIN,$file);

printf « $file\n »;

   while ($ligne = <FILEIN>){

    if ($ligne=~/<description>([^<]+)<\/description>/){ 
 my $propre=$1;

 if (exists($tableaudestextes{$propre})) {

$tableaudestextes{$propre}++;

}

 else {

$DUMPFULL1.= »$propre\n »;

 $tableaudestextes{$propre}++;

}

}

}

}

 close(FILEIN);

}

 }

}

print FILEOUT « <?xml version=\ »1.0\ » encoding=\ »iso-8859-1\ » ?>\n »;
print FILEOUT « <PARCOURS>\n »;
print FILEOUT « <NOM> </NOM>\n »;
print FILEOUT « <FILTRAGE> ».$DUMPFULL1. »</FILTRAGE>\n »;
print FILEOUT « </PARCOURS>\n »;
close(FILEOUT);
exit;

Ce qu’on a fait à la première semaine du S2 du M1 PluriTAL

Posted in Boîte à Outils, Master TAL Recherche, pluriTAL by pluritaluser on 31 janvier 2009

A faire ce weekend pour les absents:

0) On a grève des enseignants lundi. D’après Mr Fleury et Mr Daube on a cours lundi à l’INALCO à 14h contrairement à ce qu’on nous a dit Vendredi.

1) Envoyer un e-mail à la prof de syntaxe Mme SAMVELIAN sans contenu: pollet.samvelian@univ-paris3.fr avec comme objet/titre:  Syntaxe formelle

(ça va être utile pour savoir si on aura cours ou grève Mardi)

2) Trouver un corpus avec un taux élevé de redondances (espressions semblables / mêmes mots qui se suivent pour ne pas avoir que du: « et le », et du « et la » à analyser) et télécharger Lexico 3, c’est écrit qu’il faut payer, mais si on clique dessus, on télécharge sans payer. Si vous ne savez pas où le trouver, tapez sur le moteur de recherche: lexico3 , et cliquez sur Lexico 3 Web Page.

Le corpus peut être un discours, un forum, un blog, des sms, etc… et la taille n’est pas importante, c’est la redondance qui est importante, mais je pense que ça doit être assez long pour pouvoir faire des analyses statistiques dessus.

3)  Télécharger les corpus de Le Monde pour 15jours et pour 1 année ( 2008 ) sur le site de Mr Fleury, choisir la rubrique RSS  qui vous intéresse sur les diapos,  et insérer un programme de ce style dans parcours-arborescence-fichiers:

#       Insérer ici votre code (le filtreur)

if ($file=~/0,2-3208,1-0,0\.xml) #numero de la rubrique qui vous intéresse

open(FILEINPUT, »$ARGV[0] »);

open(FILEOUTPUT, »>resu.txt »); #nom de la rubrique qui vous intéresse

$i=1;

while ($ligne = <FILEINPUT>){

if ($ligne=~/<description>([^<]+)<\/description>/) {

my $recup=$1; #la variable $1 est remplacée par recup

$recup=~s/’/\’/g;

$recup=~s/ »/\ »/g;

$recup=~s/é/é/g;

$recup=~s/ê/ê/g;

print FILEOUTPUT « Contenu de description n° $i: $recup \n »;

$i++;

}

}

close(FILEINPUT);

close(FILEOUTPUT);

print $i++, »\n »;

}

}

}

4) Aller sur le site de Agora ou demander à quelqu’un de Paris 3 d’y aller pour télécharger les fichiers pour le cours de Document structuré de Mr Fleury, et apprendre comment faire des pages en .xml et des feuilles de style.

C’est ce qu’on a fait cette semaine.

Françoise Del Socorro