pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Projet « Multilingue »

Posted in pr-Bilingue (JMD), Projet 2005-2006 by tal-p3 on 15 juin 2006

Les travaux réalisés dans le cadre du projet dit "MULTILINGUE" sont en ligne sur le site du CRIM rubrique "Travaux des étudiants".

1) Un petit lexique français-anglais économique, constitué à partir de documents numériques traduits du français vers l'anglais. Les termes choisis ont été extraits automatiquement à partir de patrons morpho-syntaxiques, puis triés à la main. La traduction anglaise des termes a ensuite été trouvée à partir d'un tableau dans lequel les documents français et anglais ont été alignés.

2) Un extrait de lexique français-estonien de l'environnement, (à ouvrir avec Mozilla de préférence), constitué à partir de documents traduits du français vers l'estonien. L'extraction des candidats-termes s'est faite à partir de patrons morpho-syntaxiques, puis le lexique a été constitué à partir d'un alignement fin du français et de l'estonien.

3) Un lexique français-anglais de la Formule 1, élaboré grâce à des documents bilingues glanés sur les sites "officiels", puis alignés.

(à suivre)

Commentaires fermés sur Projet « Multilingue »

Projet Nuages : Phase 1 / Etape 2 (via Cordial) (par Anne Oganga)

Posted in pr-Nuages (SF), Projet 2005-2006 by tal-p3 on 14 juin 2006

(voir aussi ici)

 

Projet Nuage Etiquetage sous CORDIAL

Oganga anne(master TAL)

Présentation du processus d’étiquetage CORDIAL

FILTRAGE

Extrait des textes des balises description des fils de presse : Le Monde et AFP

Un fichier volumineux divisé en plusieurs sorties.

ETIQUETAGE-CORDIAL

Etiquetage des textes avec cordial

Plusieurs sorties du même fichier-classement du 1-15 ou bien un mois entier. Etiquetage sous Cordial.

Information Mutuelle

Terminologie aux Graphe

Extrait le lemme et sa catégorie sous forme un item par ligne

Mesurer la valeur de l’information mutuelle des termes afin de former un graphe

Extraction des patrons des morpho-syntaxique

(NC[A-Z]+ADJ[A-Z]+)

 

Des textes aux graphes

Entrée fichiers de termes patrons

Sortie :patrons au format graphml

Application une feuille de style pour charger le résultat sous PAJEK pour un graphe

While (<>) {

If (/200[5-6] [A-Z] [a-z] [0-9] [0-9] [0-9] [0-9] [0-9] [0-9] [0-9]+$/) {

Chomp($_);

Print $_;

Print " # " ;

}

}

Ensuite, nous avons lancé la commande d'Egrep pour récupérer la partie ne contenant que les contenus d'un mois, lorsque le fichier était encore trop volumineux sous Cordial, nous avons récupéré seulement celle du 15 jours. Enfin nous avons étiqueté tous les fichiers textes récupérés à l’aide de Cordial qui nous a fait remarquer qu’il n’acceptait que le fichier de moins de 5 M.

Le fichier étiqueté est présenté un mot par ligne avec le paramétrage de l’étiquetage : Lemmes, Abrégé en majuscules sous type grammatical, sans numéroter les phrases, sans codage spécialisé et sans corriger les erreurs. L’étiquetage Cordial est indiqué ainsi : mot lemme patron.

Il n’est pas possible de présenter ce corpus sous forme d’un seul fichier, il est donc découpé en plusieurs fichiers sorties nommés par date.

Voici le programme lancé.

Extractiondes patrons morpho-syntaxiques

A l’aide du programme d’extraction du projet précédent de boites à outils, nous obtenons des fichiers contenants tous les suites de mots correspondant au patron morpho-syntaxique choisi comme Nom + Adj (NC[A-Z]+ ADJ[A-Z]+). Dans cet étape, nous n’avons pas eu de problème dans le processus des traitement. Mais le processus se ralentit à cause des fichiers alourdis, cela nous a consacré beaucoup de temps pour chaque fichier.

Des textes aux graphes

Les extractions patrons obtenus dans l’étape précédent vont être représenté sous forme de graphe. Ce dernier est réalisé sous un logiciel Pajek qui permet de traiter des données de réseau de grande taille.

On transforme les fichiers des patrons morpho-syntaxiques au format graphml à l’aide d’un programme. Ces fichiers graphml sont convertis au format .net grâce à la feuille de style. Pajek est alors utilisé pour former des graphes.

On élabore le graphe d’un patron Nom + Adj pour le mois Décembre 2005.pajek1


Information mutuelle

Nous avons écrit un programme perl afin d’avoir une entrée fichier qui convient pour lancer dans cette partie.

Source : fichiers étiquetés

Voici le programme :

while ($l=<>) {

# récupération des lemmes $1 et leur catégories $2 dans tous les occurrences
if ($l=~/[^\t]+\t([^\t]+)\t([^\t]+)/) {
$a=$1;
$b=$2;
$b=~s/
//g;

# impression d’un tiret bas entre le lemme et sa catégorie
print $a."_".$b;
} <!–[if !supportEmptyParas]–> <!–[endif]–>
if ($l=~/#/) {
<!–[if !supportEmptyParas]–> <!–[endif]–>
# <FinFenetre/> marque les fins des fenêtres
print "<FinFenetre/>\n";
}
}

Nous avons utilisé les programmes fournis pour lancer cette chaîne.

Voici les paramétrages pour obtenir les graphes.

FaitCooccurrencesDansFenetre.pl

<!–[if !supportEmptyParas]–> les catégories Nom commun et Adjectif avec une distance plafond de 2 mots et une cooccurrence plancher de 1.<!–[endif]–>

CooccurrencesDansFenetre2IM.pl

<!–[if !supportEmptyParas]–> une fréquence plancher de 20.

IM2GraphML.pl

<!–[if !supportEmptyParas]–> une distance plafond de 2 et une IM plancher de 3.0

On élabore le graphe de l’information mutuelle avec la valeur ci-dessus pour le décembre 2005.pajek2

Projet Nuages : Phase 1 / Etape 2 (via treetagger) (par H.N)

Posted in pr-Nuages (SF), Projet 2005-2006 by tal-p3 on 1 juin 2006

Présentation du travail ici