Projet « Multilingue »
Les travaux réalisés dans le cadre du projet dit "MULTILINGUE" sont en ligne sur le site du CRIM rubrique "Travaux des étudiants".
1) Un petit lexique français-anglais économique, constitué à partir de documents numériques traduits du français vers l'anglais. Les termes choisis ont été extraits automatiquement à partir de patrons morpho-syntaxiques, puis triés à la main. La traduction anglaise des termes a ensuite été trouvée à partir d'un tableau dans lequel les documents français et anglais ont été alignés.
2) Un extrait de lexique français-estonien de l'environnement, (à ouvrir avec Mozilla de préférence), constitué à partir de documents traduits du français vers l'estonien. L'extraction des candidats-termes s'est faite à partir de patrons morpho-syntaxiques, puis le lexique a été constitué à partir d'un alignement fin du français et de l'estonien.
3) Un lexique français-anglais de la Formule 1, élaboré grâce à des documents bilingues glanés sur les sites "officiels", puis alignés.
(à suivre)
Projet Nuages : Phase 1 / Etape 2 (via Cordial) (par Anne Oganga)
Projet Nuage Etiquetage sous CORDIAL
Oganga anne(master TAL)
Présentation du processus d’étiquetage CORDIAL
FILTRAGEExtrait des textes des balises description des fils de presse : Le Monde et AFP Un fichier volumineux divisé en plusieurs sorties. |
ETIQUETAGE-CORDIALEtiquetage des textes avec cordial Plusieurs sorties du même fichier-classement du 1-15 ou bien un mois entier. Etiquetage sous Cordial. |
Information Mutuelle |
Terminologie aux Graphe |
Extrait le lemme et sa catégorie sous forme un item par ligne Mesurer la valeur de l’information mutuelle des termes afin de former un graphe |
Extraction des patrons des morpho-syntaxique (NC[A-Z]+ADJ[A-Z]+)
Des textes aux graphes Entrée fichiers de termes patrons Sortie :patrons au format graphml Application une feuille de style pour charger le résultat sous PAJEK pour un graphe |
While (<>) {
If (/200[5-6] [A-Z] [a-z] [0-9] [0-9] [0-9] [0-9] [0-9] [0-9] [0-9]+$/) {
Chomp($_);
Print $_;
Print " # " ;
}
}
Ensuite, nous avons lancé la commande d'Egrep pour récupérer la partie ne contenant que les contenus d'un mois, lorsque le fichier était encore trop volumineux sous Cordial, nous avons récupéré seulement celle du 15 jours. Enfin nous avons étiqueté tous les fichiers textes récupérés à l’aide de Cordial qui nous a fait remarquer qu’il n’acceptait que le fichier de moins de 5 M.
Le fichier étiqueté est présenté un mot par ligne avec le paramétrage de l’étiquetage : Lemmes, Abrégé en majuscules sous type grammatical, sans numéroter les phrases, sans codage spécialisé et sans corriger les erreurs. L’étiquetage Cordial est indiqué ainsi : mot lemme patron.
Il n’est pas possible de présenter ce corpus sous forme d’un seul fichier, il est donc découpé en plusieurs fichiers sorties nommés par date.
Voici le programme lancé.
Extractiondes patrons morpho-syntaxiques
A l’aide du programme d’extraction du projet précédent de boites à outils, nous obtenons des fichiers contenants tous les suites de mots correspondant au patron morpho-syntaxique choisi comme Nom + Adj (NC[A-Z]+ ADJ[A-Z]+). Dans cet étape, nous n’avons pas eu de problème dans le processus des traitement. Mais le processus se ralentit à cause des fichiers alourdis, cela nous a consacré beaucoup de temps pour chaque fichier.
Des textes aux graphes
Les extractions patrons obtenus dans l’étape précédent vont être représenté sous forme de graphe. Ce dernier est réalisé sous un logiciel Pajek qui permet de traiter des données de réseau de grande taille.
On transforme les fichiers des patrons morpho-syntaxiques au format graphml à l’aide d’un programme. Ces fichiers graphml sont convertis au format .net grâce à la feuille de style. Pajek est alors utilisé pour former des graphes.
On élabore le graphe d’un patron Nom + Adj pour le mois Décembre 2005.pajek1
Information mutuelle
Nous avons écrit un programme perl afin d’avoir une entrée fichier qui convient pour lancer dans cette partie.
Nous avons utilisé les programmes fournis pour lancer cette chaîne.
Voici les paramétrages pour obtenir les graphes.
FaitCooccurrencesDansFenetre.pl
<!–[if !supportEmptyParas]–> les catégories Nom commun et Adjectif avec une distance plafond de 2 mots et une cooccurrence plancher de 1.<!–[endif]–>
CooccurrencesDansFenetre2IM.pl
<!–[if !supportEmptyParas]–> une fréquence plancher de 20.
IM2GraphML.pl
<!–[if !supportEmptyParas]–> une distance plafond de 2 et une IM plancher de 3.0
On élabore le graphe de l’information mutuelle avec la valeur ci-dessus pour le décembre 2005.pajek2
Projet Nuages : Phase 1 / Etape 2 (via treetagger) (par H.N)
Présentation du travail ici
Commentaires fermés sur Projet « Multilingue »