pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

le projet multilingue uniquement

Posted in pr-Bilingue (JMD), Projet 2005-2006 by tal-p3 on 15 décembre 2005

J’ai choisi le projet de Jean-Michel Daube parce que c’est le seul projet qui m’intéresse réellement.
Le travail avec des corpus multilingues s’inscrit parfaitement dans le cadre des projets que je voudrais réaliser à l’avenir, à savoir la constitutuion des terminologies multilingues.
Confrontée à des problèmes de traitement des corpus en cyrillique, je serai amenée à les résoudre en découvrant par ailleurs les logiciels de traitement de l’information existants pour la langue russe (équivalents de Lexter, Tree-Tagger, etc).
Qui plus est, n’ayant pas de bonnes connaissances en informatique, je me sens pas vraiment prête à travailler sur les projets demandant certains pre-requis en programmation.
Natalia Kozhina

projet multilingue?

Posted in pr-Bilingue (JMD), Projet 2005-2006 by tal-p3 on 15 décembre 2005
Ce projet correspond plus au programme du DESS “Traductique et Gestion d’information?, et prend en compte les pré-recquis de ses étudiants. (Les autres projets paraissent intéressants également, bien sûr, mais seraient disproportionnellement ambitieux à ce stade de notre année scolaire…). Ce sera un bon exercice pour pratiquer le traitement des ressources textuelles collectées sur le web et leur structuration.
Aussi, point non négligeable – il sera réalisé dans le cadre d’autonomie plus grand que le “mini-projet?, ce qui me réjouit particulièrement.Evguénia Krougovaïa.

pourquoi multilingue

Posted in Projet 2005-2006 by tal-p3 on 15 décembre 2005
J’ai porté mon premier choix sur le projet “multilingue? pour son ouverture sur le traitement informatique des données linguistiques (notamment, sur des corpus de traductions parallèles) et parce qu’il permet de produire des ressources textuelles en plus d’une seule langue.

Tsarkova Svetlana

mon choix du grand projet.

Posted in pr-Bilingue (JMD), Projet 2005-2006 by tal-p3 on 15 décembre 2005
J’ai opté pour le projet multilingue parce que la langue française est la source et une autre langue pourrait me servir pour la traduction à titre d’exemple l’arabe ou le berbere qui étaient et sont en contact avec le français.

JOYEUX NOEL ET BONNE ANNEE

noel

cordialement

SAMIA ACHOURI

Posted in Projet 2005-2006 by tal-p3 on 15 décembre 2005

Mon premier choix s’est tourné vers le projet NUAGES car il me semble très intéressant même si pour l’instant, je ne sais pas grand chose sur les fils RSS. Je pense que ça peut être une bonne expérience et ça pourrait m’être utile à titre professionnel.

En ce qui concerne mon deuxième choix: MULTILINGUE, comme ça a trait à la traduction, ça m’intéresse dans la mesure où je pourrais faire le rapprochement entre deux langues, le français et ma langue maternelle le malgache.

Joyeux Noël et Bonne Année à tous!

RATSIMBA Hoby

Multilinguisme 05-07

Posted in by tal-p3 on 15 décembre 2005

Année 2006-2007

« Alignement multilingue« , le programme AlignAlco :

Année 2005-2006

Les travaux réalisés dans le cadre du projet dit « MULTILINGUE » sont en ligne sur le site du CRIM rubrique « Travaux des étudiants« .

1) Un petit lexique français-anglais économique, constitué à partir de documents numériques traduits du français vers l’anglais. Les termes choisis ont été extraits automatiquement à partir de patrons morpho-syntaxiques, puis triés à la main. La traduction anglaise des termes a ensuite été trouvée à partir d’un tableau dans lequel les documents français et anglais ont été alignés.

2) Un extrait de lexique français-estonien de l’environnement, (à ouvrir avec Mozilla de préférence), constitué à partir de documents traduits du français vers l’estonien. L’extraction des candidats-termes s’est faite à partir de patrons morpho-syntaxiques, puis le lexique a été constitué à partir d’un alignement fin du français et de l’estonien.

Communauté 05/06

Posted in by tal-p3 on 15 décembre 2005

La version complète des cours figure sur cette page

(màj 26.04.2006)

Nuages 05/06

Posted in by tal-p3 on 15 décembre 2005

Projet dit Nuages

cf Projet « Fils de Presse » : http://tal.univ-paris3.fr/filspresse/

Préambule

Cette page sera le lieu d’une synthèse « au fil de l’eau » de l’évolution de projet.

Participants

  • Y. LAM (yan.lam@free.fr)
  • V. PICARD (niny.p@wanadoo.fr)
  • A. TRINQUIER (aurelia.trinquier@libertysurf.fr)
  • W. Li-Chi (wulucie@yahoo.com.tw)
  • E. Chachaty (edch55@yahoo.com)
  • Y. Hiard (email)
  • H. Ratsimba (hoby.eva@caramail.com)
  • V. Ordonez (email)
  • Z. Maafa (zamaafabp@yahoo.fr)
  • N. Hamri (email)
  • S. Achouri (email)

Présentation du projet

Travaux à réaliser :

 

Travaux en cours :

 

Annexes (données présentées en Phase 2)

1er jeu de données

Dans la Phase 2, nous utilisons les résultats produits par Lexico3 sur un corpus regroupant l’ensemble des articles de la version électronique (Projet Veille Le Monde) du journal Le Monde sur la période avril 2003 – mars 2006 :

Délimiteurs .,:;!?/_-\ »‘()[]{}§$

nombre des occurrences : 63 356 925
nombre des formes : 440 572
frequence maximale : 3 265 759
nombre des hapax : 182 795
nombre des clés(type) : 5
nombre des clés(ctnu) : 114 391

On donne à voir ci-dessous des graphiques de ventilation de certaines formes graphiques (via Chronofil et ChronoMonde) et des concordances construites via Lexico3. D’autres graphiques de ventilation sont disponibles dans NUAGES-WIP .

Les concordances fournissent, sur l’emploi d’une forme donnée, une vision plus synthétique que celle qui résulte de la lecture séquentielle. En particulier, elles permettent d’étudier plus facilement les rapports qui peuvent exister entre les différents contextes d’une même forme [L. Lebart, A. Salem, Statistique Textuelle, DUNOD, 1994 (p. 54)]

2ème jeu de données

On donne à voir ci-dessous les résultats produits par Lexico3 sur un corpus issu du précédent (le corpus Monde complet) et résultant de l’extraction de tous les articles contenant une chaîne de caractères couverte par l’expression régulière suivante : (aviaire|chikungunya ).

Délimiteurs .,:;!?/_-\ »‘()[]{}§$

nombre des occurrences : 241 189
nombre des formes : 20 785
frequence maximale : 14 047
nombre des hapax : 10 068

  1. Principales caractéristiques de la partition : MOIS
  2. Principales caractéristiques de la partition : RUBRIQUE
  3. Graphique de ventilation pour la partition : MOIS (1) (la forme aviaire, partition MOIS, fréquence relative)
  4. Graphique de ventilation pour la partition : MOIS (2) (la forme aviaire, partition MOIS, fréquence absolue)
  5. Graphique de ventilation pour la partition : MOIS (3) (la forme aviaire, partition MOIS, spécificité)
  6. Graphique de ventilation pour la partition : MOIS (4) (la forme chikungunya , partition MOIS, fréquence relative)
  7. Graphique de ventilation pour la partition : MOIS (5) (la forme chikungunya , partition MOIS, fréquence absolue)
  8. Graphique de ventilation pour la partition : MOIS (6) (la forme chikungunya , partition MOIS, spécificité)
  9. Graphique de ventilation pour la partition : MOIS (7) (les formes aviaireet chikungunya , partition MOIS, fréquence relative)
  10. Graphique de ventilation pour la partition : MOIS (8) (les formes aviaireet chikungunya , partition MOIS, fréquence absolue)
  11. Graphique de ventilation pour la partition : MOIS (9) (les formes aviaireet chikungunya , partition MOIS, spécificité)
  12. Segments répétés (liste complète avec fréquence)
  13. Sections découpées d’après le délimiteur: § – vue n°1(1) (un carré = 1 article, projection de la forme aviaire(carré bleu) et de la forme chikungunya (carré rouge)
  14. Sections découpées d’après le délimiteur: § – vue n°1(2) (idem avec marquage chronologique, partition MOIS)
  15. Spécifs – Sections (1) (les cooccurrents de la forme chikungunya : formes + segments)
  16. Spécifs – Sections (2) (les cooccurrents de la forme aviaire: formes + segments)

Précisions sur les 2 derniers résultats :
Mots spécifiques dans les sections contenant un mot de la famille aviaire dans un cas et chikungunya dans l’autre (i.e. les co-occurrents de chacun). A partir de la carte des sections (résultat 13), on demande à Lexico3 de rechercher les mots spécifiques contenus dans l’ensemble des carrés bleus, c’est à dire qu’on lui demande de rechercher les mots spécifiques dans les sections qui contiennent la forme aviaire. On obtient une liste de mots qui portent soit un indice de spécificité positif soit un indice de spécificité négatif, dans le premier cas, on aboutit en gros à une liste des co-occurrents des mots de la famille aviaire, dans le second cas on obtient des mots qui n’apparaissent pas avec cette famille de mots. Idem avec les carrés rouges pour chikungunya .
(spécificité positive – (sp) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique positive de la partie j (ou forme caractéristique* de cette partie) si sa sous-fréquence est « anormalement élevée » dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou supérieures à la sous-fréquence constatée est inférieure au seuil fixé au départ.
spécificité négative – (sp) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique négative de la partie j si sa sous-fréquence est anormalement faible dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou inférieures à la sous-fréquence constatée est inférieure au seuil fixé au départ.
L. Lebart, A. Salem, Statistique Textuelle, DUNOD, 1994)

Liens externes

Projet Nuages : ChronoFil/ChronoMonde

Posted in Fil(s) de Presse, pr-Nuages (SF), Projet 2005-2006 by tal-p3 on 11 décembre 2005

cf Projet Nuages du module « Programmation et projet encadré« , MASTER TAL 2005-2006 (cf présentation du Projet Nuages)
Dans la cadre de ce projet, mise en place de 2 modules, ChronoFil et ChronoMonde :
ChronoFil construit une représentation graphique de l’évolution d’un mot dans les Fils de Presse archivés par le module du même nom dans le projet Fils de Presse
ChronoMonde construit une représentation graphique de l’évolution d’un mot dans la version électronique du journal Le Monde, [période : Avril 2003 – Décembre 2005] (cf Projet CLM)
Les deux applications fonctionnent sur le même principe : une interface WEB, une zone de saisie pour entrer le mot visé (en MAJUSCULE), en sortie les graphiques de ventilation.
Interface (provisoire) des 2 applications :

Exemples de sorties : Examen de la ventilation de la forme LAICITE :

Figure 1 : LAICITE dans le Fil AFP (ventilation du mot par heure)

Figure 2 : LAICITE dans le Fil le Monde (SURFACE) (ventilation du mot par heure)


Figure 3 : LAICITE dans le Monde (PROFOND) (ventilation du mot par jour)

Liens : Projet Fils de Presse, Projet ChronoFil et ChronoMonde (accès restreint provisoire pour les membres du projet NUAGES. Open Access en 2006 sur un serveur dédié.)

Rencontre PluriTAL, 10 décembre 2005

Posted in pluriTAL by tal-p3 on 10 décembre 2005

Rencontre « PluriTAL » : Le 10 décembre 2005, de 10h à 13h, Salle Brunot, ILPGA, 19 rue des Bernardins, 75005 Paris. Programme : format PDF

Objectif : faire le point, avec des professionnels du secteurs TAL et des étudiants ayant suivi des cursus équivalents, sur les débouchés offerts par nos formations mais aussi sur leurs insuffisances éventuelles et les possibilités de les améliorer.

Première partie : Quelques métiers de l’ingénierie linguistique

Deuxième partie : Quelques parcours après formation

Présentation des projets (màj)

Posted in Projet 2005-2006 by tal-p3 on 30 novembre 2005

(cf billet précédent)

Les présentations des 3 projets du module « Programmation et projet encadré » sont désormais disponibles :
Accessibles sur la page du cours :
http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/masterproj.htm

Liens directs :
Projet Multilingue (JMD)
Projet Communauté (BH)
Projet Nuages (SF)

On en reparle demain.

Commentaires fermés sur Présentation des projets (màj)

Travaux sur projet « barrage »

Posted in Projet 2005-2006 by tal-p3 on 30 novembre 2005

(Rappel : présentation du projet sur la page du cours http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/masterproj.htm. Clôture le 02.12.2005)

Les premiers travaux arrivent dans nos boites.

Ces travaux seront :

  • visibles sur le site pluriTAL : page Master -> rubrique Travaux 2005-2006 -> page Module « Programmation et projet encadré », le lien direct est ici

SF

Commentaires fermés sur Travaux sur projet « barrage »