le projet multilingue uniquement
J’ai choisi le projet de Jean-Michel Daube parce que c’est le seul projet qui m’intéresse réellement.
Le travail avec des corpus multilingues s’inscrit parfaitement dans le cadre des projets que je voudrais réaliser à l’avenir, à savoir la constitutuion des terminologies multilingues.
Confrontée à des problèmes de traitement des corpus en cyrillique, je serai amenée à les résoudre en découvrant par ailleurs les logiciels de traitement de l’information existants pour la langue russe (équivalents de Lexter, Tree-Tagger, etc).
Qui plus est, n’ayant pas de bonnes connaissances en informatique, je me sens pas vraiment prête à travailler sur les projets demandant certains pre-requis en programmation.
Natalia Kozhina
projet multilingue?
Aussi, point non négligeable – il sera réalisé dans le cadre d’autonomie plus grand que le “mini-projet�, ce qui me réjouit particulièrement.Evguénia Krougovaïa.
pourquoi multilingue
Tsarkova Svetlana
mon choix du grand projet.
JOYEUX NOEL ET BONNE ANNEE
cordialement
SAMIA ACHOURI
Mon premier choix s’est tourné vers le projet NUAGES car il me semble très intéressant même si pour l’instant, je ne sais pas grand chose sur les fils RSS. Je pense que ça peut être une bonne expérience et ça pourrait m’être utile à titre professionnel.
En ce qui concerne mon deuxième choix: MULTILINGUE, comme ça a trait à la traduction, ça m’intéresse dans la mesure où je pourrais faire le rapprochement entre deux langues, le français et ma langue maternelle le malgache.
Joyeux Noël et Bonne Année à tous!
RATSIMBA Hoby
Multilinguisme 05-07
Année 2006-2007
« Alignement multilingue« , le programme AlignAlco :
Année 2005-2006
Les travaux réalisés dans le cadre du projet dit « MULTILINGUE » sont en ligne sur le site du CRIM rubrique « Travaux des étudiants« .
1) Un petit lexique français-anglais économique, constitué à partir de documents numériques traduits du français vers l’anglais. Les termes choisis ont été extraits automatiquement à partir de patrons morpho-syntaxiques, puis triés à la main. La traduction anglaise des termes a ensuite été trouvée à partir d’un tableau dans lequel les documents français et anglais ont été alignés.
2) Un extrait de lexique français-estonien de l’environnement, (à ouvrir avec Mozilla de préférence), constitué à partir de documents traduits du français vers l’estonien. L’extraction des candidats-termes s’est faite à partir de patrons morpho-syntaxiques, puis le lexique a été constitué à partir d’un alignement fin du français et de l’estonien.
Communauté 05/06
La version complète des cours figure sur cette page
(mà j 26.04.2006)
Nuages 05/06
Projet dit Nuages
cf Projet « Fils de Presse » : http://tal.univ-paris3.fr/filspresse/
Préambule
Cette page sera le lieu d’une synthèse « au fil de l’eau » de l’évolution de projet.
Participants
- Y. LAM (yan.lam@free.fr)
- V. PICARD (niny.p@wanadoo.fr)
- A. TRINQUIER (aurelia.trinquier@libertysurf.fr)
- W. Li-Chi (wulucie@yahoo.com.tw)
- E. Chachaty (edch55@yahoo.com)
- Y. Hiard (email)
- H. Ratsimba (hoby.eva@caramail.com)
- V. Ordonez (email)
- Z. Maafa (zamaafabp@yahoo.fr)
- N. Hamri (email)
- S. Achouri (email)
Présentation du projet
- Nuages de mots dans le Fils RSS : (1) présentation du projet (texte+slides) (Mise à jour le 06/12/2005); (2) site du projet
Travaux à réaliser :
- Présentation ici :
https://tal-p3.wordpress.com/2006/03/01/projet-nuages-phase-1/ - ou de manière plus complète dans le document suivant : NUAGES-WIP (format PDF).
Travaux en cours :
- Sur la page « Travaux Projet Nuages«
Annexes (données présentées en Phase 2)
1er jeu de données
Dans la Phase 2, nous utilisons les résultats produits par Lexico3 sur un corpus regroupant l’ensemble des articles de la version électronique (Projet Veille Le Monde) du journal Le Monde sur la période avril 2003 – mars 2006 :
Délimiteurs .,:;!?/_-\ »‘()[]{}§$
nombre des occurrences : 63 356 925
nombre des formes : 440 572
frequence maximale : 3 265 759
nombre des hapax : 182 795
nombre des clés(type) : 5
nombre des clés(ctnu) : 114 391
On donne à voir ci-dessous des graphiques de ventilation de certaines formes graphiques (via Chronofil et ChronoMonde) et des concordances construites via Lexico3. D’autres graphiques de ventilation sont disponibles dans NUAGES-WIP .
- Ventilation et évolution chronologique de la forme aviaire sur le corpus des fils RSS du Monde sur la période 19/11/2005-12/03/2006
- Ventilation et évolution chronologique de la forme chikungunya sur le corpus des fils RSS du Monde sur la période 19/11/2005-12/03/2006
- Ventilation (fréquence absolue) de la forme aviaire sur un corpus regroupant l’ensemble des articles de la version électronique du journal Le Monde sur la période avril 2003 – mars 2006
- Ventilation (fréquence absolue) de la forme chikungunya sur un corpus regroupant l’ensemble des articles de la version électronique du journal Le Monde sur la période avril 2003 – mars 2006
- Concordance de la famille de formes autour de aviaire dans le corpus regroupant les versions électroniques du journal Le Monde (avril 2003 – mars 2006) (regroupement par mois)
- Concordance de la famille de formes autour de chikungunya dans le corpus regroupant les versions électroniques du journal Le Monde (avril 2003 – mars 2006) (regroupement par mois)
- Concordance de la famille de formes autour de aviaire dans le corpus regroupant les versions électroniques du journal Le Monde (avril 2003 – mars 2006) (regroupement par rubrique)
- Concordance de la famille de formes autour de chikungunya dans le corpus regroupant les versions électroniques du journal Le Monde (avril 2003 – mars 2006) (regroupement par rubrique)
Les concordances fournissent, sur l’emploi d’une forme donnée, une vision plus synthétique que celle qui résulte de la lecture séquentielle. En particulier, elles permettent d’étudier plus facilement les rapports qui peuvent exister entre les différents contextes d’une même forme [L. Lebart, A. Salem, Statistique Textuelle, DUNOD, 1994 (p. 54)]
2ème jeu de données
On donne à voir ci-dessous les résultats produits par Lexico3 sur un corpus issu du précédent (le corpus Monde complet) et résultant de l’extraction de tous les articles contenant une chaîne de caractères couverte par l’expression régulière suivante : (aviaire|chikungunya ).
Délimiteurs .,:;!?/_-\ »‘()[]{}§$
nombre des occurrences : 241 189
nombre des formes : 20 785
frequence maximale : 14 047
nombre des hapax : 10 068
- Principales caractéristiques de la partition : MOIS
- Principales caractéristiques de la partition : RUBRIQUE
- Graphique de ventilation pour la partition : MOIS (1) (la forme aviaire, partition MOIS, fréquence relative)
- Graphique de ventilation pour la partition : MOIS (2) (la forme aviaire, partition MOIS, fréquence absolue)
- Graphique de ventilation pour la partition : MOIS (3) (la forme aviaire, partition MOIS, spécificité)
- Graphique de ventilation pour la partition : MOIS (4) (la forme chikungunya , partition MOIS, fréquence relative)
- Graphique de ventilation pour la partition : MOIS (5) (la forme chikungunya , partition MOIS, fréquence absolue)
- Graphique de ventilation pour la partition : MOIS (6) (la forme chikungunya , partition MOIS, spécificité)
- Graphique de ventilation pour la partition : MOIS (7) (les formes aviaireet chikungunya , partition MOIS, fréquence relative)
- Graphique de ventilation pour la partition : MOIS (8) (les formes aviaireet chikungunya , partition MOIS, fréquence absolue)
- Graphique de ventilation pour la partition : MOIS (9) (les formes aviaireet chikungunya , partition MOIS, spécificité)
- Segments répétés (liste complète avec fréquence)
- Sections découpées d’après le délimiteur: § – vue n°1(1) (un carré = 1 article, projection de la forme aviaire(carré bleu) et de la forme chikungunya (carré rouge)
- Sections découpées d’après le délimiteur: § – vue n°1(2) (idem avec marquage chronologique, partition MOIS)
- Spécifs – Sections (1) (les cooccurrents de la forme chikungunya : formes + segments)
- Spécifs – Sections (2) (les cooccurrents de la forme aviaire: formes + segments)
Précisions sur les 2 derniers résultats :
Mots spécifiques dans les sections contenant un mot de la famille aviaire dans un cas et chikungunya dans l’autre (i.e. les co-occurrents de chacun). A partir de la carte des sections (résultat 13), on demande à Lexico3 de rechercher les mots spécifiques contenus dans l’ensemble des carrés bleus, c’est à dire qu’on lui demande de rechercher les mots spécifiques dans les sections qui contiennent la forme aviaire. On obtient une liste de mots qui portent soit un indice de spécificité positif soit un indice de spécificité négatif, dans le premier cas, on aboutit en gros à une liste des co-occurrents des mots de la famille aviaire, dans le second cas on obtient des mots qui n’apparaissent pas avec cette famille de mots. Idem avec les carrés rouges pour chikungunya .
(spécificité positive – (sp) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique positive de la partie j (ou forme caractéristique* de cette partie) si sa sous-fréquence est « anormalement élevée » dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou supérieures à la sous-fréquence constatée est inférieure au seuil fixé au départ.
spécificité négative – (sp) pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique négative de la partie j si sa sous-fréquence est anormalement faible dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou inférieures à la sous-fréquence constatée est inférieure au seuil fixé au départ. L. Lebart, A. Salem, Statistique Textuelle, DUNOD, 1994)
Liens externes
- Page du projet « Fils de Presse«
- TagCloud Le_Monde
(cf Fils de Presse) - ZoomCloud Le_Monde-Une
(cf Fils de Presse)
Projet Nuages : ChronoFil/ChronoMonde
cf Projet Nuages du module « Programmation et projet encadré« , MASTER TAL 2005-2006 (cf présentation du Projet Nuages)
Dans la cadre de ce projet, mise en place de 2 modules, ChronoFil et ChronoMonde :
ChronoFil construit une représentation graphique de l’évolution d’un mot dans les Fils de Presse archivés par le module du même nom dans le projet Fils de Presse
ChronoMonde construit une représentation graphique de l’évolution d’un mot dans la version électronique du journal Le Monde, [période : Avril 2003 – Décembre 2005] (cf Projet CLM)
Les deux applications fonctionnent sur le même principe : une interface WEB, une zone de saisie pour entrer le mot visé (en MAJUSCULE), en sortie les graphiques de ventilation.
Interface (provisoire) des 2 applications :
Exemples de sorties : Examen de la ventilation de la forme LAICITE :
Figure 1 : LAICITE dans le Fil AFP (ventilation du mot par heure)
Figure 2 : LAICITE dans le Fil le Monde (SURFACE) (ventilation du mot par heure)
Figure 3 : LAICITE dans le Monde (PROFOND) (ventilation du mot par jour)
Liens : Projet Fils de Presse, Projet ChronoFil et ChronoMonde (accès restreint provisoire pour les membres du projet NUAGES. Open Access en 2006 sur un serveur dédié.)
Rencontre PluriTAL, 10 décembre 2005
Rencontre « PluriTAL » : Le 10 décembre 2005, de 10h à 13h, Salle Brunot, ILPGA, 19 rue des Bernardins, 75005 Paris. Programme : format PDF
Objectif : faire le point, avec des professionnels du secteurs TAL et des étudiants ayant suivi des cursus équivalents, sur les débouchés offerts par nos formations mais aussi sur leurs insuffisances éventuelles et les possibilités de les améliorer.
Première partie : Quelques métiers de l’ingénierie linguistique
- Gilles MONTIER (TEMIS), Solutions d’entreprise. TEMIS : solutions d’entreprise
- Cédric RABIET (STAR), Logiciels de TAO.
- Henry BOCCON-GIBOD (EDF), Terminologie et TAL. « EDF et TAL », « Linguistique et Entreprise »
Deuxième partie : Quelques parcours après formation
- Christelle Ayache (ELDA). Les métiers du TAL : journée PluriTAL
- Ségolène Baron (Covalys).
- Anne-Laure Guénet (Keyrus).
- Hélène Steichen (Item).
Présentation des projets (mà j)
(cf billet précédent)
Les présentations des 3 projets du module « Programmation et projet encadré » sont désormais disponibles :
Accessibles sur la page du cours :
http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/masterproj.htm
Liens directs :
– Projet Multilingue (JMD)
– Projet Communauté (BH)
– Projet Nuages (SF)
On en reparle demain.
Commentaires fermés sur Présentation des projets (mà j)
Travaux sur projet « barrage »
(Rappel : présentation du projet sur la page du cours http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/masterproj.htm. Clôture le 02.12.2005)
Les premiers travaux arrivent dans nos boites.
Ces travaux seront :
- visibles sur le site pluriTAL : page Master -> rubrique Travaux 2005-2006 -> page Module « Programmation et projet encadré », le lien direct est ici
- ou accessibles à partir de la page du cours : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/masterproj.htm (rubrique : Projets « barrage » : travaux réalisés )
SF
Commentaires fermés sur Travaux sur projet « barrage »
leave a comment