pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Lexico 3 – quelques résumés

Posted in pluriTAL by pluritaluser on 21 mars 2009

Cours de Mr Salem:

On doit rassembler un corpus de textes autour d’un sujet de notre choix.

On peut rassembler un corpus de type:

*texte source – traduction. Ex de balisage: <titre=La theorie de l’évolution><langue=fr><date de publication=1969><auteur=Charles Darwin>

*corpus chronologique: où on étudiera par exemple l’évolution de l’emploi du mot crise dans le journal Le Monde . Ex de balisage: <annee=1998><lieu=Toulouse><jour=01><mois=01>

*corpus des interventions d’un chef d’état.

En tout cas on a:

<partie=1>s’oppose à<partie=2>

Il faut chercher des corpus semblables pour ne pas avoir à comparer un troupeau d’éléphants et un troupeau de mouches. La taille du corpus dépend de la quantité de redondance que vous avez, si vous avez beaucoup de motifs répétés dans un petit corpus ça va, sinon il vaut mieux avoir un grand corpus pour les études statistiques.

D’après le Trésor de la langue Française Informatisé: http://atilf.atilf.fr/

lexicométrie, (dans l’article -MÉTRIE, élém. formant)
C. [Le 1er élém. est d’orig. fr.] V. économétrie, granulométrie, sensorimétrie, volumétrie et aussi:
lexicométrie, lexicol. Étude statistique du vocabulaire; science qui étudie la répartition du vocabulaire dans le discours. La lexicologie quantitative, ou lexicométrie, permet une approche réductionniste, interne et, partiellement, explicative (D. DUGAST, Vocab. et styl., Genève, éd. Slatkine, t.1, 1979, p.43).

Sur internet il y a beaucoup de possibilités.

Regarder les travaux des élèves sur le site de Lexico 3:

Rp d’analyse > sommaire des explorations > regarder les travaux des étudiants

Si on veut faire de l’alignement, Mr Salem et Mr Gerdes nous ont conseillé le logiciel mkalign de Serge fleury. Où est le logiciel Mr Fleury ?

il est ici : http://tal.univ-paris3.fr/mkAlign/

Le programme mkAlign permet de construire, corriger et visualiser un alignement de deux textes via un éditeur à double entrée. Il permet d’afficher simultanément les textes source et cible pour y rajouter ou corriger des segments équivalents. Ce programme n’est pas (seulement) un aligneur automatique. Il est conçu pour aider l’utilisateur dans la création, l’alignement, la correction et la validation de textes traduits. L’utilisateur garde la maîtrise sur l’ensemble de ces processus, depuis la mise en correspondance initiale des segments équivalents jusqu’à l’export final du bi-texte produit. Il appartient à l’utilisateur de construire l’alignement et de définir son degré de précision (résolution). Cette résolution peut varier pour mettre en évidence les correspondances entre les segments textuels des différents niveaux. La notion de sauvegarde de session de travail (création de fichiers d’export/import de bi-textes au format xml et html) permet de commencer le travail sur un corpus à deux volets textuels, l’exporter au format désiré, puis le réimporter plus tard pour y apporter des modifications. La visualisation de l’alignement dans une représentation cartographique (bi-text map) offre plusieurs possibilités de gestion de corpus qui partagent des similitudes au plan traductionnel.

Cours de Mr Gerdes:

Il faut choisir les mots qu’on veut étudier.

Une collocation est une sorte de structure sémi-idiomatique, un mot qui n’a pas son sens propre mais qui modifie le sens d’un autre mot.

D’après le Trésor de la langue Française Informatisé: http://atilf.atilf.fr/

COLLOCATION, subst. fém.
b) LING. Emploi d’un terme relativement à d’autres, toutes variantes morphologiques confondues, et sans égard à la classe grammaticale. Les noms de fruit comme pomme, orange, poire, pêche (…) se trouvent en collocation fréquente avec dessert, manger, doux, fruit, etc. (HALLIDAY, Ét. de ling. appliquée, t. 1, 1962, p. 22).

Rem. 1. L’acception ling. appartient à l’école angl., qui rapporte le sens d’un terme à l’emploi du terme. 2. Hapax collocage, subst. masc., avec le sens d’hébergement. Je compte toujours sur tes bienveillants efforts en ma faveur pour collocage mien éventuel ès asile honorable et petits ménages déguisés (VERLAINE, Correspondance, t. 1, 1888, p. 220).

Exemples de collocations:

Prenons le syntagme  » un fumeur  » en français.

français: il est un gros fumeur

anglais: he is a heavy smoker

Prenons des verbes support comme prendre ou faire:

  • prendre + une décision

  • to make + a decision

  • faire + une sieste

D’après http://infolingu.univ-mlv.fr/DonneesLinguistiques/Lexiques-Grammaires/PhrasesVsup.html

« Phrases à verbe support

Le lexique-grammaire recense, en grandeur réelle, les structures syntaxiques élémentaires. Les sens sont soigneusement distingués. La phrase élémentaire est l’unité minimale d’étude. Un jeu de transformations syntaxiques facilite la description des variations entre structures.

Dans les phrases à verbe support, ce n’est pas le verbe qui remplit la fonction de prédicat de la phrase, mais un nom prédicatif (Luc monte une attaque contre le fort), un adjectif prédicatif (Luc est fidèle à ses idées), etc. La distribution du sujet et éventuellement des compléments essentiels dépend de cet élément prédicatif.

Le verbe support est souvent un petit verbe fréquent : avoir, être, faire, prendre … mais il peut aussi contribuer au sens de la phrase : Luc multiplie les attaques contre le fort. Une construction à verbe support est toujours reliée à des constructions dans lesquelles le verbe support n’apparaît pas : Max assiste à l’attaque de Luc contre le fort ; Luc, fidèle à ses idées, relève le défi.

En français, plusieurs dizaines de tables décrivent certaines catégories de phrases nominales et adjectivales à verbe support.

Visualisation des tables de noms prédicatifs du français

Maintenance de cette page : Éric Laporte  »

Le calcul des spécificités permet de mesurer à quel degré c’est étonnant, surprenant, de trouver tel mot dans un sous-corpus?

Le calcul des anti-spécificités permet de mesurer les mots qui apparaissent moins souvent dans un sous-corpus. Par exemple on ne trouve pas souvent « ferait » mais on trouve souvent « faire », on trouve souvent  » monter  » quand on a « cheval » mais on ne trouve pas souvent « monte ».

Soit un sous-corpus avec les mots: sieste, sieste et les mots: panneau, panneau, panneau.

Quelle est la probabilité qu’on ai plus de une fois panneau dans le contexte de sieste ?

Sous-corpus: panneau, panneau, faire, faire

Sous-corpus sélectionné: panneau, panneau, faire, faire, sieste, faire, faire, sieste, panneau

On peut par exemple calculer les spécificités de chaque chapitre du livre si tous les chapitres étaient égaux.

On peut aussi regarder les mots qui sont difficiles à traduire en anglais comme « dérogation » ou « fonctionnaire » en faisant des corpus alignés pour voir:

-tous les paragraphes où le mot « fonctionnaire » apparaît en français

-tous les paragraphes en anglais où il y a la traduction du mot « fonctionnaire »

Puis calculer les spécificités du sous-corpus et déduire que on traduit le plus souvent en anglais « fonctionnaire » par « official », qui est le mot le plus pertinent.

Puis calculer les spécificités négatives et déduire que « agent » en anglais, mot qui n’est pas le mot « official », s’emploie lorsque on trouve souvent le mot « policial » autour.

Lorsque on a différentes traductions dans différents contextes mais pas une meilleure traduction, on peut rajouter plusieurs traductions dans son dictionnaire.

Au niveau des applications de Lexico 3, il y en a dans tous les domaines:

-Il existe des systèmes de traduction automatiques bilingues qui regardent le contexte des mots.

-Les sciences humaines sont en train de changer à cause des outils qui nous permettent d’avoir des mesures de répétition.

-Il existe des sociologues qui utilisent Lexico 3 pour se demander si la violence à l’école est une création médiatique ou un fait réel ?

Indépendamment des statistiques, on remarque que c’est juste avant les élections que ça augmente: Donc il s’agit d’une création médiatique plus que d’un fait réel, et donc d’une manipulation, on peut montrer que ce n’est pas le reflet de la violence à l’école, mais on ne sait pas si la médiatisation est consciente, inconsciente ou due au hasard.

En tout cas pour faire des études statistiques il vaut mieux avoir un grand corpus.

Conseils personnels pour utiliser lexico3:

Remplacer tous les – > par un mot comme « implique » par exemple. Car il ne faut pas avoir de frontière de balise ouvrante ni fermante dans un texte qui va être traité par Lexico3 qui reconnaît les balises. Rappel: > supérieur à, < inférieur à.

Faire Nouvelle base (segmentation) si vous mettez pour la première fois votre corpus en format nomducorpus.txt dans Lexico3 ou faire ouvrir > nomdefichier.par si vous l’avez déjà ouvert au moins une fois dans Lexico3.

Vos balises sont surlignées en jaune fluo.

Regarder tous les fichiers dont le .dic qu’il crée dans le répertoire où se situe le fichier que vous avez ouvert.

Quelques boutons:

-Concordances > changement de fenêtre.

-Groupe de formes > changement de fenêtre.

-Segments répétés > vous pouvez changer la fréquence minimale (seuil) de répétition attendue en réponse > cliquer sur le nouvel onglet.

-Statistiques par partie > choix de la partition: en fonction de la partie gauche de vos balises

Ouvrir avec le petit carré la petite fenêtre fermée en bas ou si vous ne la voyez pas, cliquez sur Mosaïque pour accéder aux statistiques par partie.

-Avec shift + sélection j’arrive à sélectionner les parties qui vont être comparées aux parties non sélectionnées.

-Spécifs donne les spécificités positives (case à cocher) ou négatives (case à cocher) des parties sélectionnées par rapport aux autres parties.

Pour sauvegarder vos résultats en .html (vous pouvez éditer ensuite votre .html en l’ouvrant avec notepad++ si il y a des erreurs pour ne pas avoir à tout recommencer):

  • Lorsque ce qu’il y a sur la fenêtre principale vous intéresse, cliquer sur le bouton: ajouter au rapport.

  • Lorsque ce qu’il y a à gauche vous intéresse, cliquer sur le bouton: ajouter au rapport.

  • Cliquez sur l’onglet « Rapport » à gauche > en bas sur la disquette: enregistrer.

  • Votre page web s’appelle index.htm et elle est placé dans l’endroit de votre choix dans un dossier avec le nom du corpus et plein de numéros. Renommez l’index avec l’option renommer de windows, et changez le contenu avec notepad++ ou votre éditeur html.

  • Pour quitter: c’est la porte « quitter ».

C’est tout ce que je sais, le reste je ne connais pas.

Françoise Del Socorro

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :