pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

séance 4 – équipe Navigations – Mac MIMMSCY Team (Véronis flavour)

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 28 avril 2007

Axes du projet

Observations sur la forme ‘pacte’

 

– observer les cooccurrences de pacte dans le corpus général d’une part (Le Monde surface-bis), sur les corpus Présidentielles et Discours d’autre part

– observer les collocations et les segments répétés, dont on peut tirer:

 

  • graphes en fonction des candidats
    • qui en parle
    • qui en a introduit l’usage
    • etc…
  • graphes en fonction des sections temporelles
    • par semaine
    • par mois
    • etc…

Nous avons aussi commencé à regarder, dans le corpus Discours, les graphes de fréquences (relatives et absolues) pour les formes pacte, programme et projet, en fonction des candidats [Bayrou, Bové, Buffet, Laguiller, Le Pen, Royal, Sarkozy, Voynet], mais aussi en recoupant les candidats et les dates en fonction des formes.

 

Résonances entre les différents états de corpus

Y aura-t-il des phénomènes identifiables d’un état d’un corpus à l’autre, à partir de ce qui aura pu être trouvé dans la phase d’observations sur les formes?

Nuages de mots

– constituer des nuages de mots en fonction des candidats, à partir du corpus Présidentielles

Lectures et références

 

Manuel Lexico3 (Version 3.41 – Février 2003) (PDF) http://www.cavi.univ-paris3.fr/Ilpga/ilpga/tal/lexicoWWW/manuels.htm

 

Blog de Jean Véronis (nuages de mots comme points d’accès au contexte) http://aixtal.blogspot.com/

 

Site de Pascal Marchand (analyse des discours publiés par les candidats à l’élection présidentielle, sur leurs sites et blogs) http://pascal-marchand.fr/

 

 

 

 

 

Publicités

navigations – compléments (séance 3)

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 4 avril 2007

Bonjour à tous!

Un nouvel état du corpus des discours des candidats à été mis à notre disposition par monsieur Fleury.

Il faudrait envisager de le mettre en contraste, en résonance avec le corpus Présidentielle, mais il reste cependant à déterminer dans quelle mesure.

Nous avons vu des outils permettant d’élaborer des nuages de mots en tant que points d’accès au contexte (Dico et TagCloudBuilder).

Les nuages de mots sont une forme de représentation graphique des étiquettes qui peuvent donner à voir les différents contextes d’une famille de mots.

Cet aspect sera à intégrer dans notre exploration de corpus, mais là encore, il nous faudra déterminer la mesure dans laquelle il est possible de mettre ce type de représentation en corrélation avec les autres méthodes d’observation du corpus.

Une idée qui n’a pas l’air mauvaise serait, non pas spécifiquement d’aborder les choses d’un point de vue thématique, mais d’un point de vue davantage linguistique, en ce sens qu’on étudierait plutôt les groupes de formes à partir d’une racine (graphique? morphologique?).

Plus précisément, nous pensons réaliser une observation concernant:

– les néologismes suffixés en -itude (ah! la bravitude!)

– les glissements d’usage (pacte remplace programme… ce type d’emploi est-il généralisé chez tous les candidats? qu’en est-il de l’évolution temporelle de ces termes dans le corpus Présidentielles? comment cela se manifeste-t-il chez les candidats dans le corpus Discours?)

toujours dans le cadre d’une résonance entre les corpus Présidentielles, d’une part, Discours, d’autre part.

D’autre part, il pourrait être intéressant d’explorer la ventilation des noms de pays dans ces corpus : par exemple, à quels pays est-il le plus souvent fait référence?

Bonne semaine et bonnes vacances!

M&M’s

2ème séance

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 4 avril 2007

Le point de départ de la séance n°2 : Faire connaissance avec le corpus.

Voici quelques petites définitions :

1. Fils RSS: Le format « RSS » permet de décrire de façon synthétique le contenu d’un site web, dans un fichier au format XML, afin de permettre son exploitation par des tiers.
Le fichier RSS, appelé également flux RSS, canal RSS ou fil RSS, contenant les informations à diffuser, est maintenu à jour afin de constamment contenir les dernières informations à publier.
Basiquement, un fil RSS est un fichier contenant le titre de l’information, une courte description et un lien vers une page décrivant plus en détail l’information. Cela permet à un site web de diffuser largement ses actualités tout en récupérant un grand nombre de visiteurs grâce au lien hypertexte permettant au lecteur de lire la suite de l’actualité en ligne.

Si vous avez envie (et surtout avez le temps) d’aller plus loin, voici quelques liens très intéressants:
http://hdl.handle.net/1866/144
http://www.servicedoc.info/rss/

2. Corpus: Dans Les linguistiques de corpus, Habert et al. (1997) donnent la définition suivante d’un corpus :
« Nous proposons une définition de corpus encore plus restrictive que celle de (Sinclair, 1996, p.4) : un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques et extra-linguistiques explicites pour servir d’échantillon d’emplois déterminés d’une langue. » (p. 11).
Exemple: le corpus « Présidentielles » 2007 pour une période donnée, constitué par M. Fleury (au passage, nous le remercions pour son aide et sa patience incroyable 😉 ).

3. Sous-corpus : Une partie/rubrique/catégorie appartenant au corpus de travail.

Exemple: le discours des candidats.

4. Occurence = L’apparition d’une unité linguistique dans un énoncé. La fréquence de l’unité est donné par le nombre d’occurences.

5. Forme : Les différentes fléxions que constituent un terme, par exemple: travail, travailleur, travailler, travaillons,….
Notre choix : Le corpus « Présidentielles » 2007: Un corpus très intéressant, vaste et actualisé régulièrement par M.Fleury (jusqu’au 1er avril à ce jour).

Ce corpus ne prend en compte que les pages et fils du journal consacrés aux élections présidentielles 2007.
Il est construit à partir du fils « Présidentielle 2007».
Il concatène les fichiers RSS archivés toutes les heures et les articles longs associés.
Le corpus est prêt pour être analysé par Lexico3.

Lexico3:
Pour la 2ème séance, la première chose à faire, c’était de se familiariser avec Lexico3.
Pour cela, il nous a suffit
1. D’aller sur le site : http://www.cavi.univ-paris3.fr/Ilpga/ilpga/tal/lexicoWWW/lex3-10pas/index.htm
2. De lire le manuel pas à pas
A présent on sait manipuler Lexico3. C’est déjà pas mal!!

Nous avons choisis de traiter le corpus « Présidentielles » du point de vue « candidats ». M. Fleury a mis à notre disposition une listes des candidats.
Nous l’avons mise à jour.
Nous avons choisi de garder des noms de « non-candidats » vu leur importance dans la campagne présidentielle et donc dans notre corpus comme: M. Hollande ou encore M. Chirac.

Le corpus est « découpé » en : année, mois, date.
Notre travail s’articule autour des candidats:
1- Choisir des candidats
2- Etudier les termes spécifiques de chaque candidat.
3- Faire des familles de mots et les associer aux candidats.

Pour le moment, nous réfléchissons encore sur les candidats à choisir, les thèmes, les termes…

Ce n’est pas facile tout ça mais nous avons pleins d’idées qui naissent dans nos p’tites têtes…

Etant donnée que nous n’avons pas une formation de linguistes, ce qui nous angoisse, ce n’est pas le travail de réflexion mais la retranscription de nos idées.
Pour cela, tout conseil et toute idée par rapport à ça seront les bienvenus.

Cordialement,
YMCA,

(YOUNES-Marianne & Mandana-CATHEBRAS) –Le pseudo devrait attirer beaucoup de monde sur notre blog -;)

étapes : projet Navigation sur Le Monde

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 3 avril 2007

bonjour tous le monde

séance n° 01

le corpus: le Monde Profond phase 2

les étapes:

  1. Décompression des deux répertoires (2006/2007) (qui sont disponible sur le CD) du corpus le Monde Profond phase 2.
  2. On a procédé à une concaténation des fichiers (.txt) qui sont pré-traités pour une utilisation ultérieure avec LEXICO 3 .

Cette concaténation de fichiers est faite par étapes, par rubriques (du journal Le Monde. Par exemple : à la une, International et ensuite par année (2006 puis 2007).

  • Premièrement on obtient des mini corpus ( chaque rubrique est concaténée pour chacune des deux années 2006 & 2007 ). Cette concaténation est faite un programme Perl dans lequel il suffit de remplacer le nom du fichier à traiter (le nom du fil = le nom de la rubrique) en changeant l’extention (.xml par .txt)
  • En deuxième lieu on procède à la concaténation de chacune des rubriques de chaque année afin d’obtenir le corpus final qui sera prêt à l’emploi (via LEXICO 3)

bon courage à tous

Boualem & Bounouar