pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Projet navigation

Posted in Navigations dans le Monde by pluritaluser on 7 mai 2008

Bonsoir,

Juste pour vous signaler la création d’un forum pour faciliter la communication au sein du groupe.

L’adresse : http://projet-nav.forums-actifs.com/

Bonjour c’est nous !

Posted in Navigations dans le Monde, Projet 2007-2008 by pluritaluser on 16 avril 2008

Bonjour !

En ce 16 avril 2008, nous avons travaillé !

Nous nous sommes répartis les taches.

Voyages, Environnement-Sciences, Livres et Rendez-Vous se coltineront Ludivine.
A La une, Europe, Médias, et Sport devront supporter Karl.
Cinéma, Examen, Municipales 2007 (lui, il est pas bien fini…) et Techno héritent de Wakako.
Culture, France-Société et Opinion se ramassent Anne-Claire.
Quant aux malheureux Economie, International et Politique, ils se farciront Quentin.

signé : Les Fils RSS

Tagged with: ,

projet Navigations – MIM Team

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 26 mai 2007

Bonjour à tous!

Un rapide état des lieux de l’avancée du travail de l’équipe Marianna – Ivan – Marguerite :

– à partir des corpus mis à notre disposition, un certain nombre de pré-traitements ont été réalisés (constitution de sous-corpus, XMLisation, étiquetage)

– la phase d’exploration textométrique est en cours de réalisation, sous Lexico3, bien entendu!

– certains aspects de l’analyse sur corpus mobiliseront des outils théoriques issus de l’analyse du discours, précisément pour les corpus Discours et Débat

Quant à la rédaction du rapport de projet, la version papier est en cours de réalisation sous LateX.

Voilà pour le bref aperçu de notre travail 🙂

Bon courage à tous!

MIM

séance 4 – équipe Navigations – Mac MIMMSCY Team (Véronis flavour)

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 28 avril 2007

Axes du projet

Observations sur la forme ‘pacte’

 

– observer les cooccurrences de pacte dans le corpus général d’une part (Le Monde surface-bis), sur les corpus Présidentielles et Discours d’autre part

– observer les collocations et les segments répétés, dont on peut tirer:

 

  • graphes en fonction des candidats
    • qui en parle
    • qui en a introduit l’usage
    • etc…
  • graphes en fonction des sections temporelles
    • par semaine
    • par mois
    • etc…

Nous avons aussi commencé à regarder, dans le corpus Discours, les graphes de fréquences (relatives et absolues) pour les formes pacte, programme et projet, en fonction des candidats [Bayrou, Bové, Buffet, Laguiller, Le Pen, Royal, Sarkozy, Voynet], mais aussi en recoupant les candidats et les dates en fonction des formes.

 

Résonances entre les différents états de corpus

Y aura-t-il des phénomènes identifiables d’un état d’un corpus à l’autre, à partir de ce qui aura pu être trouvé dans la phase d’observations sur les formes?

Nuages de mots

– constituer des nuages de mots en fonction des candidats, à partir du corpus Présidentielles

Lectures et références

 

Manuel Lexico3 (Version 3.41 – Février 2003) (PDF) http://www.cavi.univ-paris3.fr/Ilpga/ilpga/tal/lexicoWWW/manuels.htm

 

Blog de Jean Véronis (nuages de mots comme points d’accès au contexte) http://aixtal.blogspot.com/

 

Site de Pascal Marchand (analyse des discours publiés par les candidats à l’élection présidentielle, sur leurs sites et blogs) http://pascal-marchand.fr/

 

 

 

 

 

navigations – compléments (séance 3)

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 4 avril 2007

Bonjour à tous!

Un nouvel état du corpus des discours des candidats à été mis à notre disposition par monsieur Fleury.

Il faudrait envisager de le mettre en contraste, en résonance avec le corpus Présidentielle, mais il reste cependant à déterminer dans quelle mesure.

Nous avons vu des outils permettant d’élaborer des nuages de mots en tant que points d’accès au contexte (Dico et TagCloudBuilder).

Les nuages de mots sont une forme de représentation graphique des étiquettes qui peuvent donner à voir les différents contextes d’une famille de mots.

Cet aspect sera à intégrer dans notre exploration de corpus, mais là encore, il nous faudra déterminer la mesure dans laquelle il est possible de mettre ce type de représentation en corrélation avec les autres méthodes d’observation du corpus.

Une idée qui n’a pas l’air mauvaise serait, non pas spécifiquement d’aborder les choses d’un point de vue thématique, mais d’un point de vue davantage linguistique, en ce sens qu’on étudierait plutôt les groupes de formes à partir d’une racine (graphique? morphologique?).

Plus précisément, nous pensons réaliser une observation concernant:

– les néologismes suffixés en -itude (ah! la bravitude!)

– les glissements d’usage (pacte remplace programme… ce type d’emploi est-il généralisé chez tous les candidats? qu’en est-il de l’évolution temporelle de ces termes dans le corpus Présidentielles? comment cela se manifeste-t-il chez les candidats dans le corpus Discours?)

toujours dans le cadre d’une résonance entre les corpus Présidentielles, d’une part, Discours, d’autre part.

D’autre part, il pourrait être intéressant d’explorer la ventilation des noms de pays dans ces corpus : par exemple, à quels pays est-il le plus souvent fait référence?

Bonne semaine et bonnes vacances!

M&M’s

2ème séance

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 4 avril 2007

Le point de départ de la séance n°2 : Faire connaissance avec le corpus.

Voici quelques petites définitions :

1. Fils RSS: Le format « RSS » permet de décrire de façon synthétique le contenu d’un site web, dans un fichier au format XML, afin de permettre son exploitation par des tiers.
Le fichier RSS, appelé également flux RSS, canal RSS ou fil RSS, contenant les informations à diffuser, est maintenu à jour afin de constamment contenir les dernières informations à publier.
Basiquement, un fil RSS est un fichier contenant le titre de l’information, une courte description et un lien vers une page décrivant plus en détail l’information. Cela permet à un site web de diffuser largement ses actualités tout en récupérant un grand nombre de visiteurs grâce au lien hypertexte permettant au lecteur de lire la suite de l’actualité en ligne.

Si vous avez envie (et surtout avez le temps) d’aller plus loin, voici quelques liens très intéressants:
http://hdl.handle.net/1866/144
http://www.servicedoc.info/rss/

2. Corpus: Dans Les linguistiques de corpus, Habert et al. (1997) donnent la définition suivante d’un corpus :
« Nous proposons une définition de corpus encore plus restrictive que celle de (Sinclair, 1996, p.4) : un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques et extra-linguistiques explicites pour servir d’échantillon d’emplois déterminés d’une langue. » (p. 11).
Exemple: le corpus « Présidentielles » 2007 pour une période donnée, constitué par M. Fleury (au passage, nous le remercions pour son aide et sa patience incroyable 😉 ).

3. Sous-corpus : Une partie/rubrique/catégorie appartenant au corpus de travail.

Exemple: le discours des candidats.

4. Occurence = L’apparition d’une unité linguistique dans un énoncé. La fréquence de l’unité est donné par le nombre d’occurences.

5. Forme : Les différentes fléxions que constituent un terme, par exemple: travail, travailleur, travailler, travaillons,….
Notre choix : Le corpus « Présidentielles » 2007: Un corpus très intéressant, vaste et actualisé régulièrement par M.Fleury (jusqu’au 1er avril à ce jour).

Ce corpus ne prend en compte que les pages et fils du journal consacrés aux élections présidentielles 2007.
Il est construit à partir du fils « Présidentielle 2007».
Il concatène les fichiers RSS archivés toutes les heures et les articles longs associés.
Le corpus est prêt pour être analysé par Lexico3.

Lexico3:
Pour la 2ème séance, la première chose à faire, c’était de se familiariser avec Lexico3.
Pour cela, il nous a suffit
1. D’aller sur le site : http://www.cavi.univ-paris3.fr/Ilpga/ilpga/tal/lexicoWWW/lex3-10pas/index.htm
2. De lire le manuel pas à pas
A présent on sait manipuler Lexico3. C’est déjà pas mal!!

Nous avons choisis de traiter le corpus « Présidentielles » du point de vue « candidats ». M. Fleury a mis à notre disposition une listes des candidats.
Nous l’avons mise à jour.
Nous avons choisi de garder des noms de « non-candidats » vu leur importance dans la campagne présidentielle et donc dans notre corpus comme: M. Hollande ou encore M. Chirac.

Le corpus est « découpé » en : année, mois, date.
Notre travail s’articule autour des candidats:
1- Choisir des candidats
2- Etudier les termes spécifiques de chaque candidat.
3- Faire des familles de mots et les associer aux candidats.

Pour le moment, nous réfléchissons encore sur les candidats à choisir, les thèmes, les termes…

Ce n’est pas facile tout ça mais nous avons pleins d’idées qui naissent dans nos p’tites têtes…

Etant donnée que nous n’avons pas une formation de linguistes, ce qui nous angoisse, ce n’est pas le travail de réflexion mais la retranscription de nos idées.
Pour cela, tout conseil et toute idée par rapport à ça seront les bienvenus.

Cordialement,
YMCA,

(YOUNES-Marianne & Mandana-CATHEBRAS) –Le pseudo devrait attirer beaucoup de monde sur notre blog -;)

étapes : projet Navigation sur Le Monde

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 3 avril 2007

bonjour tous le monde

séance n° 01

le corpus: le Monde Profond phase 2

les étapes:

  1. Décompression des deux répertoires (2006/2007) (qui sont disponible sur le CD) du corpus le Monde Profond phase 2.
  2. On a procédé à une concaténation des fichiers (.txt) qui sont pré-traités pour une utilisation ultérieure avec LEXICO 3 .

Cette concaténation de fichiers est faite par étapes, par rubriques (du journal Le Monde. Par exemple : à la une, International et ensuite par année (2006 puis 2007).

  • Premièrement on obtient des mini corpus ( chaque rubrique est concaténée pour chacune des deux années 2006 & 2007 ). Cette concaténation est faite un programme Perl dans lequel il suffit de remplacer le nom du fichier à traiter (le nom du fil = le nom de la rubrique) en changeant l’extention (.xml par .txt)
  • En deuxième lieu on procède à la concaténation de chacune des rubriques de chaque année afin d’obtenir le corpus final qui sera prêt à l’emploi (via LEXICO 3)

bon courage à tous

Boualem & Bounouar

Projet « Navigation » séance 2 – M&M’s

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 28 mars 2007

 

1. Activités Etape 1, ‘Connaissance du corpus’

Cette étape vise une meilleure connaissance du corpus global.

a) documents qui constituent le corpus :

-Le Monde profond : aricles complets.

-Le Monde en surface: résumé des articles (fils rss)

b) l’organisation et les prétraitement de ces documents:

-Le Monde profond au format HTML

-Le Monde en surface au format XML (fils rss).

Les documents ont été en partie prétraités pour être compatible avec lexico3.

(cf. documentation Navigation, présentation du corpus)

c) définition de notions:

(i) fil RSS : fichier XML respectant une struture particulière, qui correspond à des flux de contenus gratuits en provenance de sites internet; ces fichiers donnent de l’information sur le contenu des sites; ils peuvent librement être récupérés.

RSS est le sigle de Really Simple Syndication; on parle de ’syndication de contenus’ en tant que c’est un procédé consistant à rendre disponible une partie du contenu d’un site web afin qu’elle soit utilisé par d’autres sites.

(ii) occurrence : présence, apparition d’une forme dans un (co)texte, une chaîne textuelle donnée

(iii) forme : unité lexicale actualisée, en tant qu’abstraction de l’occurrence (puisque l’occurrence est une apparition de la forme)

(iv) corpus : ensemble de contenus, textuels ou non; ensemble de données réunies dans une optique particulière

(v) partie de corpus : un corpus peut être segmenté en différents sous-ensemble de contenus, appelés sous-corpus ou parties de corpus

2. Travail réalisé durant la séance

Dans un premier temps, nous choisissons d’amorcer l’étude du corpus ‘Présidentielles’ selon un axe thématique. Cela pourrait par exemple permettre d’observer les associations entre les termes et leurs cooccurrences, ou encore les cooccurrences thème(s)-candidat(s) (notre travail pourrait donc être mis en corréllation avec celui de Mandana et Marianne qui s’intéressent aux associations candidats).

On cherche dans un premier temps à identifier les associations entre les termes associés à un thème dans le corpus. L’idée serait d’en comparer les résultats avec une autre partie de corpus du Monde profond ensuite (si possible). Et également (pourquoi pas) proposer une étude de résonnance textuelle entre ces deux corpus.

Pour le moment, nous n’avons pas tout à fait choisi les thèmes à étudier. Mais nous avons déjà des petites idées de thèmes (on attend d’avoir fait le tour global de notre corpus “présidentiel” sur Lexico 3) : La sécurité, l’éducation, la santé… (Why not?)

Il serait peut être intéressant de se servir de Leximédia… :

-si les termes et expressions étudiés par Leximédia nous intéressent.

-s’il est pertinent d’appliquer à notre corpus le principe de l’observation, au fil des semaines, de l’évolution de la fréquence d’utilisation des expressions ou termes relatifs aux thèmes que nous aurons définis, ou dans un espace temporel autre que nous aurons déterminé.

M&M’s : Marguerite&Marianna.

1ère séance

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 27 mars 2007

La première séance était une introduction au projet « Navigations dans le monde » à travers à la lecture du document fourni par M. Fleury (en .doc, .html et .pdf). Le document explique le projet, présente les corpus et les tâches à réaliser.

Comme je suis très gentille ;-), je vais vous faire un petit (long?) résumé:

Corpus le monde en surface:

  •  -> corpus de fils RSS + une série d’outils d’outils de traitement de ces fils.
  • -> corpus de tous les contenus textuels des fils RSS (le monde en surface) + corpus de tous les articles complets associés (le monde semi-profond)

Corpus le monde profond:

  • Phase 1 -> état quotidien des contenus textuels au format XML et compatible avec Lexico3 } états statistiques quotidien.
  • Phase 2 -> ne prend plus appuis sur la version éléctonique du journal et s’articule autour de l’archivage en parallèle des fils RSS.

Corpus le Monde surface bis:

  • -> le corpus de tous les contenus textuels des fils RSS sur la même période que celle utilisée par le monde profond.

Corpus le Monde surface étiquetée:

  • -> avec Cordial.
  • -> avec Treetagger.

Corpus présidentielle:

  • -> ne prend en compte que les pages et les fils du journal consacrés aux éléctions présidentielles 2007.
  • -> concatène les fichiers RSS archivés toutes les heures.

Voilà un tout petit résumé des corpus. Si vous avez remarqué je n’ai pas dit un mot des dates car je suis moi-même un p’tit peu perdue dans cette histoire ;-)…

Un petit rappel par rapport aux fils RSS:

  • Un fil RSS est un fichier XML.
  • Les contenus textuels des fils sont pointés par les éléments descriptions.
  • les contenus textuels de tous les articles complets sont pointés par les éléments link.

Voili voilou…

Marianne

MMC Bonsoir

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 27 mars 2007

J’ai lu le projet Navigation.

Je pense que la tâche la plus difficile à réaliser sera l’analyse (les analyses) finale.

A demain,

Mandana

MK: Projet « navigation Le Monde » séance 1

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 21 mars 2007

Nous avons pris connaissance du projet: des corpus et différentes étapes possibles à traîter. Il faut maintenant se fixer un objectif, choisir le (ou les) corpus et les traitements que l’on voudra réaliser dans le cadre de ce projet…

Marianna.

Projet « Navigation » séance 1 ML

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 21 mars 2007

Bonjour à tous,

cette première séance s’est orientée autour de la découverte du projet « Navigation », notamment des différentes étapes de travail possibles à mettre en oeuvre.

Le problème qui se pose d’emblée relève des hypothèses de travail à définir, étape essentielle pour déterminer un petit ‘cahier des charges’ (savoir, par exemple, dans quelle mesure on pourra intégrer au projet des chaînes de traitement automatique, dans quelle mesure il peut s’avérer nécessaire de passer par la constitution de sous-corpus).

Partant, un travail d’observation des corpus mis à disposition doit être effectué d’ici la prochaine séance, à partir duquel il s’agira de définir les tenants et aboutissants de l’objectif du projet : sera-t-il, par exemple, plutôt question d’une exploration quant à la nature des corpus (surface vs. profond) ou d’une exploration d’un domaine plus réduit (les corrélations textuelles des graphes d’information mutuelle en fonction des noms de candidats aux présidentielles)?

Voilà pour cette semaine, bonne lecture à tous (eh oui, ça en fait des pages à lire!)

Marguerite

BàO séance n°7 et 8

Posted in Boîte à Outils, Projet 2006-2007 by tal-p3 on 7 mars 2007

7ème séance le 07/03/2007

Début BàO série 4 « des textes aux graphes »

  • Détail sur la page du cours.
  • Prochaine séance : fin BàO série 4

8ème séance le 14/03/2007

  • FIN BàO série 4 et fin des BàO !!!!!

Les travaux BàO seront à remettre fin Avril.

BàO séance n°6

Posted in Boîte à Outils, Projet 2006-2007 by tal-p3 on 1 mars 2007

6ème séance le 28/02/2007

Suite BàO série 3 « extraction de patrons »

  • en entrée, les sorties produites dans BàO série 2 (sortie semi-structurée via Cordial),
  • un script perl produit en sortie des extractions de patrons syntaxiques (lecture détaillée du script et test de celui-ci sur les données construites à partir du corpus de fils)
  • Détail sur la page du cours.
  • Prochaine séance : BàO série 4.

BàO séance n°5

Posted in Boîte à Outils, Projet 2006-2007 by tal-p3 on 21 février 2007

5ème séance le 21/02/2007

Début BàO série 3 « extraction de patrons »

  • en entrée, les sorties produites dans BàO série 2 (sortie étiquetée « brute » et structurée),
  • en sortie des extractions de patrons syntaxiques (via programme ou via XSLT/XPath).
  • Détail sur la page du cours.