pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Projet « Navigation » séance 2 – M&M’s

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 28 mars 2007

 

1. Activités Etape 1, ‘Connaissance du corpus’

Cette étape vise une meilleure connaissance du corpus global.

a) documents qui constituent le corpus :

-Le Monde profond : aricles complets.

-Le Monde en surface: résumé des articles (fils rss)

b) l’organisation et les prétraitement de ces documents:

-Le Monde profond au format HTML

-Le Monde en surface au format XML (fils rss).

Les documents ont été en partie prétraités pour être compatible avec lexico3.

(cf. documentation Navigation, présentation du corpus)

c) définition de notions:

(i) fil RSS : fichier XML respectant une struture particulière, qui correspond à des flux de contenus gratuits en provenance de sites internet; ces fichiers donnent de l’information sur le contenu des sites; ils peuvent librement être récupérés.

RSS est le sigle de Really Simple Syndication; on parle de ’syndication de contenus’ en tant que c’est un procédé consistant à rendre disponible une partie du contenu d’un site web afin qu’elle soit utilisé par d’autres sites.

(ii) occurrence : présence, apparition d’une forme dans un (co)texte, une chaîne textuelle donnée

(iii) forme : unité lexicale actualisée, en tant qu’abstraction de l’occurrence (puisque l’occurrence est une apparition de la forme)

(iv) corpus : ensemble de contenus, textuels ou non; ensemble de données réunies dans une optique particulière

(v) partie de corpus : un corpus peut être segmenté en différents sous-ensemble de contenus, appelés sous-corpus ou parties de corpus

2. Travail réalisé durant la séance

Dans un premier temps, nous choisissons d’amorcer l’étude du corpus ‘Présidentielles’ selon un axe thématique. Cela pourrait par exemple permettre d’observer les associations entre les termes et leurs cooccurrences, ou encore les cooccurrences thème(s)-candidat(s) (notre travail pourrait donc être mis en corréllation avec celui de Mandana et Marianne qui s’intéressent aux associations candidats).

On cherche dans un premier temps à identifier les associations entre les termes associés à un thème dans le corpus. L’idée serait d’en comparer les résultats avec une autre partie de corpus du Monde profond ensuite (si possible). Et également (pourquoi pas) proposer une étude de résonnance textuelle entre ces deux corpus.

Pour le moment, nous n’avons pas tout à fait choisi les thèmes à étudier. Mais nous avons déjà des petites idées de thèmes (on attend d’avoir fait le tour global de notre corpus “présidentiel” sur Lexico 3) : La sécurité, l’éducation, la santé… (Why not?)

Il serait peut être intéressant de se servir de Leximédia… :

-si les termes et expressions étudiés par Leximédia nous intéressent.

-s’il est pertinent d’appliquer à notre corpus le principe de l’observation, au fil des semaines, de l’évolution de la fréquence d’utilisation des expressions ou termes relatifs aux thèmes que nous aurons définis, ou dans un espace temporel autre que nous aurons déterminé.

M&M’s : Marguerite&Marianna.

Publicités

1ère séance

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 27 mars 2007

La première séance était une introduction au projet « Navigations dans le monde » à travers à la lecture du document fourni par M. Fleury (en .doc, .html et .pdf). Le document explique le projet, présente les corpus et les tâches à réaliser.

Comme je suis très gentille ;-), je vais vous faire un petit (long?) résumé:

Corpus le monde en surface:

  •  -> corpus de fils RSS + une série d’outils d’outils de traitement de ces fils.
  • -> corpus de tous les contenus textuels des fils RSS (le monde en surface) + corpus de tous les articles complets associés (le monde semi-profond)

Corpus le monde profond:

  • Phase 1 -> état quotidien des contenus textuels au format XML et compatible avec Lexico3 } états statistiques quotidien.
  • Phase 2 -> ne prend plus appuis sur la version éléctonique du journal et s’articule autour de l’archivage en parallèle des fils RSS.

Corpus le Monde surface bis:

  • -> le corpus de tous les contenus textuels des fils RSS sur la même période que celle utilisée par le monde profond.

Corpus le Monde surface étiquetée:

  • -> avec Cordial.
  • -> avec Treetagger.

Corpus présidentielle:

  • -> ne prend en compte que les pages et les fils du journal consacrés aux éléctions présidentielles 2007.
  • -> concatène les fichiers RSS archivés toutes les heures.

Voilà un tout petit résumé des corpus. Si vous avez remarqué je n’ai pas dit un mot des dates car je suis moi-même un p’tit peu perdue dans cette histoire ;-)…

Un petit rappel par rapport aux fils RSS:

  • Un fil RSS est un fichier XML.
  • Les contenus textuels des fils sont pointés par les éléments descriptions.
  • les contenus textuels de tous les articles complets sont pointés par les éléments link.

Voili voilou…

Marianne

MMC Bonsoir

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 27 mars 2007

J’ai lu le projet Navigation.

Je pense que la tâche la plus difficile à réaliser sera l’analyse (les analyses) finale.

A demain,

Mandana

MK: Projet « navigation Le Monde » séance 1

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 21 mars 2007

Nous avons pris connaissance du projet: des corpus et différentes étapes possibles à traîter. Il faut maintenant se fixer un objectif, choisir le (ou les) corpus et les traitements que l’on voudra réaliser dans le cadre de ce projet…

Marianna.

Projet « Navigation » séance 1 ML

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 21 mars 2007

Bonjour à tous,

cette première séance s’est orientée autour de la découverte du projet « Navigation », notamment des différentes étapes de travail possibles à mettre en oeuvre.

Le problème qui se pose d’emblée relève des hypothèses de travail à définir, étape essentielle pour déterminer un petit ‘cahier des charges’ (savoir, par exemple, dans quelle mesure on pourra intégrer au projet des chaînes de traitement automatique, dans quelle mesure il peut s’avérer nécessaire de passer par la constitution de sous-corpus).

Partant, un travail d’observation des corpus mis à disposition doit être effectué d’ici la prochaine séance, à partir duquel il s’agira de définir les tenants et aboutissants de l’objectif du projet : sera-t-il, par exemple, plutôt question d’une exploration quant à la nature des corpus (surface vs. profond) ou d’une exploration d’un domaine plus réduit (les corrélations textuelles des graphes d’information mutuelle en fonction des noms de candidats aux présidentielles)?

Voilà pour cette semaine, bonne lecture à tous (eh oui, ça en fait des pages à lire!)

Marguerite

BàO séance n°7 et 8

Posted in Boîte à Outils, Projet 2006-2007 by tal-p3 on 7 mars 2007

7ème séance le 07/03/2007

Début BàO série 4 « des textes aux graphes »

  • Détail sur la page du cours.
  • Prochaine séance : fin BàO série 4

8ème séance le 14/03/2007

  • FIN BàO série 4 et fin des BàO !!!!!

Les travaux BàO seront à remettre fin Avril.

BàO séance n°6

Posted in Boîte à Outils, Projet 2006-2007 by tal-p3 on 1 mars 2007

6ème séance le 28/02/2007

Suite BàO série 3 « extraction de patrons »

  • en entrée, les sorties produites dans BàO série 2 (sortie semi-structurée via Cordial),
  • un script perl produit en sortie des extractions de patrons syntaxiques (lecture détaillée du script et test de celui-ci sur les données construites à partir du corpus de fils)
  • Détail sur la page du cours.
  • Prochaine séance : BàO série 4.