pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Projet « Navigation » séance 2 – M&M’s

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 28 mars 2007

 

1. Activités Etape 1, ‘Connaissance du corpus’

Cette étape vise une meilleure connaissance du corpus global.

a) documents qui constituent le corpus :

-Le Monde profond : aricles complets.

-Le Monde en surface: résumé des articles (fils rss)

b) l’organisation et les prétraitement de ces documents:

-Le Monde profond au format HTML

-Le Monde en surface au format XML (fils rss).

Les documents ont été en partie prétraités pour être compatible avec lexico3.

(cf. documentation Navigation, présentation du corpus)

c) définition de notions:

(i) fil RSS : fichier XML respectant une struture particulière, qui correspond à des flux de contenus gratuits en provenance de sites internet; ces fichiers donnent de l’information sur le contenu des sites; ils peuvent librement être récupérés.

RSS est le sigle de Really Simple Syndication; on parle de ’syndication de contenus’ en tant que c’est un procédé consistant à rendre disponible une partie du contenu d’un site web afin qu’elle soit utilisé par d’autres sites.

(ii) occurrence : présence, apparition d’une forme dans un (co)texte, une chaîne textuelle donnée

(iii) forme : unité lexicale actualisée, en tant qu’abstraction de l’occurrence (puisque l’occurrence est une apparition de la forme)

(iv) corpus : ensemble de contenus, textuels ou non; ensemble de données réunies dans une optique particulière

(v) partie de corpus : un corpus peut être segmenté en différents sous-ensemble de contenus, appelés sous-corpus ou parties de corpus

2. Travail réalisé durant la séance

Dans un premier temps, nous choisissons d’amorcer l’étude du corpus ‘Présidentielles’ selon un axe thématique. Cela pourrait par exemple permettre d’observer les associations entre les termes et leurs cooccurrences, ou encore les cooccurrences thème(s)-candidat(s) (notre travail pourrait donc être mis en corréllation avec celui de Mandana et Marianne qui s’intéressent aux associations candidats).

On cherche dans un premier temps à identifier les associations entre les termes associés à un thème dans le corpus. L’idée serait d’en comparer les résultats avec une autre partie de corpus du Monde profond ensuite (si possible). Et également (pourquoi pas) proposer une étude de résonnance textuelle entre ces deux corpus.

Pour le moment, nous n’avons pas tout à fait choisi les thèmes à étudier. Mais nous avons déjà des petites idées de thèmes (on attend d’avoir fait le tour global de notre corpus “présidentiel” sur Lexico 3) : La sécurité, l’éducation, la santé… (Why not?)

Il serait peut être intéressant de se servir de Leximédia… :

-si les termes et expressions étudiés par Leximédia nous intéressent.

-s’il est pertinent d’appliquer à notre corpus le principe de l’observation, au fil des semaines, de l’évolution de la fréquence d’utilisation des expressions ou termes relatifs aux thèmes que nous aurons définis, ou dans un espace temporel autre que nous aurons déterminé.

M&M’s : Marguerite&Marianna.

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :