pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

2ème séance

Posted in Navigations dans le Monde, Projet 2006-2007 by pluritaluser on 4 avril 2007

Le point de départ de la séance n°2 : Faire connaissance avec le corpus.

Voici quelques petites définitions :

1. Fils RSS: Le format « RSS » permet de décrire de façon synthétique le contenu d’un site web, dans un fichier au format XML, afin de permettre son exploitation par des tiers.
Le fichier RSS, appelé également flux RSS, canal RSS ou fil RSS, contenant les informations à diffuser, est maintenu à jour afin de constamment contenir les dernières informations à publier.
Basiquement, un fil RSS est un fichier contenant le titre de l’information, une courte description et un lien vers une page décrivant plus en détail l’information. Cela permet à un site web de diffuser largement ses actualités tout en récupérant un grand nombre de visiteurs grâce au lien hypertexte permettant au lecteur de lire la suite de l’actualité en ligne.

Si vous avez envie (et surtout avez le temps) d’aller plus loin, voici quelques liens très intéressants:
http://hdl.handle.net/1866/144
http://www.servicedoc.info/rss/

2. Corpus: Dans Les linguistiques de corpus, Habert et al. (1997) donnent la définition suivante d’un corpus :
« Nous proposons une définition de corpus encore plus restrictive que celle de (Sinclair, 1996, p.4) : un corpus est une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques et extra-linguistiques explicites pour servir d’échantillon d’emplois déterminés d’une langue. » (p. 11).
Exemple: le corpus « Présidentielles » 2007 pour une période donnée, constitué par M. Fleury (au passage, nous le remercions pour son aide et sa patience incroyable 😉 ).

3. Sous-corpus : Une partie/rubrique/catégorie appartenant au corpus de travail.

Exemple: le discours des candidats.

4. Occurence = L’apparition d’une unité linguistique dans un énoncé. La fréquence de l’unité est donné par le nombre d’occurences.

5. Forme : Les différentes fléxions que constituent un terme, par exemple: travail, travailleur, travailler, travaillons,….
Notre choix : Le corpus « Présidentielles » 2007: Un corpus très intéressant, vaste et actualisé régulièrement par M.Fleury (jusqu’au 1er avril à ce jour).

Ce corpus ne prend en compte que les pages et fils du journal consacrés aux élections présidentielles 2007.
Il est construit à partir du fils « Présidentielle 2007».
Il concatène les fichiers RSS archivés toutes les heures et les articles longs associés.
Le corpus est prêt pour être analysé par Lexico3.

Lexico3:
Pour la 2ème séance, la première chose à faire, c’était de se familiariser avec Lexico3.
Pour cela, il nous a suffit
1. D’aller sur le site : http://www.cavi.univ-paris3.fr/Ilpga/ilpga/tal/lexicoWWW/lex3-10pas/index.htm
2. De lire le manuel pas à pas
A présent on sait manipuler Lexico3. C’est déjà pas mal!!

Nous avons choisis de traiter le corpus « Présidentielles » du point de vue « candidats ». M. Fleury a mis à notre disposition une listes des candidats.
Nous l’avons mise à jour.
Nous avons choisi de garder des noms de « non-candidats » vu leur importance dans la campagne présidentielle et donc dans notre corpus comme: M. Hollande ou encore M. Chirac.

Le corpus est « découpé » en : année, mois, date.
Notre travail s’articule autour des candidats:
1- Choisir des candidats
2- Etudier les termes spécifiques de chaque candidat.
3- Faire des familles de mots et les associer aux candidats.

Pour le moment, nous réfléchissons encore sur les candidats à choisir, les thèmes, les termes…

Ce n’est pas facile tout ça mais nous avons pleins d’idées qui naissent dans nos p’tites têtes…

Etant donnée que nous n’avons pas une formation de linguistes, ce qui nous angoisse, ce n’est pas le travail de réflexion mais la retranscription de nos idées.
Pour cela, tout conseil et toute idée par rapport à ça seront les bienvenus.

Cordialement,
YMCA,

(YOUNES-Marianne & Mandana-CATHEBRAS) –Le pseudo devrait attirer beaucoup de monde sur notre blog -;)

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :