pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Tragédie grecque des statistiques du corpus

Posted in Boîte à Outils, Projet 2008-2009 by pluritaluser on 3 février 2009

Nous avons lancé le script et nous avons constaté ce qui suit :

 

Le fichier xml de sortie présentait des répétitions de bouts de texte placés de façon aléatoire.

En premier lieu, nous avons pensé à une erreur dans le code PERL. Cependant, en analysant manuellement les fichiers xml, un par un, nous nous sommes aperçu que la rubrique que nous avons choisie (technologie : 2,0.-651865. 1-0-0) n’était pas mise à jour quotidiennement.

En regardant le résultat affiché pendant l’exécution du code, le script traitait le dossier dans un ordre qui ne correspondait pas l’ordre temporel, c’est-à-dire 1-10-11-12-13-14-15-2 etc., au lieu de 1-2-3-4-5 etc. Il manquait donc un zéro avant les unités.

Ces deux phénomènes associés engendraient le mauvais résultat obtenu au départ (doublons).

 Une question de nature éthique s’impose :

Est-ce qu’on doit être fidèles aux statistiques donc inclure les doublons ?

Marco & Nassim.

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :