pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

PED07-ME

Posted in Projet 2006-2007 by pluritaluser on 12 octobre 2006

EZZAT, Mani

Récupération faite à la main de données brutes à travers un moteur de recherche (www.google.com) :

Trois URLs au hasard parmis la masse d’occurences en entrant le mot « barrage » :

http://www.ville-frejus.fr/hermes/patrimoine/malpasset.htm (barrage hydraulique)

http://met.wallonie.be/opencms/opencms/fr/chantiers/realisation_0003.html (barrage hydraulique)

http://www.eurotoques-belgique.be/en/membre/216 (nom d’un restaurant)

On s’aperçoit rapidement que la grande majorité des résultats renvoient vers le sens du barrage hydraulique (Ce qui laisserai peut-être entendre que Google effectue un trie sémentique au préalable, et n’écume pas toutes les pages du monde, ou de sa base de donnée)

—————-

Sur le corpus de Le Monde :

http://sfmac.no-ip.com/corpusLeMonde/HTML/040201/data/article_ (nécessite L/P, match de barrage en football)

http://sfmac.no-ip.com/corpusLeMonde/HTML/050304/data/article_ (nécessite L/P, barrage hydraulique)

Après une brève recherche (toujours manuelle) les principales occurences parlent de barrages hydrauliques ou de sports, informations relatives à un journal. D’autres occurences que celle-ci pourront paraître inhabituelles, mais on peut néanmoins penser que l’on peut trouver facilement ce mot dans son sens d’obstacle, et qui peut apparaître dans divers sujets.

———-

Le principal problème rencontré concerne l’automatisation de tâches fastidieuses, sans laquelle l’utilisateur se fatigue, s’engouffre dans un déluge d’informations qui prend du temps à trier, et bien entendu, ne sera jamais exhaustif. Pas d’index, ni de stockage (sans manipulations annexes)

Publicités

Commentaires fermés sur PED07-ME

%d blogueurs aiment cette page :