pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Mini-projet bilingue : la vie des mots sur le web

Posted in Projet 2007-2008 by pluritaluser on 24 novembre 2007

Par Sylvia Ombuya et Norolalaina Rakotomalala

Introduction

Dans le cadre de validation de notre projet TAL, nous avons été amenées à construire un lexique bilingue français-anglais. Ceci consiste à trouver un mot ambigu en français qui serait traduit par plusieurs termes en anglais selon le contexte.

La première étape de notre travail consisterait à énumérer le choix du mot, la recherche des URL, l’aspiration des pages sur « cygwin » avec la commande « wget -i » et les difficultés rencontrées.

Le choix du mot

Nous avons cherché chacune de notre côté un mot ambigu en français avec ses différents sens en anglais. Après plusieurs essais nous avons opté pour le mot « piste ». La raison étant que c’etait un mot vraiment ambigu dont on pourrait facilement trouver des pages de mots correspondants en anglais sur le web.

Voici les differents sens que nous avons choisis parmi tous les sens qui existent au mot piste:

Français anglais
Piste d’avion runway
Piste d’enquête Lead, clue, evidence
Piste (jeu) Hare and hounds, paper chasse
Piste de musique soundtrack
Piste de sport track

La recherche des URL

Avant d’y arriver, Nous nous sommes heurtées à la complexité de trouver les pages web en anglais qui seraient équivalentes aux sens du mot trouvé en français. Le choix du moteur de recherche était avéré important; dans ce cas, nous avons utilisé Google et et le site widepress.

Liens vers les URL en format texte

piste d’avion

avion1

avion2

avion3

avion4

avion5

avion6

avion7

avion8

avion9

avion10

avion11

avion12

Enquête

enquête1

enquête2

enquête3

enquête4

enquête5

enquête6

enquête7

enquête8

enquête9

enquête10

Jeu

jeu1

jeu2

jeu3

jeu4

Musique

musique1

musique2

musique3

musique4

musique5

Soundtrack

soundtrack1

soundtrack2

soundtrack3

soundtrack4

soundtrack5

Sport

sport1

sport2

sport3

sport4

sport5

sport6

sport7

Track

track1

track2

track3

track4

track5

track6

track7

L’aspiration des pages web

A partir de nos URL stockés en format texte, nous avons utilisé le commande wget -i sur cygwin pour la recuperation des pages. Parmi nos URL recupérés nous avons constaté que certaines pages n’existaient plus sur le web (les pages que nous avons nommées éphémères) .

Pour l’aspiration des contenus de nos URL nous avons exécuté la commande wget -i autant de fois que les différents sens choisis du mot piste.

Voici l’image capture d’ecran de la commande wget -i

Capture ecran commande wget -i

Créations des tableaux

Suite à l’étape précédente nous avons créé differents tableaux contenant les URLS avec un lien vers les pages web. Pour cela nous avons créé un script pour chaque sens.

#!/bin/bashecho « Donnez le nom du fichier contenant les liens http : « ;read fic;echo « donnez le nom de fichier html ou stocker ces liens : « ;read tablo;echo « <html><head><title>taleau de liens</title></head><body><table border=1> » > $tablo;i=1

for nom in `cat $fic`

{

wget -O ./pg-aspirees/avion-runway.txt/$i.html $nom

# faire le lynx ici

echo « <tr><td><a href=\ »$nom\ »>$nom</a></td><td><a href=\ »../pg-aspirees/avion-runway.txt/$i.html\ »>$i.html</a></td><td><a href=\ »../dump-texte/$i.txt\ »>page dump</a></td></tr> » >> $tablo;

let « i+=1 » ;

}

echo « <table></body></html> » >> $tablo;

Voici un exemple des résultats obtenus:

http://www.lefigaro.fr/international/20071016.WWW000000262_grosse_frayeur_sur_une_piste_de_laeroport_dheathrow.html 1.html
http://fr.news.yahoo.com/ap/20071015/twl-gb-avions-incident-heathrow-1be00ca_2.html 2.html
http://fr.news.yahoo.com/ap/20071015/twl-gb-avions-incident-heathrow-1be00ca_1.html 3.html
http://www.lexpansion.com/economie/actualite-high-tech/les-fondateurs-de-google-se-louent-une-piste-d-atterrissage-de-la-nasa_126182.html 4.html
http://www.liberation.fr/actualite/sciences/224882.FR.php 5.html
http://www.acee-ceaa.gc.ca/010/0003/0009/index_f.htm 6.html
http://www.innovationstrategy.gc.ca/gol/innovation/site.nsf/fr/in04847.html 7.html
http://www.theglobeandmail.com/servlet/story/RTGAM.20071022.windocrash1022/BNStory/International/?page=rss&id=RTGAM.20071022.windocrash1022 8.html
http://www.guardian.co.uk/uslatest/story/0,,-7014548,00.html 9.html
http://www.smh.com.au/news/World/Pilot-blamed-over-Indonesian-plane-crash/2007/10/22/1192940973561.html 10.html
http://www.theglobeandmail.com/servlet/story/LAC.20071022.CRASHSAFETY22/TPStory/TPNational/?page=rss&id=GAM.20071022.CRASHSAFETY22 11.html
http://news.ninemsn.com.au/article.aspx?id=60063&rss=yes 12.html

Prochainement création de tableau avec la commande lynx.

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :