pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Mini-projet bilingue : la vie des mots sur le web

Posted in Projet 2007-2008 by pluritaluser on 24 novembre 2007

Par Sylvia Ombuya et Norolalaina Rakotomalala

Introduction

Dans le cadre de validation de notre projet TAL, nous avons été amenées à construire un lexique bilingue français-anglais. Ceci consiste à trouver un mot ambigu en français qui serait traduit par plusieurs termes en anglais selon le contexte.

La première étape de notre travail consisterait à énumérer le choix du mot, la recherche des URL, l’aspiration des pages sur « cygwin » avec la commande « wget -i » et les difficultés rencontrées.

Le choix du mot

Nous avons cherché chacune de notre côté un mot ambigu en français avec ses différents sens en anglais. Après plusieurs essais nous avons opté pour le mot « piste ». La raison étant que c’etait un mot vraiment ambigu dont on pourrait facilement trouver des pages de mots correspondants en anglais sur le web.

Voici les differents sens que nous avons choisis parmi tous les sens qui existent au mot piste:

Français anglais
Piste d’avion runway
Piste d’enquête Lead, clue, evidence
Piste (jeu) Hare and hounds, paper chasse
Piste de musique soundtrack
Piste de sport track

La recherche des URL

Avant d’y arriver, Nous nous sommes heurtées à la complexité de trouver les pages web en anglais qui seraient équivalentes aux sens du mot trouvé en français. Le choix du moteur de recherche était avéré important; dans ce cas, nous avons utilisé Google et et le site widepress.

Liens vers les URL en format texte

piste d’avion

avion1

avion2

avion3

avion4

avion5

avion6

avion7

avion8

avion9

avion10

avion11

avion12

Enquête

enquête1

enquête2

enquête3

enquête4

enquête5

enquête6

enquête7

enquête8

enquête9

enquête10

Jeu

jeu1

jeu2

jeu3

jeu4

Musique

musique1

musique2

musique3

musique4

musique5

Soundtrack

soundtrack1

soundtrack2

soundtrack3

soundtrack4

soundtrack5

Sport

sport1

sport2

sport3

sport4

sport5

sport6

sport7

Track

track1

track2

track3

track4

track5

track6

track7

L’aspiration des pages web

A partir de nos URL stockés en format texte, nous avons utilisé le commande wget -i sur cygwin pour la recuperation des pages. Parmi nos URL recupérés nous avons constaté que certaines pages n’existaient plus sur le web (les pages que nous avons nommées éphémères) .

Pour l’aspiration des contenus de nos URL nous avons exécuté la commande wget -i autant de fois que les différents sens choisis du mot piste.

Voici l’image capture d’ecran de la commande wget -i

Capture ecran commande wget -i

Créations des tableaux

Suite à l’étape précédente nous avons créé differents tableaux contenant les URLS avec un lien vers les pages web. Pour cela nous avons créé un script pour chaque sens.

#!/bin/bashecho « Donnez le nom du fichier contenant les liens http : « ;read fic;echo « donnez le nom de fichier html ou stocker ces liens : « ;read tablo;echo « <html><head><title>taleau de liens</title></head><body><table border=1> » > $tablo;i=1

for nom in `cat $fic`

{

wget -O ./pg-aspirees/avion-runway.txt/$i.html $nom

# faire le lynx ici

echo « <tr><td><a href=\ »$nom\ »>$nom</a></td><td><a href=\ »../pg-aspirees/avion-runway.txt/$i.html\ »>$i.html</a></td><td><a href=\ »../dump-texte/$i.txt\ »>page dump</a></td></tr> » >> $tablo;

let « i+=1 » ;

}

echo « <table></body></html> » >> $tablo;

Voici un exemple des résultats obtenus:

http://www.lefigaro.fr/international/20071016.WWW000000262_grosse_frayeur_sur_une_piste_de_laeroport_dheathrow.html 1.html
http://fr.news.yahoo.com/ap/20071015/twl-gb-avions-incident-heathrow-1be00ca_2.html 2.html
http://fr.news.yahoo.com/ap/20071015/twl-gb-avions-incident-heathrow-1be00ca_1.html 3.html
http://www.lexpansion.com/economie/actualite-high-tech/les-fondateurs-de-google-se-louent-une-piste-d-atterrissage-de-la-nasa_126182.html 4.html
http://www.liberation.fr/actualite/sciences/224882.FR.php 5.html
http://www.acee-ceaa.gc.ca/010/0003/0009/index_f.htm 6.html
http://www.innovationstrategy.gc.ca/gol/innovation/site.nsf/fr/in04847.html 7.html
http://www.theglobeandmail.com/servlet/story/RTGAM.20071022.windocrash1022/BNStory/International/?page=rss&id=RTGAM.20071022.windocrash1022 8.html
http://www.guardian.co.uk/uslatest/story/0,,-7014548,00.html 9.html
http://www.smh.com.au/news/World/Pilot-blamed-over-Indonesian-plane-crash/2007/10/22/1192940973561.html 10.html
http://www.theglobeandmail.com/servlet/story/LAC.20071022.CRASHSAFETY22/TPStory/TPNational/?page=rss&id=GAM.20071022.CRASHSAFETY22 11.html
http://news.ninemsn.com.au/article.aspx?id=60063&rss=yes 12.html

Prochainement création de tableau avec la commande lynx.

Frontière et discrimination des mots en japonais

Posted in pluriTAL, Projet 2007-2008 by pluritaluser on 19 novembre 2007

Bonjour,

Ce post concerne plus particulièrement ceux qui ont choisi de travailler avec le japonais. Il s’agit d’un problème que j’ai rencontré lors de l’étape de collecte des URL (je vais donc revenir un peu en arrière), mais qui va certainement se reposer pour l’extraction des contextes, comme l’évoquait M. Fleury lors du dernier cours.

Je m’explique : je travaille sur le mot société et j’ai sélectionné cinq acceptions :
1. La société au sens sociologique : la vie en groupe ;
2. En tant que contrat entre plusieurs parties : l’entreprise ;
3. En tant qu’association fondée sur une communauté d’idées ou d’intérêt : les sociétés savantes p.ex. ;
4. L’ensemble des relations mondaines : “briller en société”, “danses de société” ;
5. Enfin, un cas particulier : la Société des Nations de nos cours d’histoire du collège.

[Je signale au passage que j’ai abandonné un sens, important bien qu’un peu désuet peut-être : “compagnie de qqn” (ex : “rechercher la société des femmes”). En effet sa traduction en japonais recoupait trop souvent celles de l’acception 4 (mondanité) : shakô 社交 et kôsai 交際, qui désignent toutes deux les “fréquentations”, les “relations sociales”, etc.]

J’en reviens à l’objet de ce post, qui concerne la première traduction japonaise que j’avais choisie pour l’acception 3 d »e société » (association savante, militante, etc.) : kai . Très pratique puisqu’elle permettait de retrouver à la fois les –kyôkai 協会 (sens très large : tout type d’association, fondation, société -à but non lucratif) et les -gakkai 学会 (société savante uniquement), deux sens que recouvre l’acception française. MAIS… ceux qui parlent japonais auront compris, le problème se situe très précisément dans la trouvaille : en choisissant un mot minimal comme kai 会, j’étais bonne pour ramasser tous les termes comportant le kanji 会, dont un certain nombre a, manque de bol, une fâcheuse tendance à proliférer sur les sites desdites associations : shûkai 集会 (réunion), sôgôkai 総合会 (congrès), kôenkai 講演会 (conférence), etc. Hoho.

Ben oui, en japonais pas de blanc typographique entre les mots. La recherche simple d’un kanji courant (c’est le cas de 会), mais aussi de tout mot auquel on peut adjoindre des “affixes” -au sens large- (ex : 社会+的・主義・学… = socialement, socialisme, sociologie) produit donc beaucoup de bruit ! Pour remédier à ce problème, je vois pour l’instant deux solutions, une linguistique, l’autre plus informatique :
a. “forcer” un peu la traduction (c’est ce que j’ai fait en optant pour la traduction plus retreinte 学会 -qui exclut toutes les sociétés de passionnés et d’amateurs non estampillés “scientifique”) mais ca ne règle pas le problème de fond et ca ne marche pas à tous les coups, ou :
b. contraindre le contexte lors de la recherche ; ce qui demande de répertorier les caractères qu’on veut exclure du contexte. Ca je sais pas encore faire.

Si certains d’entre vous ont pensé à autre chose encore. Avis bienvenus !

Voila voila.

Bonne journée !
Sarah

ps méta : Est-ce que quelqu’un saurait comment insérer des notes dans un post ? Ca me permettrait d’être un peu plus lisible…

Tagged with: ,

Aspiration des pages web avec la commande wget

Posted in Projet 2007-2008 by pluritaluser on 14 novembre 2007

Bonsoir,

Nous avons jusque là recensé et gardé 7 sens pour le mot“raison” pour les langues française,bulgare et arabe.

Il nous faut maintenant aspirer les pages web contenus dans des fichiers .txt.Pour chaque sens et pour chaque langue,nous avons créer un dossier que nous avons appellé sens1, sens2, sens3 etc…Dans chacun de ces répertoires,il y a les fichiers correpondants.

Nous avons appris en cours comment aspirer les pages web avec la commande wget sous cygwin.

Pour récupérer ces pages àpartir d’un fichier .txt, il faut tout d’abord seplacer dans le sous répertoire qui va contenir lespages web aspirés.

Une fois que l’on est dans ce sous répertoire, on lance la commande wget tout en s’assurant que le nom de chemin qui la suit est celui qui
contient le fichier d’URL.

ex :

je suis sous cygwin dans le répertoire suivant

C:\Documents and Settings\Nadia\Mes documents\masterTAL\projet_encadre\pages_aspirees\francais\sens1

c’est « ce répertoire qui récupérera » les pages web aspirées correspondant au sens 1 de raison en français

avec wget -i,je vais chercher le fichier sens1fr.txt, donc je dois remonter dans l’arborescence:

 

 

je tape donc sous cygwin la commande suivante:

wget-i ../../../sens/sens1fr.txt

 

 

 et voici mes page aspirées dans le sous repertoire où je me trouvais avec Cygwin

prochainement, le script du tableau avec les urls.

MN