Mini-projet bilingue : la vie des mots sur le web
Par Sylvia Ombuya et Norolalaina Rakotomalala
Introduction
Dans le cadre de validation de notre projet TAL, nous avons été amenées à construire un lexique bilingue français-anglais. Ceci consiste à trouver un mot ambigu en français qui serait traduit par plusieurs termes en anglais selon le contexte.
La première étape de notre travail consisterait à énumérer le choix du mot, la recherche des URL, l’aspiration des pages sur « cygwin » avec la commande « wget -i » et les difficultés rencontrées.
Le choix du mot
Nous avons cherché chacune de notre côté un mot ambigu en français avec ses différents sens en anglais. Après plusieurs essais nous avons opté pour le mot « piste ». La raison étant que c’etait un mot vraiment ambigu dont on pourrait facilement trouver des pages de mots correspondants en anglais sur le web.
Voici les differents sens que nous avons choisis parmi tous les sens qui existent au mot piste:
Français anglais Piste d’avion runway Piste d’enquête Lead, clue, evidence Piste (jeu) Hare and hounds, paper chasse Piste de musique soundtrack Piste de sport track La recherche des URL
Avant d’y arriver, Nous nous sommes heurtées à la complexité de trouver les pages web en anglais qui seraient équivalentes aux sens du mot trouvé en français. Le choix du moteur de recherche était avéré important; dans ce cas, nous avons utilisé Google et et le site widepress.
Liens vers les URL en format texte
piste d’avion
Enquête
Jeu
Musique
Soundtrack
Sport
Track
L’aspiration des pages web
A partir de nos URL stockés en format texte, nous avons utilisé le commande wget -i sur cygwin pour la recuperation des pages. Parmi nos URL recupérés nous avons constaté que certaines pages n’existaient plus sur le web (les pages que nous avons nommées éphémères) .
Pour l’aspiration des contenus de nos URL nous avons exécuté la commande wget -i autant de fois que les différents sens choisis du mot piste.
Voici l’image capture d’ecran de la commande wget -i
Créations des tableaux
Suite à l’étape précédente nous avons créé differents tableaux contenant les URLS avec un lien vers les pages web. Pour cela nous avons créé un script pour chaque sens.
#!/bin/bashecho « Donnez le nom du fichier contenant les liens http : « ;read fic;echo « donnez le nom de fichier html ou stocker ces liens : « ;read tablo;echo « <html><head><title>taleau de liens</title></head><body><table border=1> » > $tablo;i=1 for nom in `cat $fic`
{
wget -O ./pg-aspirees/avion-runway.txt/$i.html $nom
# faire le lynx ici
echo « <tr><td><a href=\ »$nom\ »>$nom</a></td><td><a href=\ »../pg-aspirees/avion-runway.txt/$i.html\ »>$i.html</a></td><td><a href=\ »../dump-texte/$i.txt\ »>page dump</a></td></tr> » >> $tablo;
let « i+=1 » ;
}
echo « <table></body></html> » >> $tablo;
Voici un exemple des résultats obtenus:
Prochainement création de tableau avec la commande lynx.
Frontière et discrimination des mots en japonais
Ce post concerne plus particulièrement ceux qui ont choisi de travailler avec le japonais. Il s’agit d’un problème que j’ai rencontré lors de l’étape de collecte des URL (je vais donc revenir un peu en arrière), mais qui va certainement se reposer pour l’extraction des contextes, comme l’évoquait M. Fleury lors du dernier cours.
Je m’explique : je travaille sur le mot société et j’ai sélectionné cinq acceptions :
1. La société au sens sociologique : la vie en groupe ;
2. En tant que contrat entre plusieurs parties : l’entreprise ;
3. En tant qu’association fondée sur une communauté d’idées ou d’intérêt : les sociétés savantes p.ex. ;
4. L’ensemble des relations mondaines : “briller en société”, “danses de société” ;
5. Enfin, un cas particulier : la Société des Nations de nos cours d’histoire du collège.
[Je signale au passage que j’ai abandonné un sens, important bien qu’un peu désuet peut-être : “compagnie de qqn” (ex : “rechercher la société des femmes”). En effet sa traduction en japonais recoupait trop souvent celles de l’acception 4 (mondanité) : shakô 社交 et kôsai 交際, qui désignent toutes deux les “fréquentations”, les “relations sociales”, etc.]
J’en reviens à l’objet de ce post, qui concerne la première traduction japonaise que j’avais choisie pour l’acception 3 d »e société » (association savante, militante, etc.) : kai 会. Très pratique puisqu’elle permettait de retrouver à la fois les –kyôkai 協会 (sens très large : tout type d’association, fondation, société -à but non lucratif) et les -gakkai 学会 (société savante uniquement), deux sens que recouvre l’acception française. MAIS… ceux qui parlent japonais auront compris, le problème se situe très précisément dans la trouvaille : en choisissant un mot minimal comme kai 会, j’étais bonne pour ramasser tous les termes comportant le kanji 会, dont un certain nombre a, manque de bol, une fâcheuse tendance à proliférer sur les sites desdites associations : shûkai 集会 (réunion), sôgôkai 総合会 (congrès), kôenkai 講演会 (conférence), etc. Hoho.
Ben oui, en japonais pas de blanc typographique entre les mots. La recherche simple d’un kanji courant (c’est le cas de 会), mais aussi de tout mot auquel on peut adjoindre des “affixes” -au sens large- (ex : 社会+的・主義・学… = socialement, socialisme, sociologie) produit donc beaucoup de bruit ! Pour remédier à ce problème, je vois pour l’instant deux solutions, une linguistique, l’autre plus informatique :
a. “forcer” un peu la traduction (c’est ce que j’ai fait en optant pour la traduction plus retreinte 学会 -qui exclut toutes les sociétés de passionnés et d’amateurs non estampillés “scientifique”) mais ca ne règle pas le problème de fond et ca ne marche pas à tous les coups, ou :
b. contraindre le contexte lors de la recherche ; ce qui demande de répertorier les caractères qu’on veut exclure du contexte. Ca je sais pas encore faire.
Si certains d’entre vous ont pensé à autre chose encore. Avis bienvenus !
Voila voila.
Bonne journée !
Sarah
ps méta : Est-ce que quelqu’un saurait comment insérer des notes dans un post ? Ca me permettrait d’être un peu plus lisible…
Aspiration des pages web avec la commande wget
Bonsoir,
Nous avons jusque là recensé et gardé 7 sens pour le mot“raison” pour les langues française,bulgare et arabe.
Il nous faut maintenant aspirer les pages web contenus dans des fichiers .txt.Pour chaque sens et pour chaque langue,nous avons créer un dossier que nous avons appellé sens1, sens2, sens3 etc…Dans chacun de ces répertoires,il y a les fichiers correpondants.
Nous avons appris en cours comment aspirer les pages web avec la commande wget sous cygwin.
Pour récupérer ces pages àpartir d’un fichier .txt, il faut tout d’abord seplacer dans le sous répertoire qui va contenir lespages web aspirés.
Une fois que l’on est dans ce sous répertoire, on lance la commande wget tout en s’assurant que le nom de chemin qui la suit est celui qui
contient le fichier d’URL.
ex :
je suis sous cygwin dans le répertoire suivant
C:\Documents and Settings\Nadia\Mes documents\masterTAL\projet_encadre\pages_aspirees\francais\sens1
c’est « ce répertoire qui récupérera » les pages web aspirées correspondant au sens 1 de raison en français
avec wget -i,je vais chercher le fichier sens1fr.txt, donc je dois remonter dans l’arborescence:
je tape donc sous cygwin la commande suivante:
wget-i ../../../sens/sens1fr.txt
et voici mes page aspirées dans le sous repertoire où je me trouvais avec Cygwin
prochainement, le script du tableau avec les urls.
MN
leave a comment