pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

J’ai bien aimé la commande change directory

Posted in Projet 2007-2008 by pluritaluser on 21 octobre 2008

J’ai bien aimé la commande change directory (cd) qui nous permet de changer de répertoire, c’est à dire, de se ballader dans les répertoires existants.

On peut l’utiliser soit avec un chemin d’accès absolu:
cd /cygdrive/c/PluriTal/Pgmation\et\projet\encadré/

Soit avec un chemin d’accès relatif (l’anti-slash correspond à l’espace sous win):
cd /Cours\Unix

Soit pour retourner à home qui est symbolisé par le premier /
cd /

Soit aller 1 répertoire en arrière
cd ..

Soit aller 2 répertoires en arrière
cd ../..

Soit aller 3 répertoires en arrière
cd ../../..

Françoise Del Socorro

Publicités

Bonjour c’est nous !

Posted in Navigations dans le Monde, Projet 2007-2008 by pluritaluser on 16 avril 2008

Bonjour !

En ce 16 avril 2008, nous avons travaillé !

Nous nous sommes répartis les taches.

Voyages, Environnement-Sciences, Livres et Rendez-Vous se coltineront Ludivine.
A La une, Europe, Médias, et Sport devront supporter Karl.
Cinéma, Examen, Municipales 2007 (lui, il est pas bien fini…) et Techno héritent de Wakako.
Culture, France-Société et Opinion se ramassent Anne-Claire.
Quant aux malheureux Economie, International et Politique, ils se farciront Quentin.

signé : Les Fils RSS

Tagged with: ,

Travaux Réalisés – Master TAL Semestre 1 – 2007/2008

Posted in Projet 2007-2008 by tal-p3 on 25 décembre 2007

Mini-projet bilingue : la vie des mots sur le web

Posted in Projet 2007-2008 by pluritaluser on 24 novembre 2007

Par Sylvia Ombuya et Norolalaina Rakotomalala

Introduction

Dans le cadre de validation de notre projet TAL, nous avons été amenées à construire un lexique bilingue français-anglais. Ceci consiste à trouver un mot ambigu en français qui serait traduit par plusieurs termes en anglais selon le contexte.

La première étape de notre travail consisterait à énumérer le choix du mot, la recherche des URL, l’aspiration des pages sur « cygwin » avec la commande « wget -i » et les difficultés rencontrées.

Le choix du mot

Nous avons cherché chacune de notre côté un mot ambigu en français avec ses différents sens en anglais. Après plusieurs essais nous avons opté pour le mot « piste ». La raison étant que c’etait un mot vraiment ambigu dont on pourrait facilement trouver des pages de mots correspondants en anglais sur le web.

Voici les differents sens que nous avons choisis parmi tous les sens qui existent au mot piste:

Français anglais
Piste d’avion runway
Piste d’enquête Lead, clue, evidence
Piste (jeu) Hare and hounds, paper chasse
Piste de musique soundtrack
Piste de sport track

La recherche des URL

Avant d’y arriver, Nous nous sommes heurtées à la complexité de trouver les pages web en anglais qui seraient équivalentes aux sens du mot trouvé en français. Le choix du moteur de recherche était avéré important; dans ce cas, nous avons utilisé Google et et le site widepress.

Liens vers les URL en format texte

piste d’avion

avion1

avion2

avion3

avion4

avion5

avion6

avion7

avion8

avion9

avion10

avion11

avion12

Enquête

enquête1

enquête2

enquête3

enquête4

enquête5

enquête6

enquête7

enquête8

enquête9

enquête10

Jeu

jeu1

jeu2

jeu3

jeu4

Musique

musique1

musique2

musique3

musique4

musique5

Soundtrack

soundtrack1

soundtrack2

soundtrack3

soundtrack4

soundtrack5

Sport

sport1

sport2

sport3

sport4

sport5

sport6

sport7

Track

track1

track2

track3

track4

track5

track6

track7

L’aspiration des pages web

A partir de nos URL stockés en format texte, nous avons utilisé le commande wget -i sur cygwin pour la recuperation des pages. Parmi nos URL recupérés nous avons constaté que certaines pages n’existaient plus sur le web (les pages que nous avons nommées éphémères) .

Pour l’aspiration des contenus de nos URL nous avons exécuté la commande wget -i autant de fois que les différents sens choisis du mot piste.

Voici l’image capture d’ecran de la commande wget -i

Capture ecran commande wget -i

Créations des tableaux

Suite à l’étape précédente nous avons créé differents tableaux contenant les URLS avec un lien vers les pages web. Pour cela nous avons créé un script pour chaque sens.

#!/bin/bashecho « Donnez le nom du fichier contenant les liens http : « ;read fic;echo « donnez le nom de fichier html ou stocker ces liens : « ;read tablo;echo « <html><head><title>taleau de liens</title></head><body><table border=1> » > $tablo;i=1

for nom in `cat $fic`

{

wget -O ./pg-aspirees/avion-runway.txt/$i.html $nom

# faire le lynx ici

echo « <tr><td><a href=\ »$nom\ »>$nom</a></td><td><a href=\ »../pg-aspirees/avion-runway.txt/$i.html\ »>$i.html</a></td><td><a href=\ »../dump-texte/$i.txt\ »>page dump</a></td></tr> » >> $tablo;

let « i+=1 » ;

}

echo « <table></body></html> » >> $tablo;

Voici un exemple des résultats obtenus:

http://www.lefigaro.fr/international/20071016.WWW000000262_grosse_frayeur_sur_une_piste_de_laeroport_dheathrow.html 1.html
http://fr.news.yahoo.com/ap/20071015/twl-gb-avions-incident-heathrow-1be00ca_2.html 2.html
http://fr.news.yahoo.com/ap/20071015/twl-gb-avions-incident-heathrow-1be00ca_1.html 3.html
http://www.lexpansion.com/economie/actualite-high-tech/les-fondateurs-de-google-se-louent-une-piste-d-atterrissage-de-la-nasa_126182.html 4.html
http://www.liberation.fr/actualite/sciences/224882.FR.php 5.html
http://www.acee-ceaa.gc.ca/010/0003/0009/index_f.htm 6.html
http://www.innovationstrategy.gc.ca/gol/innovation/site.nsf/fr/in04847.html 7.html
http://www.theglobeandmail.com/servlet/story/RTGAM.20071022.windocrash1022/BNStory/International/?page=rss&id=RTGAM.20071022.windocrash1022 8.html
http://www.guardian.co.uk/uslatest/story/0,,-7014548,00.html 9.html
http://www.smh.com.au/news/World/Pilot-blamed-over-Indonesian-plane-crash/2007/10/22/1192940973561.html 10.html
http://www.theglobeandmail.com/servlet/story/LAC.20071022.CRASHSAFETY22/TPStory/TPNational/?page=rss&id=GAM.20071022.CRASHSAFETY22 11.html
http://news.ninemsn.com.au/article.aspx?id=60063&rss=yes 12.html

Prochainement création de tableau avec la commande lynx.

Frontière et discrimination des mots en japonais

Posted in pluriTAL, Projet 2007-2008 by pluritaluser on 19 novembre 2007

Bonjour,

Ce post concerne plus particulièrement ceux qui ont choisi de travailler avec le japonais. Il s’agit d’un problème que j’ai rencontré lors de l’étape de collecte des URL (je vais donc revenir un peu en arrière), mais qui va certainement se reposer pour l’extraction des contextes, comme l’évoquait M. Fleury lors du dernier cours.

Je m’explique : je travaille sur le mot société et j’ai sélectionné cinq acceptions :
1. La société au sens sociologique : la vie en groupe ;
2. En tant que contrat entre plusieurs parties : l’entreprise ;
3. En tant qu’association fondée sur une communauté d’idées ou d’intérêt : les sociétés savantes p.ex. ;
4. L’ensemble des relations mondaines : “briller en société”, “danses de société” ;
5. Enfin, un cas particulier : la Société des Nations de nos cours d’histoire du collège.

[Je signale au passage que j’ai abandonné un sens, important bien qu’un peu désuet peut-être : “compagnie de qqn” (ex : “rechercher la société des femmes”). En effet sa traduction en japonais recoupait trop souvent celles de l’acception 4 (mondanité) : shakô 社交 et kôsai 交際, qui désignent toutes deux les “fréquentations”, les “relations sociales”, etc.]

J’en reviens à l’objet de ce post, qui concerne la première traduction japonaise que j’avais choisie pour l’acception 3 d »e société » (association savante, militante, etc.) : kai . Très pratique puisqu’elle permettait de retrouver à la fois les –kyôkai 協会 (sens très large : tout type d’association, fondation, société -à but non lucratif) et les -gakkai 学会 (société savante uniquement), deux sens que recouvre l’acception française. MAIS… ceux qui parlent japonais auront compris, le problème se situe très précisément dans la trouvaille : en choisissant un mot minimal comme kai 会, j’étais bonne pour ramasser tous les termes comportant le kanji 会, dont un certain nombre a, manque de bol, une fâcheuse tendance à proliférer sur les sites desdites associations : shûkai 集会 (réunion), sôgôkai 総合会 (congrès), kôenkai 講演会 (conférence), etc. Hoho.

Ben oui, en japonais pas de blanc typographique entre les mots. La recherche simple d’un kanji courant (c’est le cas de 会), mais aussi de tout mot auquel on peut adjoindre des “affixes” -au sens large- (ex : 社会+的・主義・学… = socialement, socialisme, sociologie) produit donc beaucoup de bruit ! Pour remédier à ce problème, je vois pour l’instant deux solutions, une linguistique, l’autre plus informatique :
a. “forcer” un peu la traduction (c’est ce que j’ai fait en optant pour la traduction plus retreinte 学会 -qui exclut toutes les sociétés de passionnés et d’amateurs non estampillés “scientifique”) mais ca ne règle pas le problème de fond et ca ne marche pas à tous les coups, ou :
b. contraindre le contexte lors de la recherche ; ce qui demande de répertorier les caractères qu’on veut exclure du contexte. Ca je sais pas encore faire.

Si certains d’entre vous ont pensé à autre chose encore. Avis bienvenus !

Voila voila.

Bonne journée !
Sarah

ps méta : Est-ce que quelqu’un saurait comment insérer des notes dans un post ? Ca me permettrait d’être un peu plus lisible…

Tagged with: ,

Aspiration des pages web avec la commande wget

Posted in Projet 2007-2008 by pluritaluser on 14 novembre 2007

Bonsoir,

Nous avons jusque là recensé et gardé 7 sens pour le mot“raison” pour les langues française,bulgare et arabe.

Il nous faut maintenant aspirer les pages web contenus dans des fichiers .txt.Pour chaque sens et pour chaque langue,nous avons créer un dossier que nous avons appellé sens1, sens2, sens3 etc…Dans chacun de ces répertoires,il y a les fichiers correpondants.

Nous avons appris en cours comment aspirer les pages web avec la commande wget sous cygwin.

Pour récupérer ces pages àpartir d’un fichier .txt, il faut tout d’abord seplacer dans le sous répertoire qui va contenir lespages web aspirés.

Une fois que l’on est dans ce sous répertoire, on lance la commande wget tout en s’assurant que le nom de chemin qui la suit est celui qui
contient le fichier d’URL.

ex :

je suis sous cygwin dans le répertoire suivant

C:\Documents and Settings\Nadia\Mes documents\masterTAL\projet_encadre\pages_aspirees\francais\sens1

c’est « ce répertoire qui récupérera » les pages web aspirées correspondant au sens 1 de raison en français

avec wget -i,je vais chercher le fichier sens1fr.txt, donc je dois remonter dans l’arborescence:

 

 

je tape donc sous cygwin la commande suivante:

wget-i ../../../sens/sens1fr.txt

 

 

 et voici mes page aspirées dans le sous repertoire où je me trouvais avec Cygwin

prochainement, le script du tableau avec les urls.

MN

Ludivine et A-Claire

Posted in Projet 2007-2008 by pluritaluser on 31 octobre 2007

Création d’un blog pour faire part de l’avancement du projet !

L’adresse : http://projetencadre.canalblog.com/

(Très bonne idée, je vais suivre son évolution en lisant le fil RSS de votre blog. SF)

faire-part de naissance

Posted in Projet 2007-2008 by pluritaluser on 25 octobre 2007

bonjour à tous.

ce billet pour vous signaler la création de notre blog consacré au projet encadré. nous avons choisi de travailler sur le terme
自然 (nature) et d’en analyser les variations d’emplois en chinois et en japonais.

http://shizen-ziran.blogspot.com/

PM; JT

Le mot : raison (Nadia et Mariya) (4)

Posted in Projet 2007-2008 by pluritaluser on 23 octobre 2007

Après avoir collecté plusieurs URLs en français puis en arabe, en voici pour le bulgare.

Tout comme pour l’arabe, il est assez difficile de trouver les mêmes sens qu’en français et parfois, il nous est arrivé de trouver plusieurs expressions en arabe pour un seul sens en français. Google a été le moteur de recherche le plus utilisé et le plus fructueux mais nous avons aussi travailler avec des moteurs de recherche de presse en ligne notamment pour l’arabe : bbcarabic.com/aljazeera.net….

avoir raison

  1. lien

avoir sa raison pas encore trouvé
donner obtenir raison pas encore trouvé

en raison de

  1. lien
  2. lien
  3. lien
  4. lien
  5. lien
  6. lien
  7. lien

raison sociale pas encore trouvé

raison en mathématiques

  1. lien

à raison de

  1. lien

Mariya & Nadia

Le mot : raison (Nadia et Mariya) (3)

Posted in Projet 2007-2008 by pluritaluser on 23 octobre 2007

Voici un lien nous permettant de voir plus clair au niveau des différents usages et sens du mot « raison » en français :

Le mot : raison (Nadia et Mariya) (2)

Posted in Projet 2007-2008 by pluritaluser on 21 octobre 2007

Les langues sur lesquelles nous avons choisi de travailler en parallèle avec le français, sont le bulgare et l’arabe, voici les liens en arabe correspondant aux différents usages du mot « raison » en français :

avoir raison :

  1. lien
  2. lien
  3. lien

avoir sa raison :

  1. lien
  2. lien

donner/obtenir raison :

  1. lien
  2. lien

en raison de :

  1. lien
  2. lien

pour raison de (pour des raisons de) :

  1. lien
  2. lien

raison sociale :

  1. lien
  2. lien
  3. lien

j’ai encore beaucoup de mal à trouver des liens en arabe faisant référence aux raisons en mathématiques

Le mot : raison (Nadia et Mariya) (1)

Posted in Projet 2007-2008 by pluritaluser on 15 octobre 2007

Nous avons choisi, Mariya et moi, de travailler sur le mot “raison”. Il a évidemment plusieurs usages mais nous avons décidé de n’en retenir pour le moment que 7. A terme nous en aurons un peu moins ou un peu plus.
Voici les URLs collectées correspondant à ces 7 usages.

sens 1 : avoir raison

  1. lien
  2. lien
  3. lien
  4. lien

sens 2 : avoir sa raison

  1. lien
  2. lien
  3. lien

sens 3 : donner/obtenir raison

  1. lien
  2. lien
  3. lien
  4. lien

sens 4 : en raison de

  1. lien
  2. lien
  3. lien

sens 5 : pour raison de

  1. lien
  2. lien
  3. lien
  4. lien

sens 6 : raison sociale

  1. lien
  2. lien
  3. lien
  4. lien
  5. lien

sens 7 : les raisons en mathématiques

  1. lien
  2. lien
  3. lien
  4. lien

sens 8: à raison de

  1. lien
  2. lien
  3. lien
  4. lien
  5. lien