pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

un outil peut-être utile

Posted in pluriTAL by pluritaluser on 24 novembre 2008

J’avais assez de devoir supprimer à la main toutes les fichiers créés par le script quand je le lançais à nouveau. J’ai essayé alors de l’automatiser. J’ai fait un petit script qui nettoye tous les répertoires de travail du projet – Pages Aspirées, Dump-Text, Tableaux, Contextes – et en plus nous positionne automatiquement dans le répertoire du projet sans nous forcer de le faire à la main. Rien de grand mais ça aide. Fonctionnement est commenté  sur le blog et à l’intérieur du script: il faut juste créer un fichier txt contenant le chemin absolu de notre répertoire de travail: une fois pour toutes et le mettre dans le répertoire ou cygwin commence (/cygdrive/c/home/utilisateur/ comme default.

Bon travail, si cela peut aider.
www.laviedesmots.over-blog.com

Agnieszka

Notre blog

Posted in pluriTAL, Projet 2008-2009 by pluritaluser on 19 novembre 2008

Voici notre Blog : http://laviedesmotssurleweb.hautetfort.com/
Cécile / Anna/ Nassim

dos2unix

Posted in pluriTAL by pluritaluser on 19 novembre 2008

Je viens de trouver comment faire marcher un script qui contient des marques de \r.

En fait, la fonction dos2unix nom_de_fichier.sh n’a pas marché sur ma machine.

Je suis très contente de réussir à « runner » mon script avec:

tr -d ‘\r’ < nom_de_fichier.sh > nom_de_fichier_modeunix.sh

qui enlève les marques \r et crée un nouveau fichier.

Ginka Yankova

lynx : un navigateur hypertexte

Posted in pluriTAL by pluritaluser on 18 novembre 2008

Le logiciel lynx nous permet de naviguer sur internet (comme tout navigateur, tel que internet explorer ou mozilla firefox) à la différence qu’il nous permet de surfer sur le net directement depuis notre console Unix – qui plus est, lynx n’affiche que le texte contenu sur les pages web.

utiliser la commande  » lynx http://&#8230;  » dans la console Unix nous permet de consulter le site choisi, mais l’option -dump de lynx est plus intéressante encore : elle nous donne la possibilité de transférer tout le texte contenu sur une page web vers un emplacement choisi. Si l’on ne choisit pas d’emplacement, le texte sera affiché directement sur la console.

ci-contre, le lien pour récupérer lynx

à demain!

Hugo Fol

Meglio tardi che mai

Posted in pluriTAL by pluritaluser on 17 novembre 2008

Ce proverbe italien me fournit le prétexte pour me présenter à tout le monde.

Marco FOSSATI

hell.j.fox@alice.it

Sa traduction?

Mieux tard que jamais

Sur le cours de syntaxe automatique

Posted in pluriTAL by pluritaluser on 17 novembre 2008

 

Question 1:

*Il y a 119 mots au total on y rencontre des problèmes d’étiquetage lexical:

LA dét | pron

COCHER nom | verbe

DEHORS prép | adv | interj | nom (d’après http://atilf.atilf.fr/)

etc…

*morphologique:

ASSÉCHÉE verbe (participe passé) | adjectif

BALLOTTÉE verbe (participe passé) | adjectif

AU prép + dét

DU prép + dét

NE … PAS adv … adv

etc…

*sémantique:

Comment relier les conjonctions « et », « ou », « lorsque » etc… aux syntagmes ?

*syntaxique:

On a une très grande quantité de constructions possibles avec les GP -> XY.

GP -> GP GP | Prép GP | Prép GN | GN GV…

Je pense qu’il y a aussi des problèmes avec les verbes au participe passé: quelle est la règle syntaxique pour un participe passé qui se réalise comme un verbe et quelle est la règle syntaxique pour un participe passé qui se réalise comme un adjectif ?

Et finalement il faut penser aux structures des propositions relatives dont le sujet ou l’objet est omis en les considérant comme un morceau d’arbre où une partie ne sera pas analysée. Je ne sais pas si les participes présents se comportent comme des relatives ou pas.

 

La diligence. Pour vous, c’est encore le seul moyen, en dehors de la marche ou d’un cabriolet, de rejoindre Saint-Martin-de-l’Our. Il vous est naturel de vous retrouver au milieu des montagnes, confinée dans cette chaise roulante aux relents de sueur, de nourriture et de crottin, sonnée par le vacarme infernal des roues cerclées de fer qui écrasent la terre et rebondissent sur les pierres, ballottée par une suspension sommaire, rebondissant jusqu’au plafond lorsque la maladresse du cocher n’a pu contourner le creux d’une fondrière asséchée, retombant brutalement sur la banquette dont la bourre écrasée n’est plus en mesure d’assurer une réception en douceur, soûlée de fatigue, suffoquant de poussière, et comme si cette liste de désagréments ne suffisait pas, forcée de partager votre maigre espace vital avec des passagers de plus ou moins bonne compagnie. Laquelle ne s’arrange pas à présent qu’une chaleur lourde a pris possession de l’habitacle.

 

Question 2:

Une CFG part d’un symbole initial S pour générer des syntagmes deux par deux et enfin aboutir au lexique qui n’est que superflu.

S->GN GV

GN -> GN GP

GP -> GP GP | Prép GP | Prép GN | GN GV

Généralement on ne prend pas en compte la ponctuation.

 

Question 3:

Appliquez la grammaire que vous venez de construire à votre texte sans réfléchir au sens des mots et expliquez les ambiguïtés à partir d’exemples d’analyse ascendante (texte → théorie) ou descendante (théorie → texte) que une machine pourrait rencontrer.

Donc je pense que vous pouvez mettre les deux théories vues en cours.

 

Je ne m’y connais pas en syntaxe, mais j’espère que cela vous éclairera. J’ai tendance à trop écrire donc je pense qu’on peut faire plus court.

 

Françoise Del Socorro

Cherche réparateur d’ordinateur portable.

Bonjour j’aimerai savoir si quelqu’un sait réparer les ordinateurs portables ? Car un vase plein d’eau est tombé sur le mien. Je n’ai que 40euros sur mon compte bancaire parce que je vis chez mes parents et je ne travaille pas et je n’ai pas de compte épargne. Donc je peux vous payer 40euros si vous me le réparez. Quand l’eau est tombé, ma soeur et ma cousine l’ont ouvert pour le sécher au sèche cheveux. Mais elles n’ont pas réussi à tout ouvrir, donc on ne sait pas ce qui a brûlé. Et quand je met la batterie, il croit qu’il est branché avec un fil électrique, mais il ne s’allume pas. Faire du TAL sans un ordinateur portable c’est presque impossible, je ne sais pas ce que je vais faire.

Del Socorro Françoise

Cet après midi j’ai eu l’idée de le brancher sur le courant en enlevant la batterie et il a fonctionné! Mais j’ai du mettre ma souris externe car la manuelle s’est un peu bloqué. Je n’y connais rien au niveau du matériel, je vais acheter dès que possible une nouvelle batterie. J’ai réussi à tout sauvegarder dans mon disque dur externe. J’ai peur de m’électrocuter car sans la batterie il y a un grand trou métallique, et l’ordinateur n’est toujours pas sur si il est sur la batterie ou sur le courant, ça clignote dans les deux. Je pense que je vais au CNIT pour demander. Car faire la phonologie sur un ordinateur où je ne suis pas administrateur c’est compliqué. Et faire le projet sur un ordinateur avec un trou c’est dangereux.

Del Socorro Françoise

Je viens de recevoir mon nouvel ordinateur portable, celui que j’avais choisi était heureusement hors de stock (je ne savais même pas si il y avait windows dedans car ce n’était pas écrit), là c’est ma soeur qui a choisi (et ma mère qui a payé environ 500euros en 4x),… ça ressemble à une télévision, c’est bien dans les goûts télévisuels de ma soeur, il n’y a aucun CD avec mais il y a l’étiquette de windows (donc Anna peut vendre son CD de windows à quelqu’un d’autre), donc je suppose qu’il y a Windows, c’est toujours un compaq mais nouveau et intransportable, et j’avais déjà la personnalisation… j’avais acheté un laptop cover officiel de hellokitty en chine pour 0,01euros (j’ai failli croire que l’autocollant  pour l’arrière de l’ordinateur était un ordinateur… c’est pour cela que c’est ma soeur qui a choisi l’ordinateur), en tout cas l’ordinateur est plus grand que l’autocollant, maintenant il faut installer cygwin et les autres programmes et faire mes devoirs !  Et j’installerai le ubuntu que Agnès m’a donné en échange de 4-5 CDs dans la virtual box ce weekend comme cela j’aurai aussi Linux et je pourrais commencer à le comprendre.

Françoise Del Socorro

petit problème!!

Posted in pluriTAL by pluritaluser on 16 novembre 2008

Bonjour, j’arrive enfin à créer mon tableau avec cygwin sauf que je n’arrive pas à charger les URLS. Je ne comprends pas trop pourquoi. http://http//www.artisansdusable.com/ voici l’adresse d’une page Preciso de ajuda por favor.

Merci d’avance!

Elodie N.

Notre blog

Posted in pluriTAL by pluritaluser on 12 novembre 2008

Nous avons décidé de mettre les informations de notre projet sur un blog.

Voici son adresse : http://laviedesmots.over-blog.com/

Marie, Agnieszka et Sophie

man wget

Posted in Projet 2008-2009 by tal-p3 on 11 novembre 2008

(cf message précédent…)

L’entrée du manuel pour wget sous cygwin donne la chose suivante (extrait) :

On peut aussi trouver de la documentation en ligne, par exemple ici : man wget (en français)

SF

On nous a menti (wget)

Posted in pluriTAL by pluritaluser on 11 novembre 2008

-« wget » nous a été présenté comme une commande, mais à »man wget » cygwin réponds  » no manuel entry for wget ».

-Au vu des travaux de mes camarades il s’agit plutôt d’un logiciel à télécharger.

-Si j’ai bien compris, la commande « wget -r http//www.site .com permet d’aspirer le dit site. En bouclant sur nos 50 urls on doit pouvoir tout aspirer.

-Quand à les retrouver…

Alain Courrier

Wget et l’option -i

Posted in pluriTAL by pluritaluser on 11 novembre 2008

Wget est un programme qui permet de récupérer des fichiers sur des réseaux et sur internet.
Il sert notamment à suivre les liens des pages HTML et à créer des « miroirs de sites » consultables hors-ligne.

Pour notre projet, l’option -i sera intéressante car elle nous permettra de ne pas réécrire la commande pour chaque URL, mais de lire les URLs à partir d’un fichier tableau qu’on a créé.

Marion Iché

やった(Youpi!)

Posted in pluriTAL by pluritaluser on 10 novembre 2008

Ce qui n’a pas voulu marcher pendant 2 semaines:

(dos2unix fait-tableau-v1.sh

sh fait-tableau-v1.sh)

Marche maintenant. Aucune explication,sinon de nombreuses tentatives hasardeuses, non mémorisées.

Alain Courrier

Modif 1er script

Posted in pluriTAL, Projet 2008-2009 by pluritaluser on 10 novembre 2008

On a enlevé les 2 premiers « echo » du script fait-tablo v1 et on a enregistré les lignes de commandes qui correspondent à ces 2 « echo » sur un fichier txt dans notepad (donnees_frc pour les donnees en français, donnees_angl pour donnees en anglais et donnees_pl pour donnees en plonais . Dans ce fichier txt on a ecrit  ../URL/urlfrançais.txt et ../TABLEAUX/tableauenfrancaisavecclik.html , exemple du français) .

On a pris le premier script fait-tablo v1 et pour rendre les url cliquables dans le tableau,
on a ajouté la balise <href> dans le 1er echo de la boucle for

on execute donc 3 fois la commande sh + le script fait-tableau v1 modifié + < + donnes_frc (ou angl ou pl )

Cécile Darmé, Nassim Zellal et Anna Anna

Comment fonctionne WGET ?

Posted in Projet 2008-2009 by pluritaluser on 10 novembre 2008

WGET est un logiciel de téléchargement libre. Il permet le téléchargement de fichiers sur des réseaux et internet. Il est écrit en C. Il est principalement utilisé sous Unix.

Après avoir aspiré les fichiers, il vérifie automatiquement si il a eu des mises à jour sur les fichiers aspirés.

Pour l’utiliser, on entre dans la fenêtre de commande : wget http://…&#8230; (une URL)

Je pense qu’on pourrait peut être utiliser les chevrons pour dire qu’on veut prendre les fichiers des URLS contenus dans nos tableaux ( wget < tablo.txt). Par contre,  je n’ai pas bien compris quel format prendrait le résultat de l’aspiration et je ne sais pas non plus vers où on redirigera ce résultat.

Sophie PAPAZOGLOU

Wget – Ce qui se passe probablement avec wget

Posted in pluriTAL, Projet 2008-2009 by pluritaluser on 8 novembre 2008
J’ai tapé à l’écran une commande bash pour qu’elle éxécute mon programme V1PT.sh qui sert à récupérer un corpus pour le mot bouchon en lui demandant d’annoter tout ce qui se passe dans le répertoire où j’étais grâce à 2>>:
$ sh ./PROGRAMMES/V1PT.sh < ./PROGRAMMES/donneespt.txt 2>>wgetexplique.txt

D’après wgetexplique.txt, wget télécharge les pages en commençant par l’adresse http:// mentionée à première ligne du fichier texte et en terminant par celle de la dernière ligne de celui-ci. Puis passe au fichier texte d’après dont l’emplacement est référencé dans donneespt.txt. Il compte chaque page téléchargée de telle sorte que i=i+1 grâce à la commande let « i+=1 » et assigne chaque numéro de page html au nom de la page téléchargée ./PAGES-ASPIREES/$i.html. Toutes les pages sont stockées dans le répertoire choisi qui s’appelle /PAGES-ASPIREES/ à l’adresse relative choisie.
D’après l’aide de wget (wget -h), wget-O écrit des documents dans un fichier (write documents to file), c’est à dire prend le code source de l’adresse http:// à laquelle $nom1 se réfère à chaque fois que la boucle tourne, et l’écrit dans un fichier tout neuf dont le nom est identique au décompte des page ($i) et qui est transformé en fichier .html grâce à l’extension. En tout cas je pense, qu’on peut décoder ce que la commande wget -O ./PAGES-ASPIREES/$i.html $nom1 fait de cette manière-là.
De plus d’après wgetexplique.txt, il note dans les propriétés de chaque page la date et l’heure de sa création (exemple: –2008-11-08 15:44:19–). A chaque fois qu’il télécharge, il prend en compte le nom de domaine et l’adresse IP du site, il s’y connecte, puis il envoi une demande, probablement une demande d’autorisation pour télécharger la page, puis la page lui dit OK. Puis il estime la longueur de la page et le type de fichier dont il s’agit [text/html] puis il sauve la page vers ./PAGES-ASPIREES/$i.html. Et une fois que le processus est finalisé il dit OK et donne la vitesse de comunication en Kilobits par secondes.
Françoise Del Socorro