pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Les blogs du projet n°1

Posted in Projet 2009-2010 by tal-p3 on 29 octobre 2009

Synthèse : les participants du cours Projet Encadré 2009/2010

Posted in Projet 2009-2010 by tal-p3 on 29 octobre 2009
  • ACENSIO Laurie, laurieacensio[at]yahoo.fr, langues : français, anglais, espagnol
  • ANQUETIL Roxane, roxane.sable[at]hotmail.fr, langues : français, anglais, espagnol couramment et notions d’allemand
  • ARAY Basak , basak.aray[at]gmail.com, langues: Turc, Anglais, Allemand, notions de Finnois.
  • BARBIER Benjamin , dj_seto2003[at]yahoo.fr, langues : anglais, japonais, un peu chinois.
  • BEN HARIZ Soundous, benharizsondes[at]yahoo.fr, langues : français, arabe, anglais, allemand
  • BONIN Sandy , sandy.bonin[at]laposte.net, langues : Français, Anglais
  • COURT Axel , axelcourt[at]wanadoo.fr, langues : Français, anglais, un peu d’espagnol et de portugais.
  • DAMIANI Marine , marinedamiani[at]gmail.com, langues : français, anglais, notions d’allemand.
  • DA SILVA MARTINS Leidiana, leidianamartins[at]yahoo.fr, langues : Portugais, français, notions en anglais et en espagnol
  • GARRIGUE Marie, marie.garrigue[at]orange.fr, langues : français et niveau correct en allemand
  • GIBIRILA   Zouliath, frommyblock[at]yahoo.fr, langues: français, espagnol
  • GIMENEZ Johnny, johnny.gimenez[at]free.fr, langues : français (maternelle), anglais (bien mais pas bilingue),  japonais (moyen)
  • GUERRIDA Nejla, guerrida.nejla[at]yahoo.com, langues :  français, l’arabe l’anglais et un peu d’allemand.
  • Iman, nharii[at]yahoo.com ou ymen_nhari[at]hotmail.com, langues : anglais, arabe, espagnol, début de chinois
  • JIN Kun, jin.kun[at]hotmail.com, langues : Français, Anglais, Chinois
  • LEGOUY Benoît, legouy[at]vjf.cnrs.fr, langues : français, anglais et espagnol (scolaire), arabe syro-libanais (notions)
  • LUONG Trang , ntrang_luong[at]hotmail.com, langues : français, anglais, vietnamien (Intérêt pour : chinois, japonais, russe)
  • MERAD Sabri , sabri.merad[at]gmail.com, langues : Anglais (courant), Allemand (notions), Neerlandais notions)
  • OSTAPENKO Ekaterina , OstapenkoEkaterina[at]gmail.com, russe, anglais, français
  • POLTAVCHENKO Irina , pia81[at]yandex.ru,  langues : russe, anglais, français
  • SEIZOU Marjorie, marjorie.seizou[at]gmail.com, langues : Français, Anglais (et notions de suédois et allemand)
  • SADOUNE Mohand Arezki, arezkisadoune[at]yahoo.fr, langues : arabe, français, kabyle (berbère) et un peu d’anglais
  • Mefteh WAFA ,wafamefteh2009[at]gmail.com,langue:arabe,français,anglais et un peu d’italien et indien

Blog de Basak, Yulia et Ekaterina

Posted in pluriTAL by pluritaluser on 28 octobre 2009

Voici l’URL de notre blog de travail: http://feu-multilingue.over-blog.com/

 

Basak.

Base de données terminologique multilingue

Posted in pluriTAL by pluritaluser on 28 octobre 2009

Base de données terminologique multilingue de l’Union Européenne

 

Voilà un site intéressant qui peut nous servir :

http://iate.europa.eu/iatediff/switchLang.do?success=mainPage&lang=fr

 

Leidiana

 

 

Blog projet n°1

Posted in Master TAL Recherche, Projet 2009-2010 by pluritaluser on 25 octobre 2009

Blog pour le cours de programmation et projet encadré dans le cadre du master 1 plurital

GIMENEZ Johnny et LEGOUY Benoît

http://martine-apprend-le-tal.over-blog.com/

cours de Mme Desmets à parisx

Posted in Uncategorized by pluritaluser on 22 octobre 2009

est-ce qqn pourrait envoyer la photo ou pdf des pages avec des définitions? il est très difficile d’y accéder à la bibliothèque, ils n’ont qu’un exemplaire. merci

Agnieszka

amscichowska@gmail.com

Blog de Nejla et Sabri

Posted in pluriTAL by pluritaluser on 19 octobre 2009

Bonjour à tous,

Voici l’adresse de notre blog : http://laviedumotlaicite.over-blog.com/

a bientot

Inscriptions pédagogiques P3

Posted in pluriTAL by pluritaluser on 7 octobre 2009

Tout s’est bien passé

Les entités HTML pour les accents en français sont devenues obsolètes (oui !!!)

Posted in pluriTAL by pluritaluser on 28 juin 2009

J’ai découvert quelque chose, je ne sais pas depuis quand cela existe, mais si vous utilisez windows (charset=windows-1250) et un clavier français (fr), il n’y a qu’à rajouter cette ligne dans la balise HEAD:

<meta http-equiv=\ »content-type\ » content=\ »text\/html; charset=windows-1250; fr\ »> (unix)

<meta http-equiv= »content-type » content= »text\/html; charset=windows-1250; fr »> (fichier texte brut -> save as HTML)

Les minuscules tout comme les majuscules s’accentuent miraculeusement !
Et on n’a plus d’utiliser les programmes qui transforment  » à  » en & agrave ;  » é  » en & eacute ; !
Je ne connais pas les initiales pour les autres langues, mais vous pouvez essayer. Et je sais que l’HTML pour Mac et Linux a pour charset utf-8 ou utf8.
En donc c’est pareil que pour le XML.
Je suis encore avec mon dernier devoir (statistiques), c’est long! Il y a encore beaucoup de travail, là j’améliore le tableau qui ressemble à celui du premier projet mais c’est pour expliquer le choix des balises, mais je pense que quand je vais le rédiger ce sera en XML car c’est plus facile en fonction de la simplification que l’on fait.

Je vous rappelle qu’un fichier HTML se construit ainsi:

<html><head>ce qui n’est pas visible dans le corps du document</head><body>texte et balises locales</body></html>

Ex (programme en Bash, sur un fichier texte les \ sont supprimés sauf pour text\/html):

#Mini éditeur HTML
a= »../CONTEXTES/Francais/potentiel-de-repos-$i.html »;
sed -i ‘/[a-z]/ a\</br>’ $a; #met des br en fin de ligne
sed -i ‘/–/ a\</br>’ $a; #met des br en fin de ligne
cat $a >> ../CONTEXTES/Francais/potentiel-de-repos-$i.temp.html;
echo « <html> » >$a;
echo « <head><title>Le choix des balises: potentiel en fran&ccedil;ais</title><meta http-equiv=\ »content-type\ » content=\ »text\/html; charset=windows-1250; fr\ »></head> » >> $a;
echo « <body bgcolor=\ »#DEF7D8\ » text=\ »#DE6B3F\ » link=\ »#034B16\ » alink=\ »#C059E2\ » vlink=\ »#431C4F\ » background=\ »../../IMAGES/multibk.jpg\ »><blockquote> » >> $a;
cat ../CONTEXTES/Francais/potentiel-de-repos-$i.temp.html >> $a;
echo « <p><a href=\ »../../TABLEAUX/potentiel-francais.html\ »><img src=\ »../../IMAGES/retour.gif\ »></a></blockquote></body> » >> $a;
echo « </html> » >> $a; #met des balises html entre les contextes
sed -i -r -e ‘s/potentiel de repos/<b>potentiel de repos<\/b>/g’ $a; #met les contexte en gras
rm ../CONTEXTES/Francais/*\.temp.html;
#

Exemple 2:

<html>
<head>
<title>Poesie</title>
<meta http-equiv= »content-type » content= »text\/html; charset=windows-1250; fr »>
</head>
<body bgcolor= »#DEF7D8″ text= »#DE6B3F » link= »#034B16″ alink= »#C059E2″ vlink= »#431C4F »>
Voilà les feuilles sans sève<br/>
Qui tombent sur le gazon,<br/>
Voilà le vent qui s’élève<br/>
Et gémit dans le vallon,<br/>
Voilà l’errante hirondelle<br/>
Qui rase du bout de l’aile<br/>
L’eau dormante des marais,<br/>
Voilà l’enfant des chaumières<br/>
Qui glane sur les bruyères<br/>
Le bois tombé des forêts.<br/>
<br/>Tiré de: http://www.poesies.net/poeme10.html, Alphonse De Lamartine
</body>
</html>

Voilà, j’ai mis en ligne, car je pense que c’est nouveau et ce n’est marqué nulle part sur internet qu’on peut faire comme ça (0 articles):

http://francoisepeace.cwahi.net/mhaourrr_fifiufiufiu/ancienne-norme.html

http://francoisepeace.cwahi.net/mhaourrr_fifiufiufiu/nouvelle-norme.html

Je pense que c’est vraiment très récent, peut-être quelques heures ? Peut-être que ça vient avec le nouveau Mozilla ? Aucune idée. Faîtes sélectionner la source pour voir la différence. Le javascript ça appartient au site. Même le sélectionner la source (code source de la page)  donne les mauvais caractères pour l’ancienne norme.

Non, c’est la nouvelle version de Mozilla !

Dans l’ancienne version de Internet Explorer les accents ne s’affichent pas. Donc c’est bien le navigateur qui a changé et pas internet. Je vais installer la nouvelle version de Internet Explorer pour voir. Car sur Mozilla ça marche, or ce qui marche sur Mozilla devrait marcher sur Internet Explorer ?

Internet Explorer me dit que j’ai déjà la version la plus récente. Donc soit Mozilla Firefox est en avance sur Internet Explorer, soit les règles du langage HTML qu’il traduit pour afficher les pages sont différentes.

——————————–

Pour Mozilla Firefox, l’adaptation au méta est automatique.

Pour Internet Explorer 8, il faut aller sur: Affichage > Codage > Sélection Automatique

Il ne faut pas qu’il y ait d’encodage à défaut, et sur ce point Internet Explorer a perdu 1 point sur Mozilla 3.0.11 qui est en Sélection Automatique en plus d’être en ISO-8859-1.

A défaut Internet Explorer 8 est sur Europe Centrale (Windows), ce qui l’empêche de reconnaître le fr (clavier ? langue ?) dans ma balise. Et donc il faut le mettre en automatique.

Les deux navigateurs affichent mes deux pages différemment:

http://francoisepeace.cwahi.net/mhaourrr_fifiufiufiu/ancienne-norme.html

http://francoisepeace.cwahi.net/mhaourrr_fifiufiufiu/nouvelle-norme.html

Sauf que Mozilla perd 1 point sur Internet Explorer au niveau de la Sélection de la source car il sélectionne dans son fichier texte le mauvais affichage des caractères lorsque celui-ci n’est pas reconnu en ligne. Cependant Internet Explorer n’a pas ce problème.


J’ai encore une chose à rajouter: Internet Explorer n’affiche que mes deux pages différemment la première fois où on l’a mis sur:
Sélection automatique, la deuxième fois (Actualiser) ça ne fonctionne plus et pourtant il est sur SA. Et donc comme IE8 reconnaît ce code seulement 1 fois, il y a une erreur dans le navigateur. Amusez-vous à mettre puis enlever puis mettre: Sélection Automatique.

Donc Internet Explorer perd 2 points.

Conclusion: 3 problèmes différents et une toute nouvelle balise qui marche pour afficher ses entités HTML en français sans avoir à les transformer soi-même:

<meta http-equiv= »content-type » content= »text\/html; charset=windows-1250; fr »>

Vraiment vous avez eu la première nouvelle sur le sujet, découverte par hasard, car je me suis inspirée de l’XHTML que je ne connais pas:

http://www.loria.fr/~glisse/enseignement/xhtml/skel.html

 <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
 <meta http-equiv="Content-Language" content="fr" />
 <meta name="author" content="Marc Glisse" />

Françoise Del Socorro

Le droit des élèves: il n’est pas écrit mais il existe – pour mes camarades.

Posted in pluriTAL by pluritaluser on 20 juin 2009

J’aimerais pour finir cette année (il me reste encore un devoir à rendre mais ce n’est pas pressé), discuter d’un sujet qu’on n’aborde jamais depuis la réforme LMD: Le droit des élèves. Le droit des élèves ce n’est pas le droit des professeurs sur les élèves or les seuls affichages qui existent sur le LMD concernent l’idée selon laquelle les professeurs ont le contrôle absolu sur les élèves, une utopie, un mensonge. Et donc on ne nous raconte rien, ce que l’on sait sur nos droits vient:

– Des bonnes expériences inattendues. Quand on obtient quelque chose de bien en croyant que c’est illégal parce qu’on ne sait pas que c’est légal.

– De ce que certains professeurs qui sont contre le système nous racontent pour qu’on n’ai pas peur de réussir.

– De ce que les autres élèves ont dit à voix haute qu’ils ont fait afin de profiter au maximum des limites du système afin de partager nos droits avec ceux qui ne les connaissent pas.

Par expérience, je suis une grande redoublante, or je croyais que c’était illégal de se réinscrire chaque année comme cela sans rien demander à personne. Et quand j’ai décidé de changer de sous filière et de m’inscrire en TAL (ingénierie linguistique), j’ai appris que ce que je faisais avant c’était légal. Parce que le service des inscriptions m’a expliqué que pour changer de sous-filière, il faut deux autorisations différentes par écrit, mais pour redoubler dans la même filière, on peut le faire à vie même si il y a une réponse négative de la part du département. Du coup ils voulaient me réinscrire dans la filière d’avant et me faire dire qu’ils allaient me réinscrire parce qu’on ne voulait plus de moi, ce qui n’est pas vrai, personne ne m’a rien dit. J’ai refais 5fois la même filière, mais vous pouvez redoubler à vie, car c’est écrit dans un texte de loi non diffusé: tout élève a le droit de redoubler.

Par expérience j’ai aussi été au rattrapage dans la session de septembre. La session de septembre c’est un droit des élèves que beaucoup de professeur ne respectent pas. Et ils sont dans l’illégalité quand ils disent que c’est nous qui n’avons pas le droit. Mais ils profitent parce que le droit des élèves n’est pas écrit. Dans tous les pays on donne aux élèves plusieurs chances pour réussir, on m’a raconté qu’en Italie, chaque élève choisis une date de contrôle différente, en fonction du moment où il se sentira prêt pour répondre aux questions des professeurs. En France, on a l’année scolaire, et si on ne l’a pas, on a le droit de demander à repasser toutes les notes qui sont inférieures à 10 dans la session de septembre. Avec le système LMD, la plupart des professeurs insistent sur le fait que la session de septembre a disparu, qu’elle est devenue session de juillet, moi je crois plûtot qu’ils racontent des mensonges sur nos droits pour avoir plus de vacances. Parce que encore une fois nos droits ne sont pas écrits.

Par expérience j’ai aussi été une ancienne élève en reprise d’études. Mon professeur de soutient en mathématiques au CNAM, nous a raconté que il a des amis qui n’ont jamais fait d’études et qui à 30ans décident qu’ils veulent faire de la médecine, qui passent la bac scientifique et qui s’inscrivent en médecine, puis qui deviennent médecins alors pourquoi pas nous? C’est l’occasion de profiter du système LMD pour changer de philosophie de vie parce que les notes dans le système Licence Master Doctorat sont gardées à vie et donc on peut faire tout ce que l’on veut y compris des longues pauses et demander qu’on conserve ses notes quand on reprend ses études. Ce qui fait que je suis revenue à Nanterre et j’ai dit au secrétariat: J’ai le droit de conserver mes anciennes notes à vie. Ils n’ont pas protesté contre moi par contre ils se sont moqués à voix autre des autres redoublants: Tu te rends compte si on disait à tous les redoublants qu’ils ont le droit de conserver leurs notes, tout le travail en plus que cela nous ferait ? Il vaut mieux qu’ils ne sachent pas et qu’ils repassent tout sinon on aura trop de travail à tout retaper.

Finalement j’ai beaucoup souffert avec le système scolaire français, j’ai fait le bac littéraire contre ma volonté en pleurant, je voulais redoubler le bac scientifique, peut-être que je n’aurai pas aimé la biologie, mais on ne m’a pas donné la chance de redoubler pour voir. Alors que je suis sûre que c’est illégal. La prof de biologie des psychologues m’a raconté qu’elle avait fait un bac littéraire avec du latin et du grec et qu’elle avait été prise en biologie, et donc que c’est possible de s’inscrire dans n’importe quelle filière à la sortie du bac. J’ai essayé de m’inscrire à Cergy Pontoise, j’ai même reçu 3 oui par la poste, mais après avoir fait la queue des inscriptions, avoir trouvé la réponse à leur devinette pour gagné un agenda gratuit, lorsque j’allais payer, on m’a empêché et on m’a convoquée pour me dire que c’était une erreur. La responsable du département a engueulé la secrétaire qui met les oui à sa place, n’a pas voulu entendre parler de mon savoir en biologie, et n’a pas voulu me diffuser le sien, elle m’a juste montré un tas de feuilles sans mise en page et sans saut à la ligne en disant que c’était ça leurs publications scientifiques. Donc après cet empêchement illégal de m’inscrire, je me suis inscrite au CNAM alors que je n’avais vraiment pas le droit parce que il faut être étudiante ou avoir travaillé pour s’y inscrire, mais ils t’ouvrent les portes de toutes les disciplines pour tous les âges et même pour les gens qui n’ont pas le temps parce qu’ils travaillent à temps plein. Ils ne font que des difficultés pour les élèves qui cherchent à décoder le système universitaire traditionnel chez eux, mais on est tellement habitués à être maltraité dans le système traditionnel que c’est difficile d’accepter un système où on est traité à sa juste valeur. L’université organise ses trois premières années d’études par palliers, alors que au CNAM les trois années sont imbriquées, et on a deux fois plus de temps libre, il n’y a que la structure qui change mais les cours en soi fonctionnent pareil.

Et donc je suis sûre que les élèves ont plein d’autres droits qu’ils ne connaissent pas et le jour où quelqu’un qui a accès aux informations sur ce qui facilite notre réussite psycho-sociale décidera de publier tout ça, ça va changer la face du système universitaire français LMD.

Et pour ne pas être hors sujet parlons de nous: Si vous n’êtes pas pris là où vous avez postulé, rien n’est perdu parce que le système n’est pas clair et que chacun raconte des choses contradictoires. Mr Cori a dit: Les bons élèves en informatique au DEFI et les mauvais élèves à la Recherche, Mr Fleury a dit le strict contraire. Et je ne sais pas comment fonctionne l’Inalco. De plus je ne suis pas sûre si cette histoire de moyenne supérieure à 14 s’applique aux Sciences du Langage car l’année passée on m’a dit que ce n’est pas une loi pour toutes les filières, qu’ils n’avaient pas voté pour cette loi dans la notre. De plus si cette loi s’applique à nous, il y a deux fois plus de chances qu’il faille avoir une moyenne supérieure à 14 pour accéder aux filières professionnelles et une moyenne supérieure à 10 pour accéder à la recherche, en tout cas d’après ce qu’on m’a dit à Nanterre qui est l’opposé de ce qu’on m’a dit à la Sorbonne.

Et parlons argent: Je n’ai jamais reçu de subventions de la part du gouvernement pour étudier, ce pourquoi je ne suis ni riche ni pauvre mais sans aucun argent, zéro euros constant sur mon compte ce qui est bien pour une étudiante. Et donc je ne pense pas que les histoires de: la fac paye 2000euros au minimum pour les élèves inscrits dans des études post MASTER soit vrai pour tout le monde. La plupart de mes camarades reçoivent du gouvernement 500euros par mois au moins pour faire leurs études de Licence, et ils se plaingnent que ce n’est pas assez. Moi si je recevais tout ça je n’étudierais pas, je voyagerais, je mangerais. Et donc si je passe, je vais m’inscrire en Recherche mais je ne vais pas chercher à obtenir de l’argent du gouvernement, à moins que mon père soit à la retraite parce qu’il est Français mais n’a presque pas travaillé en France car à l’étranger il gagne mieux mais ne cotise pas. La seule chose que j’espère c’est d’avoir des professeurs qui nous encadrent aussi bien que Fleury et Daube, parce que pour la plupart des professeurs, en tout cas de Nanterre, l’autonomie c’est: faites vos devoirs sans notre aide, alors que à la Sorbonne l’autonomie c’est: faites vos devoirs avec notre aide, et là on se sent beaucoup mieux car on apprend la méthode et on peut faire mieux que si on était abandonnés à nous-mêmes.

Et si vous avez des problèmes pour vous réinscrire sur Sésame, ne vous inquiétez pas. Moi mes inscriptions à la fac n’apparaissent pas, mais c’est une erreur d’affichage, parce que le système est entièrement automatisé, il n’y a personne qui rentre mes données dedans, il va chercher les données présentes dans tous les autres systèmes informatiques dans la fac. Et comme tout va bien sur Apogée, et sur tous les autres systèmes, si le système de communication avec les élèves de la fac ne me communique que des informations fausses sur moi-même ce n’est pas un problème, car personne ne va vérifier non plus. C’est ce que le service des inscriptions de Nanterre m’a dit en se connectant sur mon compte grâce à ma carte d’étudiant. Vous seul lisez Sésame. Mais personne ne peut réparer ça non plus, il n’existe pas de secrétariat Sésame. Et donc une fois que j’aurai toutes mes notes, je ferai une demande de dossier et j’enverrai la réponse à la fac. Et si vous avez des problèmes similaires: disparition d’informations ou fausses informations dans le service de communication automatique, ne vous inquiétez pas, si vous avez votre année, vous pourrez vous inscrire car le service des inscriptions de la fac a votre dossier en entier dans son ordinateur.

Voilà tout, des commentaires ?

Françoise Del Socorro

Paris X Nanterre, (renommée Paris Ouest, mais on est au Nord-Ouest).

Projet multilingue

Posted in pluriTAL by pluritaluser on 11 juin 2009

1) fichier html

<html><head></head><body>

<form method= »post » action= »search.php »>
<input name= »entree » type= »text »></input>
<input value= »envoyer » type= »submit »></input>
</form>
</body>
</html>

2)fichier search.PHP

<html>
<body>
Bonjour voici mon programme PHP !!!!!!:
</body>
<?PHP
echo « voici la variable entrée: »;
$_POST[« entree »];
?>
</html>

vite fait

3) Avoir un web local (j’ai easyPHP qui est meilleur que base pour SQL) ou se connecter sur le site de Daube.

Françoise Del Socorro

Editeurs XML en Perl !

Posted in pluriTAL by pluritaluser on 6 juin 2009

Incroyable mais vrai ! Je suis trop lente pour taper et pour réfléchir alors je crée des programmes qui font ça à ma place, c’est calqué sur Mes Editeurs HTML en Perl, donc ça m’a pris 10min pour les adapter…

Ils sont tous dans mon site de partage de fichiers: http://www.mybloop.com/francoisepeace

Désormais je peux créer des fichiers XML en 1seconde chrono sans réfléchir, le problème c’est de réfléchir les exercices, je suis hyper en retard sur tout. Je vais essayer de faire le XML aujourd’hui et demain. Et lundi je fais le projet Multilingue, en espérant ne pas avoir jusqu’à mardi, parce que je n’ai pas encore choisi les phrases, et j’ai mon programme qui affiche un tableau différent que je n’ai pas fini.

Un exemple: txt2xml.pl (il y a là des balises que je souhaite afficher en format xsl – visualisable comme un html)

Perl

####Les métacaractères####
$recup=~s/\</&lt;/g;
$recup=~s/\>/&gt;/g;
$recup=~s/\ »/&quot;/g;
##Les paragraphes et les line breaks en XML !##
$recup=~s/(\s)*\n/\n/g; #supprime les espaces avant le retour à la ligne
$recup=~s/^\n/<p><\/p>\n/g; #met des paragraphes dans tous les sauts de ligne
if ($recup=~/[^<p><\/p>]\n/g) {
$recup=~s/^/<br>/g; # met des br en début de ligne
$recup=~s/\n/<\/br>\n/g; # met des br en fin de ligne

};

+ XSL

<xsl:template match= »br »>
<xsl:apply-templates/><xsl:text> </xsl:text><br/>
</xsl:template>

<xsl:template match= »p »>
<p/><xsl:apply-templates/><xsl:text> </xsl:text>
</xsl:template>

->ti1.XML (exemple)

<br><blue>&lt;mot&gt;</blue>Zil<blue>&lt;/mot&gt;</blue></br>
<br><blue>&lt;mot&gt;</blue>jsem<blue>&lt;/mot&gt;</blue></br>

Ce qui fait en HTML (ce qu’on voit):

<font color= »blue »>&lt;mot&gt;</font>Zil<font color= »blue »>&lt;/mot&gt;</font><br/>
<font color= »blue »>&lt;mot&gt;</font>jsem<font color= »blue »>&lt;/mot&gt;</font><br/>

Françoise Del Socorro

Comment afficher des liens avec XML-XSL dans Mozilla ?

Posted in pluriTAL by pluritaluser on 5 juin 2009

J’ai eu du mal à trouver:

Marchent sur Mozilla:
XML:

<link><ref>http://www.mozilla.com/en-US/</ref><t>Mozilla Firefox</t></link>
<a1>W3C</a1>
XSL:

<xsl:template match= »index/link »>
<a href= »{ref/text()} »><xsl:apply-templates select= »t »/></a>
</xsl:template>

<xsl:template match= »a1″>
<A XML-LINK= »LINK » HREF= »http://www.w3.org/ »><xsl:apply-templates/></A&gt;
</xsl:template>

Autres pages sur XML:

Mourad: https://tal-p3.wordpress.com/2009/05/23/comment-creez-notre-site-de-document-structure/

Moi : https://tal-p3.wordpress.com/2009/05/18/devoir-loupy-%E2%80%93-ri-pour-le-mardi-26-mai/

Françoise Del Socorro

Projet Multilingue – programmes

Posted in pluriTAL by pluritaluser on 3 juin 2009

Bonjour, j’ai fait un programme qui transforme les tables de mozilla en fichier texte, il est en ligne, et un treetagger (simtree) éditable en français et portugais mais j’ai des corrections à faire avant de le mettre en ligne.

Bonne chance à tous car certains travaillent et n’ont pas le temps même s’ils sont très bons en informatique, et d’autres ont besoin d’encore plus d’expérience pour se perfectionner.

J’aurai voulu que tout le monde partage ses programmes en ligne.

Mes programmes sont inspirées sur la façon dont Mr Serge Fleury se représente le rechercher – remplacer. Je lui dois beaucoup. Mais je suis nulle en boucles alors il y en a très peu dans mes programmes, ils exécutent tout d’un coup.

Mes programmes au départ avaient une version particulière et une générale, parce que ce n’est pas évident d’écrire tout de suite une version qui puisse fonctionner pour d’autres textes, mais il le faut. Moi je réutilise mes anciens programmes  dans d’autres cours! Donc si vous avez le temps pendant les vacances, créez un site internet où la version générale de vos programmes sera téléchargeable en ligne pour partager avec les autres.

Les programmes sont très utiles surtout quand les corpus sont très longs, mais je les utilise toujours conjointement avec quelques petits nettoyages manuels car la machine ne fait pas tout. De plus mes programmes sont faits pour un emploi particulier, je sais ce que je veux avant de les créer.

Finalement il y a des programmes que je sais que je ne sais pas créer et j’espère que vous les créerez.

Bonne chance !!!

mozillatable2TXT.pl -> http://www.mybloop.com/francoisepeace

et bientot simtree.pl aussi

Françoise Del Socorro

#########################################################################################

Si votre texte fait moins de 100mots (aka si vous avez du temps libre pour étiqueter vos 100mots), vous pouvez utiliser mon  » treetagger  » simtree.pl de plus il faut que votre texte ne soit pas ambigüe (ou alors changer les balises du vrai treetagger2xml en rajoutant des balises ou des attributs). Moi les seuls problèmes d’étiquetage que j’ai sont dues soit à cygwin soit à mon ordinateur qui est pourtant neuf, en tout cas c’est corrigible et tout est éditable (Françoise Del Socorro):

#!/usr/bin/perl
use locale; #caracteres accentues
#On lance: perl simtree-fr.pl
#Fichiers utilisés: potentiel-pt-liste.txt et potentiel-fr-liste.txt obtenus après mozillatable2txt.pl, il s’agit d’une liste de mots-composés à nettoyer.

print « Bienvenu(e) à l’étiqueteur syntaxique simtree \n qui permet de simuler treetagger, \n dont les entrées sont éditables, \n dont le choix du vocabulaire est limité\n, et qui n’utilise pas la probabilité — vraiment rustique!\n »;
print « Ce fichier prend en entrée des segments répétés, des phrases courtes ou des phrases longues mais sans balises.\n »;
print « En tout cas choississez un texte qui ne contient que les phrases que vous allez analyser linguistiquement.\n »;
print « Nom du fichier de travail, de preference un .txt au format UNIX: \n »;

my $file01=<STDIN>;
chomp($file01);
my $file02=$file01. »-token.txt »;
#Première étape la tokenisation et le remplacement des retours charriot par le point-virgule
open(FILEIN01, $file01);
open(FILEOUT01, « >$file02″);
my $DUMPFULL01= » »;
while(my $recup01=<FILEIN01>)
{
#1.Transformation
$recup01=~s/^\n//g;#supprime tous les sauts de ligne
$recup01=~s/\n/;\n/g;#remplace toutes les fins de ligne par un point-virgule
$recup01=~s/\s/\n/g;#remplace chaque espace par un saut de ligne
$DUMPFULL01=~s/\n\n/\n/g;#supprime tous les sauts de ligne

#2. Memorisation dans DUMPFULL
$DUMPFULL01.=$recup01;
}
#3.Sortie
print FILEOUT01 $DUMPFULL01;
print « Attendez s’il vous plaît ! »;
#Deuxième étape: la proposition du vocabulaire que vous allez étiqueter correspondant au texte qui ne contient que les phrases qui vous intéressent.
$file04=$file02. »-lexique-simtree.txt »;
open(FILEIN02, $file02);
open(FILEOUT02, « >$file04 »);
system « #!/bin/bash
sort -u $file02 > $file04″;
close(FILEIN02);
close(FILEOUT02);
#Troisième étape: l’étiquetage du fichier
my $file05=$file01. »-3.txt »;
open(FILEIN03, $file02);
open(FILEOUT03, « >$file05″);
my $DUMPFULL03= » »;
while(my $recup03=<FILEIN03>)
{
#1.Vocable    catégorie    lemme /^**Vocable**\n/**Vocable**\tN\t**Lemme**\n/
#La catégorie à défaut est celle du morceau de mot dans laquelle simtree-fr.pl reconnaît un mot d’où un ordre alphabétique s’impose
#Si vous voulez ignorer la casse (accepter les majuscules) utilisez gi plutôt que g.
#Catégories proposées: PUNCT D N A P V ADV SIGLE PRON…inventez
#Langue = Français

$recup03=~s/^;\n/;\tPUNCT\t;\n/g;
$recup03=~s/^action\n/action\tN\taction\n/g;
$recup03=~s/^actions\n/actions\tN\tactions\n/g;
$recup03=~s/^au\n/à\tP\tà\nle\tD\tle\n/g;
#
$recup03=~s/^beaucoup\n/beaucoup\tADV\tbeaucoup\n/g;
#
$recup03=~s/^ca+\n/ca+\tN\tca+\n/g;
$recup03=~s/^canal\n/canal\tN\tcanal/g;
$recup03=~s/^ce\n/ce\tD\tce\n/g;
$recup03=~s/^cellule\n/cellule\tN\tcellule\n/g;
$recup03=~s/^cellules\n/cellules\tN\tcellule\n/g;
$recup03=~s/^cette\n/cette\tD\tcette\n/g;
$recup03=~s/^compartiments\n/compartiments\tN\tcompartiment\n/g;
$recup03=~s/^concentration\n/concentration\tN\tconcentration\n/g;
$recup03=~s/^concentrations\n/concentrations\tN\tconcentration\n/g;
$recup03=~s/^conductance\n/conductance\tN\tconductance\n/g;
$recup03=~s/^conduction\n/conduction\tADV\tconduction\n/g;
#
$recup03=~s/^d\n/d\tP\td\n/g;
$recup03=~s/^dans\n/dans\tP\tdans\n/g;
$recup03=~s/^ddp\n/ddp\tSIGLE\tddp\n/g;
$recup03=~s/^de\n/de\tP\tde\n/g;
$recup03=~s/^des\n/de\tP\tde\nles\tD\tle\n/g;
$recup03=~s/^deux\n/deux\tA\tdeux\n/g;
$recup03=~s/^différence\n/différence\tN\tdifférence\n/g;
$recup03=~s/^du\n/de\tP\tde\nle\tD\tle\n/g;
$recup03=~s/^dépolarisation\n/dépolarisation\tN\tdépolarisation\n/g;
#
$recup03=~s/^en\n/en\tP\ten\n/g;
$recup03=~s/^entre\n/entre\tP\tentre\n/g;
$recup03=~s/^et\n/et\tCONJ\tet\n/g;
$recup03=~s/^excitateur\n/excitateur\tA\texcitateur\n/g;
$recup03=~s/^excitateurs\n/excitateurs\tA\texcitateur\n/g;
$recup03=~s/^excitation\n/excitation\tN\texcitation\n/g;
#
$recup03=~s/^faces\n/faces\tN\tface\n/g;
#
$recup03=~s/^générateur\n/générateur\tA\tgénérateur\n/g;
$recup03=~s/^hyperpolarisation\n/hyperpolarisation\tN\thyperpolarisation\n/g;
$recup03=~s/^il\n/il\tPRON\til\n/g;
$recup03=~s/^influx\n/influx\tN\tinflux\n/g;
$recup03=~s/^inhibiteur\n/inhibiteur\tA\tinhibiteur\n/g;
$recup03=~s/^inhibiteurs\n/inhibiteurs\tA\texcitateur\n/g;
$recup03=~s/^intérieur\n/intérieur\tN\tintérieur\n/g;
$recup03=~s/^inversion\n/inversion\tN\tinversion\n/g;
$recup03=~s/^ion\n/ion\tN\tion\n/g;
$recup03=~s/^ionique\n/ionique\tA\tionique\n/g;
$recup03=~s/^ions\n/ions\tN\tion\n/g;
#
$recup03=~s/^k+\n/k+\tN\tk+\n/g;
#
$recup03=~s/^l\n/l\tD\tl\n/g;
$recup03=~s/^la\n/la\tD\tle\n/g;
$recup03=~s/^le\n/le\tD\tle\n/g;
$recup03=~s/^les\n/les\tD\tle\n/g;
#
$recup03=~s/^mais\n/mais\tADV\tmais\n/g;
$recup03=~s/^membranaire\n/membranaire\tA\tmembranaire\n/g;
$recup03=~s/^membrane\n/membrane\tN\tmembrane\n/g;
$recup03=~s/^mitochondrial\n/mitochondrial\tA\tmitochondrial\n/g;
#
$recup03=~s/^na+\n/na+\tN\tna+\n/g;
$recup03=~s/^ne\n/ne\tADV\tne\n/g;
$recup03=~s/^nernst\n/nernst\tN\tnernst\n/g;
$recup03=~s/^nerveuse\n/nerveuse\tA\tnerveux\n/g;
$recup03=~s/^nerveux\n/nerveux\tA\tnerveux\n/g;
$recup03=~s/^neuronaux\n/neuronaux\tA\tneuronal\n/g;
$recup03=~s/^neurone\n/neurone\tN\tneurone\n/g;
$recup03=~s/^niveau\n/niveau\tN\tniveau\n/g;
$recup03=~s/^nous\n/nous\tPRON\tnous\n/g;
#
$recup03=~s/^on\n/non\tPRON\ton\n/g;
$recup03=~s/^ou\n/ou\tCONJ\tou\n/g;
#
$recup03=~s/^pa\n/pa\tSIGLE\tpa\n/g;
$recup03=~s/^par\n/par\tP\tpar\n/g;
$recup03=~s/^plus\n/plus\tADV\tplus\n/g;
$recup03=~s/^post\n/post\tP\tpost\n/g;
$recup03=~s/^postsynaptique\n/postsynaptique\tA\tpostsynaptique\n/g;
$recup03=~s/^postsynaptiques\n/postsynaptiques\tA\tpostsynaptique\n/g;
$recup03=~s/^potassium\n/potassium\tN\tpotassium\n/g;
$recup03=~s/^potentiel\n/potentiel\tN\tpotentiel\n/g;
$recup03=~s/^potentiels\n/potentiels\tN\tpotentiel\n/g;
$recup03=~s/^pour\n/pour\tP\tpour\n/g;
$recup03=~s/^ppse\n/ppse\tSIGLE\tppse\n/g;
$recup03=~s/^pr\n/pr\tSIGLE\tpr\n/g;
#
$recup03=~s/^quand\n/quand\tCONJ\tquand\n/g;
#
$recup03=~s/^rapide\n/rapide\tA\trapide\n/g;
$recup03=~s/^relative\n/relative\tA\trelative\n/g;
$recup03=~s/^repolarisation\n/repolarisation\tN\trepolarisation\n/g;
$recup03=~s/^repos\n/repos\tN\trepos\n/g;
$recup03=~s/^récepteur\n/récepteur\tN\trécepteur\n/g;
#
$recup03=~s/^saltatoire\n/saltatoire\tA\tsaltatoire\n/g;
$recup03=~s/^sans\n/sans\tP\tsans\n/g;
$recup03=~s/^seuil\n/seuil\tN\tseuil\n/g;
$recup03=~s/^synaptiques\n/synaptiques\tA\tsynaptique\n/g;
#
$recup03=~s/^toute\n/toute\tADV\ttout\n/g;
$recup03=~s/^transmembranaire\n/transmembranaire\tA\ttransmembranaire\n/g;
#
$recup03=~s/^un\n/un\tD\tun\n/g;
$recup03=~s/^une\n/une\tD\tune\n/g;
#
$recup03=~s/^à\n/à\tP\tà\n/g;
#
$recup03=~s/^électrique\n/\tA\télectrique\n/g;
$recup03=~s/^électriques\n/électriques\tA\télectrique\n/g;
$recup03=~s/^électrostatique\n/électrostatique\tA\télectrostatique\n/g;
$recup03=~s/^électrotoniques\n/électrotoniques\tA\télectrotonique\n/g;
$recup03=~s/^élémentaire\n/élémentaire\tA\télémentaire\n/g;
$recup03=~s/^équilibre\n/équilibre\tA\téquilibre\n/g;

#2. Memorisation dans DUMPFULL
$DUMPFULL03.=$recup03;
}
#3.Sortie
print FILEOUT03 $DUMPFULL03;
close(FILEIN03);
close(FILEOUT03);
#Quatrième étape: renommage des fichiers en sortie
print « \nAttendez renommage de toutes vos extensions…\n »;
system « #!/bin/bash
rename .txt-token.txt -token.txt *\.txt-token.txt;
rename .txt-3.txt -3.txt *\.txt-3.txt;
rename .txt-token.txt-lexique-simtree.txt -lexique-simtree.txt *\.txt-token.txt-lexique-simtree.txt;
ls > tous-vos-fichiers\.txt;
grep token.txt tous-vos-fichiers\.txt > nom-de-fichier\.txt;
grep 3.txt tous-vos-fichiers\.txt >> nom-de-fichier\.txt;
grep lexique-simtree.txt tous-vos-fichiers\.txt >> nom-de-fichier\.txt; »;
print « \nVous avez trois nouveaux fichiers créés dans cette liste: \n »;
system « #!/bin/bash
cat nom-de-fichier\.txt; »;

#Quatrième étape treetagger2xml.pl
print « \n Si vous voulez diminuer le nombre d’entrées à étiqueter vérifiez votre fichier\.txt\.\n Si vous voulez étiqueter des entrées allez sur fichier-lexique-simtree\.txt\. \n Si vous voulez corriger un bug allez sur fichier-token\.txt ou sur votre fichier \.xml, je pense que les erreurs sont dues à la mémoire de l’ordinateur. \n Si votre fichier en sortie est vide c’est soit parce que ce n’est pas un point \.txt \n soit parce que vous avez mal tapé son nom\. \n Maintenant lancez perl treetagger2xml.pl <fichier-3\.txt> sur votre fichier étiquetté.\n Rem: treetagger2xml\.pl vient avec treetagger\. « ;

Vos problèmes avec UTF-8 (Linux, Mac, langues non ASCII) -> ASCII ? + mes problèmes avec le choix du vocabulaire ?

Posted in pluriTAL by pluritaluser on 31 Mai 2009

UTF-8 2 ASCII

J’ai trouvé deux programmes sur internet qui pourraient aider ceux qui ont des problèmes d’affichage de caractères. Mais je ne sais pas les utiliser parce que je ne les utilise pas:
uni2ascii
http://www.billposer.org/Software/uni2ascii.html
Recode
http://recode.progiciels-bpi.ca/README.html

Françoise Del Socorro

——————————————————————————————————

Problèmes avec mkalign pour les corpus comparables

Moi j’ai un problème avec mkalign, je ne suis pas encore dans la phase d’aligner les textes, je suis en train de choisir le lexique de mon vocabulaire. J’ai recherché les segments répétés sur lexico 3 puis j’ai sélectionné une liste de mots composés en français que je dois aligner avec des mots composés en portugais. J’ai utilisé l’option save as HTML de Mozilla puis j’ai enlevé les balises HTML. Moi ce qui serait utile pour choisir les mots ce serait de pouvoir: 1) supprimer les lignes que je ne souhaite pas avoir 2) pouvoir mettre des flèches dans les deux sens pour aligner une case sur une ou plusieurs cases et inversement. Et comme cela je pourrais choisir le vocabulaire à aligner. Je n’aime pas avoir à comparer une liste de 300mots dont 80% des lignes ne sont pas des mots, des deux côtés, mentalement.

Deuxième problème je ne sais pas si le pluriel correspond à une entrée lexicale différente, parce que même si là je suis restée sur le plan morpho-lexical, si j’avais pris en compte le sens, ce que je ne vais pas faire car cela aurait impliqué de mettre en valeur la polysémie, l’homonymie et la synonymie (il y en a autant que dans la langue courante car ce qu’on nous enseigne sur le langage scientifique c’est l’inverse de la réalité linguistique, il ne faut pas croire la norme, il faut croire les faits), morphologiquement le pluriel ne signifie pas la même chose. De plus il y en a très peu dans les segments répétés, alors je ne sais pas si je dois n’utiliser que le texte ? Proposer tout au singulier et au pluriel ? Proposer tout au singulier ? De plus si on prend en compte le pluriel x les variations morphologiques, il y aura des redondances dans la traduction des mots, et donc des cases pareilles puisqu’on ne peut pas faire des croisements. Là je parle des mots tout courts et pas des phrases.

Et donc là je ne parle que de la morphologie, des variations morphologiques, si je prenais en compte la sémantique, l’alignement serait impossible à faire à cause de la dénotation, ie: un mot peut se traduire de plusieurs façons différentes.

Finalement étant donné que j’utilise le même corpus avec Lexico3 et le Projet Multilingue, je suis en train de tout mélanger dans ma tête. Est-ce que je peux faire une explication différente dans l’index avec des liens vers des fichiers traités, des tableaux explicatifs (j’ai fait plus de traitements manuels que de traitements automatiques pour avoir de meilleurs résultats), des résultats, et des programmes pareils ? J’ai déjà commencé une pluie de blablabla avant d’avoir obtenu des résultats pour le projet multilingue… Et en plus dans le projet Lexico3 il y aura plus de choses car je vais le rendre vers le 20juin (Nanterre fini le 27juin) et avoir plus de donnée mes permettra de donner un point de vue différent dans l’index.

Exemple: potentiel-fr-mkalign.txt

potentiel de la
potentiel de la membrane  (v = variante morphologique désignant le mot composé: potentiel de membranne)
potentiel de membrane  (v = potentiel de membranne)
potentiel de membrane à
potentiel de membrane au
potentiel de membrane au repos (v = variante morphologique désignant le mot composé: potentiel de repos)
potentiel de membrane d une cellule oeuf
potentiel de membrane d une cellule
potentiel de membrane de
potentiel de membrane de repos (v = variante morphologique désignant le mot composé: potentiel de repos)
potentiel de membrane des
potentiel de membrane en

Exemple: potentiel-fr-mkalign.txt

potencial de membrana celular
potencial de membrana das células em geral
potencial de membrana das células
potencial de membrana das
potencial de membrana de repouso (v = variante morphologique désignant le mot composé: potentiel de repos)
potencial de membrana de
potencial de membrana do
potencial de membrana é
potencial de membrana em células
potencial de membrana em repouso (v = variante morphologique désignant le mot composé: potentiel de repos)
potencial de membrana em
potencial de membrana em torno de
potencial de membrana esse potencial pode ser medido
potencial de membrana está
potencial de membrana mitocondrial (v = potentiel de membranne mitochodrial – peut-être non pertinent pour un lexique général)
potencial de membrana mv
potencial de membrana na
potencial de membrana nas células
potencial de membrana no
potencial de membrana o
potencial de membrana por
potencial de membrana potencial de repouso
potencial de membrana (v = potentiel de membranne)

— > La réalité du jargon scientifique est pire si on se fie à la réalité.

Françoise Del Socorro