pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

FTP explication d’une nécessité

Posted in pluriTAL by pluritaluser on 27 avril 2009

Mon site web du projet 2 est presque fini:
http://francoisepeace.cwahi.net/rss-livres.culture-lemonde/index.htm

Il remplace celui de geocities (qui va fermer) et de 125mb.com qui n’acceptait pas de télécharger de gros fichiers.

J’ai commencé par utiliser le FTP interne, mais après je me suis rendue compte que dans l’onglet My Account il y a les instructions pour utiliser le FTP externe, celui qui aspire tous nos fichiers et tous nos dossiers sans qu’on ne fasse rien. Bien que dans la version gratuite de Core FTP il ne supporte pas d’innombrables fichiers au même temps. Bref, l’adresse FTP de ce site fonctionne de la façon suivante: 1 FTP pour tous les sites de cwahi, mais il faut être honnête et indiquer la bonne destination de ces fichiers. La sécurité n’est pas géniale mais au moins tout est illimité.

Pour les autres cours, j’ai encore de l’espoir dans la session de septembre, car pour moi le plus difficile ce n’est pas l’informatique, c’est aller vite.

Françoise Del Socorro

——————————————————————————————————————————————————————————-

Après avoir essayé Yahoo Geocities (15Mo max) et 125Mb.com (125Mo max):

http://rss-livres-culture-lemonde.medianewsonline.com/

Je me suis rendue compte qu’il n’y a pas que la taille du site web qui compte pour mettre mes devoirs de Projet Encadré (qui n’est pas encore fini). Il y a aussi la taille maximale des fichiers qu’il accepte.

Me voilà donc en train de chercher un nouveau site web gratuit (free web hosting) avec au moins 100mo et no file size limit.

En ce qui concerne le upload, il faut absolument utiliser le FTP vu la taille et la quantité des fichiers qui pour nous sont petits mais pour le web sont grands. C’est la première fois que j’utilise un FTP et c’est très facile.

Le site web vous fournit le nom de l’hôte qui est l’adresse de votre site web (ou du sous-domaine) après le home\www\, vous choisissez à l’intérieur du site votre 2eme username et 2eme password, et le port à défaut c’est 21 pour tous les ordinateurs.

host: rss-livres-culture-lemonde.medianewsonline.com
user: 258228_258228
password: ***************
port: 21

J’ai essayé Filezilla mais c’est trop lent, je vous recommande la version gratuite de Core FTP:

http://www.coreftp.com/download.html

Si vous utilisez Core FTP, on met ces informations dans le File Manager. Et pour que ça fonctionne il faut être simultanément connecté dans le File Manager de votre site web, là où il y a tous vos dossiers et vos fichiers car le FTP ne passe pas par l’entrée principale du site web, il passe par les options FTP que vous avez choisis (2eme username, 2eme mot de passe) dans votre nom de domaine gratuit.

Quand il y a trop de FAILED c’est parce que le site web gratuit limite la taille de ses fichiers à 500Ko environ d’où l’intérêt d’avoir un host gratuit avec no file size limit (nos fichiers ont plus de 700Ko). Vous verrez que mon site web n’est pas complet à cause de cela, donc il va falloir que je déménage encore une fois.

Françoise Del Socorro

Questions

Posted in pluriTAL by pluritaluser on 23 avril 2009

J’avais posé la question:

Comment lancer patron2graphe.exe ?

Est-ce qu’il faut ne pas avoir Windows Vista ? Parce que Treetagger ne fonctionne pas dans mon ordinateur. Ou alors il faut télécharger un programme pour que Cygwin reconnaisse les .exe ?

fran@Charmmy-Kitty ~/Projet2/patron2graphe-2.0
$ patron2graphe.exe « iso-8859-1 » patrons-1.txt
bash: patron2graphe.exe: command not found

Et je viens de trouver la réponse ce matin:

./patron2graphe.exe « iso-8859-1 » patrons-1.txt

Françoise Del Socorro

Utilités (doublons, html)

Posted in pluriTAL by pluritaluser on 18 avril 2009

1) La commande sort (sort -u fic) est téléchargeable dans le package coreutils: GNU core utilities (includes fileutils, sh-utils and textutils) à partir du setup.exe de Cygwin.

2) C’est ainsi que je vais éditer automatiquement mes pages web:
http://www.mybloop.com/francoisepeace
Pour changer l’affichage automatique de la page web, remplacez le code source de ma page web par le code source de votre page web. Mon code source est en bas du fichier Perl.
Pour changer les couleurs, il faut soit mettre les noms en anglais, soit télécharger un éditeur hexadécimal de couleurs (visual color picker, etc…) soit aller dans une page qui vous donne ce code et le mettre après le #.
Pour additionner ou supprimer des changements, il suffit d’imiter le code.

MyBloop stores your files forever. They will never be deleted and will never expire, unless you delete the file yourself.
The site to upload and share files for free with infinite space.

Françoise Del Socorro

——————————————–

3) Je pense que la plupart d’entre vous on finalisé la BAO3, mais pour ceux qui ne savent pas du tout la faire et qui n’ont pas eu les programmes de SF, extrait-term.pl ni extract-patron-cordial.pl de SF je vous propose mes programmes qui font la même chose en plus long et plus compliqué. Je n’ai pas fait de version générale pour mon dernier programme car je devais commencer Document structuré et donc c’est vous qui devez la faire.

-3- treetagger

-3c- treetagger + cordial

-c3- cordial normalisé en treetagger

j’ai fait les rubriques livres et culture mais la plupart des programmes ont des versions générales incluses

le résultat est un tableau comparatif de Cordial et Treetagger

http://www.mybloop.com/francoisepeace

Françoise Del Socorro

———————————–

J’ai commencé les TP de document structurés, et j’ai été étonné qu’on n’avait pas besoin des entités HTML dans XML:

http://xmlfr.org/documentations/tutoriels/010115-0003

Le deuxième point qui frappe les développeurs HTML s’attaquant à XML est le petit nombre de « caractères spéciaux » permettant de désigner des caractères non- ascii.

Les caractères spéciaux HTML appelés « entités générales internes » ou plus communément entités dans la terminologie XML et permettant de définir des caractères accentués, des symboles monétaires et autres copyright ou espaces insécables dans des encodages où ils peuvent ne pas exister ne sont pas nécessaires pour XML qui s’appuyant sur Unicode permet d’insérer tous ces caractères sans avoir recours à cet artifice.

Ces caractères spéciaux ne sont donc pas prédéfinis en XML et doivent être définis dans une DTD avant de pouvoir être utilisés.

Si cette définition est réalisée dans certaines DTDs comme XHTML (pour des raisons de compatibilité) ou DocBook, pour la plupart des vocabulaires XML et en particulier pour XSLT, ces entités ne sont pas définies et un parseur XML générera une erreur s’il rencontre par exemple «   » ou « é ».

Les seules exceptions sont, bien entendu, les entités nécessaires à inclure les caractères de balisage (« & », « < », « > », « ' » et « " »).

Et donc un petit programme en Perl comme xml2web.pl (pas xml2html.pl qui affiche xml) contenant

while(my $recup=<FILEIN>) {
#1. transcodage
###Les paragraphes###
$recup=~s/(\s)*\n/\n/g; #supprime les espaces avant le retour à la ligne
$recup=~s/^\n/<p\/>\n/g; #met des paragraphes dans tous les sauts de ligne
if ($recup=~/[^<p\/>]\n/g) {
$recup=~s/\n/<br\/>\n/g
};# met des br en fin de ligne lorsque la balise <p> n’est pas là
###Les guillemets dans le texte balise
unless (($recup=~/1.0/g)||($recup=~/UTF-8/g)||($recup=~/text\/xsl/g)||($recup=~/ti-prince/g)){
$recup=~s/\ »/&quot\;/g;
}
#2. Memorisation dans DUMPFULL
$DUMPFULL.=$recup;
}

devrait suffire largement pour éditer toutes vos pages en XML avec des feuilles de style XSL.

Je n’ai pas encore testé le résultat mais je pense que le texte sera mis en forme convenablement car cooktop accepte les documents avec des balises XML modifiés ainsi.

Et j’ai aussi découvert que le </br> n’était pas fermé pour XML, il faut qu’il soit : <br/>.

Je n’ai pas encore mis ce programme en ligne, mais il y en a tellement qui se ressemblent que vous pourrez facilement l’essayer en modifiant paragraphes.pl

Espérons que les br et les p fermés s’afficheront comme il faut.

Françoise Del Socorro

—————————————

Pour le XSLT et le XPath, je vous conseille un site où je suis en train d’apprendre:

http://www.zvon.org/index.php?nav_id=tutorials
Pour Xpath, on peut tester avec Xlab les exemples.

Françoise Del Socorro

————————————

Finalement en ce qui concerne les bibliographies (corpus parallèles et comparables, etc.), je crois que le TAL a des normes de présentation des auteurs que je ne connais pas encore et qui sont différentes de celles-ci, mais celles que je connais sont les suivantes:

http://www.ulb.ac.be/philo/infodoc/biblio.html#types
Exemple:  »

Responsabilité principale (de la contribution) – Titre (de la contribution) – Titre (de la série) – Type de support – Édition – Désignation du numéro – Date de mise à jour ou de révision – Emplacement à l’intérieur du document hôte.

THANARAJ, T.A., et ARGOS, P., « Ribosome-mediated translational pause and protein domain organization » dans Protein Science. Electronic Edition, Revue sur INTERNET, août 1996, vol. 5, n° 8, p. 1594-1612, dernière mise à jour : 6 août 1996, http://www.prosci.uci.edu/cgi-bin/sgmhtm5.conv.pl?, Vol5 No08/6048, 1996.

 »

Et pour avoir les auteurs présumés des sites: http://news.nic.com/cgi-bin/whois (sites anglais), http://www.afnic.fr/outils/whois (sites français), essayez sur Mozilla: Outils > Informations sur la page, pour avoir la dernière date de modification.

Françoise Del Socorro

Comment effacer les doublons des fichiers texte ?

Posted in pluriTAL by pluritaluser on 3 avril 2009

Comment effacer les doublons?

1) Il faut aller à la ligne après chaque point et après chaque majuscule au début de la deuxième phrase.

Bash:
$ sed -i.bak -e s/ »\. »/ »\.\n »/g ./livres.txt  #Va à la ligne après le point (que sur l’ordi de la fac)

Perl:
$recup=~s/\./\.\n/g; #Va à la ligne après chaque points  –> NE MARCHE PAS

Il faudrait aussi pouvoir lui dire de ne pas aller à la ligne après « … » mais (^.) ne marche dans aucun langage.

#On doit aussi faire une commande pour aller à la ligne après une majuscule lorsque deux phrases sont collées mais ça ne marche pas.
if ($recup=~/([a-z])([A-Z][a-z])/g) {
$recup=~s/$2/$2\n/g  #Va à la ligne lorsque c’est une fin de ligne sans point
}; –> NE MARCHE PAS (ex: compagne de ModiglianiAu Palais Garnier)

Et après être allé à la ligne après chaque point, il faut aussi supprimer les espaces éventuels en début de ligne:

Bash:
$ sed -i.bak -e s/ »^ « / » »/g livres.txt

2)Il faut ensuite faire:

Bash:

sort -u livres.txt > livres-un.txt #Supprime les doublons, mais on ne peut pas écraser son propre fichier sinon tout disparaît.  (Je pense qu’il s’agit d’un programme à télécharger car cela ne marche que sur l’ordinateur de la fac. )

Je n’ai pas cherché comment faire pour Perl.

Cela ne supprime les doublons que dans les fichiers texte.

Il reste quand même le problème des majuscules
:
Des archéologues retrouvent des sculptures
Des archéologues retrouvent des sculpturesNé le 18 juillet 1917 à Cayenne (Guyane), le chanteur avait fait ses adieux à la scène au Palais des congrès, à Paris, en décembre 2007.
Des ivoires métis sont présentés Quai Branly.
Des oeuvres d’Inde ou d’Iran voient leur cote s’envoler.
Des responsables du spectacle sont inquiets pour leurs budgets.
Deux nouveaux fauteuils sont à pourvoir, le 7 février, pour tenter de repeupler une Académie française qui enregistre davantage de morts que d’élus.
Deux sites proposent des plates-formes musicales participatives pour les producteurs amateurs et les musiciens.
Deux solos à la Manufacture des Abbesses.
Décevante « Ecole des femmes » à l’Odéon.
Désignée comme capitale européenne de la culture, la cité anglaise ouvre les festivités.
En cause, 77 « copies » de la dernière compagne de Modigliani
En cause, 77 « copies » de la dernière compagne de ModiglianiAu Palais Garnier, un rare manifeste de l’Italien Luigi Dallapiccola.
En cause, 77 « copies » de la dernière compagne de ModiglianiLe tout est l’oeuvre du Niçois Céleste Boursier-Mougenot.

Françoise Del Socorro

—————————————-

J’ai résolu le problème des majuscules au milieu de phrase en amont:

Des archéologues retrouvent des sculptures
Des ivoires métis sont présentés Quai Branly.
Des oeuvres d’Inde ou d’Iran voient leur cote s’envoler.
Des responsables du spectacle sont inquiets pour leurs budgets.
Deux nouveaux fauteuils sont à pourvoir, le 7 février, pour tenter de repeupler une Académie française qui enregistre davantage de morts que d’élus.
Deux sites proposent des plates-formes musicales participatives pour les producteurs amateurs et les musiciens.
Deux solos à la Manufacture des Abbesses.
Décevante  Ecole des femmes  à l’Odéon.
Désignée comme capitale européenne de la culture, la cité anglaise ouvre les festivités.
Édouard II  et  Massacre à Paris  du dramaturge élisabéthain sont représentés en France.
Eldorado  s’impose au Théâtre de la Ville.
En cause, 77  copies  de la dernière compagne de Modigliani
Entretien avec l’historien israélien.

(exemple tiré de culture.txt et pas de livres.txt)

Et donc je fais tout sur bash:

sed -i.bak -e s/ »\. »/ »\.\n »/g ./livres.txt
sed -i.bak -e s/ »^ « / » »/g livres.txt
sort -u livres.txt > livres-un.txt

Françoise Del Socorro