pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Utilités (doublons, html)

Posted in pluriTAL by pluritaluser on 18 avril 2009

1) La commande sort (sort -u fic) est téléchargeable dans le package coreutils: GNU core utilities (includes fileutils, sh-utils and textutils) à partir du setup.exe de Cygwin.

2) C’est ainsi que je vais éditer automatiquement mes pages web:
http://www.mybloop.com/francoisepeace
Pour changer l’affichage automatique de la page web, remplacez le code source de ma page web par le code source de votre page web. Mon code source est en bas du fichier Perl.
Pour changer les couleurs, il faut soit mettre les noms en anglais, soit télécharger un éditeur hexadécimal de couleurs (visual color picker, etc…) soit aller dans une page qui vous donne ce code et le mettre après le #.
Pour additionner ou supprimer des changements, il suffit d’imiter le code.

MyBloop stores your files forever. They will never be deleted and will never expire, unless you delete the file yourself.
The site to upload and share files for free with infinite space.

Françoise Del Socorro

——————————————–

3) Je pense que la plupart d’entre vous on finalisé la BAO3, mais pour ceux qui ne savent pas du tout la faire et qui n’ont pas eu les programmes de SF, extrait-term.pl ni extract-patron-cordial.pl de SF je vous propose mes programmes qui font la même chose en plus long et plus compliqué. Je n’ai pas fait de version générale pour mon dernier programme car je devais commencer Document structuré et donc c’est vous qui devez la faire.

-3- treetagger

-3c- treetagger + cordial

-c3- cordial normalisé en treetagger

j’ai fait les rubriques livres et culture mais la plupart des programmes ont des versions générales incluses

le résultat est un tableau comparatif de Cordial et Treetagger

http://www.mybloop.com/francoisepeace

Françoise Del Socorro

———————————–

J’ai commencé les TP de document structurés, et j’ai été étonné qu’on n’avait pas besoin des entités HTML dans XML:

http://xmlfr.org/documentations/tutoriels/010115-0003

Le deuxième point qui frappe les développeurs HTML s’attaquant à XML est le petit nombre de « caractères spéciaux » permettant de désigner des caractères non- ascii.

Les caractères spéciaux HTML appelés « entités générales internes » ou plus communément entités dans la terminologie XML et permettant de définir des caractères accentués, des symboles monétaires et autres copyright ou espaces insécables dans des encodages où ils peuvent ne pas exister ne sont pas nécessaires pour XML qui s’appuyant sur Unicode permet d’insérer tous ces caractères sans avoir recours à cet artifice.

Ces caractères spéciaux ne sont donc pas prédéfinis en XML et doivent être définis dans une DTD avant de pouvoir être utilisés.

Si cette définition est réalisée dans certaines DTDs comme XHTML (pour des raisons de compatibilité) ou DocBook, pour la plupart des vocabulaires XML et en particulier pour XSLT, ces entités ne sont pas définies et un parseur XML générera une erreur s’il rencontre par exemple «   » ou « é ».

Les seules exceptions sont, bien entendu, les entités nécessaires à inclure les caractères de balisage (« & », « < », « > », « ' » et « " »).

Et donc un petit programme en Perl comme xml2web.pl (pas xml2html.pl qui affiche xml) contenant

while(my $recup=<FILEIN>) {
#1. transcodage
###Les paragraphes###
$recup=~s/(\s)*\n/\n/g; #supprime les espaces avant le retour à la ligne
$recup=~s/^\n/<p\/>\n/g; #met des paragraphes dans tous les sauts de ligne
if ($recup=~/[^<p\/>]\n/g) {
$recup=~s/\n/<br\/>\n/g
};# met des br en fin de ligne lorsque la balise <p> n’est pas là
###Les guillemets dans le texte balise
unless (($recup=~/1.0/g)||($recup=~/UTF-8/g)||($recup=~/text\/xsl/g)||($recup=~/ti-prince/g)){
$recup=~s/\ »/&quot\;/g;
}
#2. Memorisation dans DUMPFULL
$DUMPFULL.=$recup;
}

devrait suffire largement pour éditer toutes vos pages en XML avec des feuilles de style XSL.

Je n’ai pas encore testé le résultat mais je pense que le texte sera mis en forme convenablement car cooktop accepte les documents avec des balises XML modifiés ainsi.

Et j’ai aussi découvert que le </br> n’était pas fermé pour XML, il faut qu’il soit : <br/>.

Je n’ai pas encore mis ce programme en ligne, mais il y en a tellement qui se ressemblent que vous pourrez facilement l’essayer en modifiant paragraphes.pl

Espérons que les br et les p fermés s’afficheront comme il faut.

Françoise Del Socorro

—————————————

Pour le XSLT et le XPath, je vous conseille un site où je suis en train d’apprendre:

http://www.zvon.org/index.php?nav_id=tutorials
Pour Xpath, on peut tester avec Xlab les exemples.

Françoise Del Socorro

————————————

Finalement en ce qui concerne les bibliographies (corpus parallèles et comparables, etc.), je crois que le TAL a des normes de présentation des auteurs que je ne connais pas encore et qui sont différentes de celles-ci, mais celles que je connais sont les suivantes:

http://www.ulb.ac.be/philo/infodoc/biblio.html#types
Exemple:  »

Responsabilité principale (de la contribution) – Titre (de la contribution) – Titre (de la série) – Type de support – Édition – Désignation du numéro – Date de mise à jour ou de révision – Emplacement à l’intérieur du document hôte.

THANARAJ, T.A., et ARGOS, P., « Ribosome-mediated translational pause and protein domain organization » dans Protein Science. Electronic Edition, Revue sur INTERNET, août 1996, vol. 5, n° 8, p. 1594-1612, dernière mise à jour : 6 août 1996, http://www.prosci.uci.edu/cgi-bin/sgmhtm5.conv.pl?, Vol5 No08/6048, 1996.

 »

Et pour avoir les auteurs présumés des sites: http://news.nic.com/cgi-bin/whois (sites anglais), http://www.afnic.fr/outils/whois (sites français), essayez sur Mozilla: Outils > Informations sur la page, pour avoir la dernière date de modification.

Françoise Del Socorro

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :