pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Les entités HTML pour les accents en français sont devenues obsolètes (oui !!!)

Posted in pluriTAL by pluritaluser on 28 juin 2009

J’ai découvert quelque chose, je ne sais pas depuis quand cela existe, mais si vous utilisez windows (charset=windows-1250) et un clavier français (fr), il n’y a qu’à rajouter cette ligne dans la balise HEAD:

<meta http-equiv=\ »content-type\ » content=\ »text\/html; charset=windows-1250; fr\ »> (unix)

<meta http-equiv= »content-type » content= »text\/html; charset=windows-1250; fr »> (fichier texte brut -> save as HTML)

Les minuscules tout comme les majuscules s’accentuent miraculeusement !
Et on n’a plus d’utiliser les programmes qui transforment  » à  » en & agrave ;  » é  » en & eacute ; !
Je ne connais pas les initiales pour les autres langues, mais vous pouvez essayer. Et je sais que l’HTML pour Mac et Linux a pour charset utf-8 ou utf8.
En donc c’est pareil que pour le XML.
Je suis encore avec mon dernier devoir (statistiques), c’est long! Il y a encore beaucoup de travail, là j’améliore le tableau qui ressemble à celui du premier projet mais c’est pour expliquer le choix des balises, mais je pense que quand je vais le rédiger ce sera en XML car c’est plus facile en fonction de la simplification que l’on fait.

Je vous rappelle qu’un fichier HTML se construit ainsi:

<html><head>ce qui n’est pas visible dans le corps du document</head><body>texte et balises locales</body></html>

Ex (programme en Bash, sur un fichier texte les \ sont supprimés sauf pour text\/html):

#Mini éditeur HTML
a= »../CONTEXTES/Francais/potentiel-de-repos-$i.html »;
sed -i ‘/[a-z]/ a\</br>’ $a; #met des br en fin de ligne
sed -i ‘/–/ a\</br>’ $a; #met des br en fin de ligne
cat $a >> ../CONTEXTES/Francais/potentiel-de-repos-$i.temp.html;
echo « <html> » >$a;
echo « <head><title>Le choix des balises: potentiel en fran&ccedil;ais</title><meta http-equiv=\ »content-type\ » content=\ »text\/html; charset=windows-1250; fr\ »></head> » >> $a;
echo « <body bgcolor=\ »#DEF7D8\ » text=\ »#DE6B3F\ » link=\ »#034B16\ » alink=\ »#C059E2\ » vlink=\ »#431C4F\ » background=\ »../../IMAGES/multibk.jpg\ »><blockquote> » >> $a;
cat ../CONTEXTES/Francais/potentiel-de-repos-$i.temp.html >> $a;
echo « <p><a href=\ »../../TABLEAUX/potentiel-francais.html\ »><img src=\ »../../IMAGES/retour.gif\ »></a></blockquote></body> » >> $a;
echo « </html> » >> $a; #met des balises html entre les contextes
sed -i -r -e ‘s/potentiel de repos/<b>potentiel de repos<\/b>/g’ $a; #met les contexte en gras
rm ../CONTEXTES/Francais/*\.temp.html;
#

Exemple 2:

<html>
<head>
<title>Poesie</title>
<meta http-equiv= »content-type » content= »text\/html; charset=windows-1250; fr »>
</head>
<body bgcolor= »#DEF7D8″ text= »#DE6B3F » link= »#034B16″ alink= »#C059E2″ vlink= »#431C4F »>
Voilà les feuilles sans sève<br/>
Qui tombent sur le gazon,<br/>
Voilà le vent qui s’élève<br/>
Et gémit dans le vallon,<br/>
Voilà l’errante hirondelle<br/>
Qui rase du bout de l’aile<br/>
L’eau dormante des marais,<br/>
Voilà l’enfant des chaumières<br/>
Qui glane sur les bruyères<br/>
Le bois tombé des forêts.<br/>
<br/>Tiré de: http://www.poesies.net/poeme10.html, Alphonse De Lamartine
</body>
</html>

Voilà, j’ai mis en ligne, car je pense que c’est nouveau et ce n’est marqué nulle part sur internet qu’on peut faire comme ça (0 articles):

http://francoisepeace.cwahi.net/mhaourrr_fifiufiufiu/ancienne-norme.html

http://francoisepeace.cwahi.net/mhaourrr_fifiufiufiu/nouvelle-norme.html

Je pense que c’est vraiment très récent, peut-être quelques heures ? Peut-être que ça vient avec le nouveau Mozilla ? Aucune idée. Faîtes sélectionner la source pour voir la différence. Le javascript ça appartient au site. Même le sélectionner la source (code source de la page)  donne les mauvais caractères pour l’ancienne norme.

Non, c’est la nouvelle version de Mozilla !

Dans l’ancienne version de Internet Explorer les accents ne s’affichent pas. Donc c’est bien le navigateur qui a changé et pas internet. Je vais installer la nouvelle version de Internet Explorer pour voir. Car sur Mozilla ça marche, or ce qui marche sur Mozilla devrait marcher sur Internet Explorer ?

Internet Explorer me dit que j’ai déjà la version la plus récente. Donc soit Mozilla Firefox est en avance sur Internet Explorer, soit les règles du langage HTML qu’il traduit pour afficher les pages sont différentes.

——————————–

Pour Mozilla Firefox, l’adaptation au méta est automatique.

Pour Internet Explorer 8, il faut aller sur: Affichage > Codage > Sélection Automatique

Il ne faut pas qu’il y ait d’encodage à défaut, et sur ce point Internet Explorer a perdu 1 point sur Mozilla 3.0.11 qui est en Sélection Automatique en plus d’être en ISO-8859-1.

A défaut Internet Explorer 8 est sur Europe Centrale (Windows), ce qui l’empêche de reconnaître le fr (clavier ? langue ?) dans ma balise. Et donc il faut le mettre en automatique.

Les deux navigateurs affichent mes deux pages différemment:

http://francoisepeace.cwahi.net/mhaourrr_fifiufiufiu/ancienne-norme.html

http://francoisepeace.cwahi.net/mhaourrr_fifiufiufiu/nouvelle-norme.html

Sauf que Mozilla perd 1 point sur Internet Explorer au niveau de la Sélection de la source car il sélectionne dans son fichier texte le mauvais affichage des caractères lorsque celui-ci n’est pas reconnu en ligne. Cependant Internet Explorer n’a pas ce problème.


J’ai encore une chose à rajouter: Internet Explorer n’affiche que mes deux pages différemment la première fois où on l’a mis sur:
Sélection automatique, la deuxième fois (Actualiser) ça ne fonctionne plus et pourtant il est sur SA. Et donc comme IE8 reconnaît ce code seulement 1 fois, il y a une erreur dans le navigateur. Amusez-vous à mettre puis enlever puis mettre: Sélection Automatique.

Donc Internet Explorer perd 2 points.

Conclusion: 3 problèmes différents et une toute nouvelle balise qui marche pour afficher ses entités HTML en français sans avoir à les transformer soi-même:

<meta http-equiv= »content-type » content= »text\/html; charset=windows-1250; fr »>

Vraiment vous avez eu la première nouvelle sur le sujet, découverte par hasard, car je me suis inspirée de l’XHTML que je ne connais pas:

http://www.loria.fr/~glisse/enseignement/xhtml/skel.html

 <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
 <meta http-equiv="Content-Language" content="fr" />
 <meta name="author" content="Marc Glisse" />

Françoise Del Socorro

2 Réponses

Subscribe to comments with RSS.

  1. judascain said, on 29 juin 2009 at 4:23

    Françoise, essaie plutôt avec windows-1252 (http://fr.wikipedia.org/wiki/Windows-1252).

    • pluritaluser said, on 6 juillet 2009 at 12:58

      Merci !
      C’est vrai que ça marche et dans ce cas / sans \/ marche aussi:
      <meta http-equiv= »content-type » content= »text\/html; charset=windows-1252″>
      <meta http-equiv= »content-type » content= »text/html; charset=windows-1252″>
      http://francoisepeace.cwahi.net/mhaourrr_fifiufiufiu/windows-1252.html
      D’après Wikipédia, windows-1250 équivaut à ISO-8859-2 et windows-1252 équivaut à ISO-8859-1, de plus il n’y a pas les mêmes accents que en français, à la place du  » à  » on a un  » r grave « . Donc je ne sais pas comment il a fait pour accéder au  » à  » quand je met fr après le charset, mais la totalité de la table n’est pas montrée, mais je pense que le  » à  » de « text\/html; charset=windows-1252; fr » comme pour l’instant il fonctionne a été obtenu en plaçant l’accent grave sur le a.
      http://en.wikipedia.org/wiki/Windows-1250
      En tout cas ton code marche et l’avantage de windows-1252 c’est qu’il s’affiche bien sur Mozilla et qu’il ne pose pas de problème non plus pour Internet Explorer. Alors que mon code ne marche bien que sur Mozilla, et ne marche que 1 fois sur Internet Explorer.
      Donc merci de m’apprendre que le français dans Windows sur un support ANSI utilise à défaut windows-1252.
      Françoise Del Socorro


Laisser un commentaire