pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Enlever toutes les balises de façon simple:

Posted in pluriTAL by pluritaluser on 18 mars 2009

BaO1

Insérez dans le filtreur:

$recup=~s/<((\w)*(\W*))*>/ /g;  # enlève toutes les balises

$DUMPFULL1.= »<extract num=\ »$i\ »>$recup</extract> »;

$DUMPFULL1=~s/<extract num=\ »$i\ »> <\/extract>/ /g; # enlève tous les extract répétés

et après il n’y a plus de <a href=…> ni de <img src=…>  ni de <extract num=’1′> </extract><extract num=’1′> </extract>

Françoise Del Socorro

Merci à Mourad pour toute l’aide  et pour suggérer $i à la place de 1 afin de supprimer toutes les balises redondantes, même celles qui contiennent un autre chiffre que 1, j’ai remis la sortie vers le fichier texte car on a besoin de ça pour le treetagger, je vais encore rajouter les balises de titre dans mon programme.

Françoise Del Socorro

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :