pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Enlever toutes les balises de façon simple:

Posted in pluriTAL by pluritaluser on 18 mars 2009

BaO1

Insérez dans le filtreur:

$recup=~s/<((\w)*(\W*))*>/ /g;  # enlève toutes les balises

$DUMPFULL1.= »<extract num=\ »$i\ »>$recup</extract> »;

$DUMPFULL1=~s/<extract num=\ »$i\ »> <\/extract>/ /g; # enlève tous les extract répétés

et après il n’y a plus de <a href=…> ni de <img src=…>  ni de <extract num=’1′> </extract><extract num=’1′> </extract>

Françoise Del Socorro

Merci à Mourad pour toute l’aide  et pour suggérer $i à la place de 1 afin de supprimer toutes les balises redondantes, même celles qui contiennent un autre chiffre que 1, j’ai remis la sortie vers le fichier texte car on a besoin de ça pour le treetagger, je vais encore rajouter les balises de titre dans mon programme.

Françoise Del Socorro