janvier | 2009 | pluriTAL - BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Ce qu’on a fait à la première semaine du S2 du M1 PluriTAL

Posted in Boîte à Outils, Master TAL Recherche, pluriTAL by pluritaluser on 31 janvier 2009

A faire ce weekend pour les absents:

0) On a grève des enseignants lundi. D’après Mr Fleury et Mr Daube on a cours lundi à l’INALCO à 14h contrairement à ce qu’on nous a dit Vendredi.

1) Envoyer un e-mail à la prof de syntaxe Mme SAMVELIAN sans contenu: pollet.samvelian@univ-paris3.fr avec comme objet/titre: Syntaxe formelle

(ça va être utile pour savoir si on aura cours ou grève Mardi)

2) Trouver un corpus avec un taux élevé de redondances (espressions semblables / mêmes mots qui se suivent pour ne pas avoir que du: « et le », et du « et la » à analyser) et télécharger Lexico 3, c’est écrit qu’il faut payer, mais si on clique dessus, on télécharge sans payer. Si vous ne savez pas où le trouver, tapez sur le moteur de recherche: lexico3 , et cliquez sur Lexico 3 Web Page.

Le corpus peut être un discours, un forum, un blog, des sms, etc… et la taille n’est pas importante, c’est la redondance qui est importante, mais je pense que ça doit être assez long pour pouvoir faire des analyses statistiques dessus.

3) Télécharger les corpus de Le Monde pour 15jours et pour 1 année ( 2008 ) sur le site de Mr Fleury, choisir la rubrique RSS qui vous intéresse sur les diapos, et insérer un programme de ce style dans parcours-arborescence-fichiers:

# Insérer ici votre code (le filtreur)

if ($file=~/0,2-3208,1-0,0\.xml) #numero de la rubrique qui vous intéresse

open(FILEINPUT, »$ARGV[0] »);

open(FILEOUTPUT, »>resu.txt »); #nom de la rubrique qui vous intéresse

$i=1;

while ($ligne = <FILEINPUT>){

if ($ligne=~/<description>([^<]+)<\/description>/) {

my $recup=$1; #la variable $1 est remplacée par recup

$recup=~s/’/\’/g;

$recup=~s/ »/\ »/g;

$recup=~s/é/é/g;

$recup=~s/ê/ê/g;

print FILEOUTPUT « Contenu de description n° $i: $recup \n »;

$i++;

}

close(FILEINPUT);

close(FILEOUTPUT);

print $i++, »\n »;

}

4) Aller sur le site de Agora ou demander à quelqu’un de Paris 3 d’y aller pour télécharger les fichiers pour le cours de Document structuré de Mr Fleury, et apprendre comment faire des pages en .xml et des feuilles de style.

C’est ce qu’on a fait cette semaine.

Françoise Del Socorro

leave a comment

Mes images

Posted in pluriTAL by pluritaluser on 29 janvier 2009

Bonjour à Raoum et à tous, une chose dont je me suis rendue compte (et que je ne sais pas si j’aurai le temps de faire), c’est que le triangle vocalique c’est f1 * f2 pour chaque locuteur.

Là je vais m’occuper des droites avant d’expliquer à Raoum le reste.

http://www.korrigansite.be/fctn1deg/fonct1.htm explique assez bien y=ax+b

Mes images (ce n’est pas forcément ce qu’il faut faire) sont ici: images2-fds.zip

Je pense que à défaut de s’échanger les programmes, il faudrait s’échanger les images pour pouvoir commenter ce que les autres ont fait.

Françoise Del Socorro

Interprétation des images

Mes images sont dans le mauvais ordre (à chaque fois un formant pour toutes les voyelles), si on les met dans le bon ordre (tous les formants pour une voyelle à la fois), on remarque que là où il y a le plus de contraste c’est entre le f1 et le f2, d’où le f1*f2 pour le triangle/trapèze vocalique.

Je ne pense pas que faire le tableau de variation pour f1*duree soit utile, et bien que je ne vois pas du tout comment s’est effectué la logique du classement acoustique en voyelles d’avant, centrales et d’arrière, je pense que au lieu de faire les voyelles une par une, il faut faire le plot de plusieurs voyelles au même temps, et donc des groupes de voyelles d’avant, centrales et d’arrière pour pouvoir les comparer, sinon on n’a rien à dire (i.e. je ne comprends pas quoi dire).

Et après on fait le tableau de variation de f1*duree et f2*duree pour toutes les voyelles d’avant, toutes les voyelles centrales et toutes les voyelles d’arrière.

Et après on fait f1*f2, je ne sais pas ce qu’on va voir, et donc je verrais après pour les fonctions.

Et donc Raoum, toi je te dis d’aller faire le plus simple, que je n’ai pas encore fait:

Question 2:

Donne moi le boxplot de Hondelatte et Tivolle pour la durée en général.

Question 3:

Donne-moi le abline de f1*f2 pour les voyelles d’avant, pour les voyelles centrales puis pour les voyelles d’arrière.

Et en ce qui concerne les tableaux de variation pour y = ax+b, pour ceux qui veulent en faire:

Lorsque f(x) = 0, ax + b = 0 ↔ x = -b/a

Lorsque x = 0, f(x) = a.0 + b = b

Si vous voulez choisir la couleur de votre abline: colors()

	f1~duree pour le /a/ de Tivolle	f1~duree pour le /a/ de Hondelatte	f2~duree pour le /a/ de Tivolle	f2~duree pour le /a/ de Hondelatte
	Soit f(x)= ax + b a = 0.8235 b = 528.8854	Soit f(x)= ax + b a = 1.04873 b = 511.53075	Soit f(x)= ax + b a = -0.97661 b = 1452.27001	Soit f(x)= ax + b a = -0.66354 b = 1439.07651
Lorsque f(x) = 0 Alors x = -b/a	-642.24099	-487.76210	1487.02522	2168.78637
Lorsque x = 0 Alors f(x) = b	528.8854	511.53075	1452.27001	1439.07651

f1~duree pour le /a/ de Tivolle

f1~duree pour le /a/ de Hondelatte

x	-642.24099		0
f(x)		flèche asc	528.8854
f(x)	0	flèche asc

x	-487.76210		0
f(x)		flèche asc	511.53075
f(x)	0	flèche asc

Encore une fois, je ne peux pas garantir si mes idées correspondent à ce qu’il faut faire.

Françoise Del Socorro

leave a comment

Pour Khiari Raoum

Posted in pluriTAL by pluritaluser on 28 janvier 2009

Salut Raoum, je peux très bien t’aider en phonologie malgrès le fait que je n’ai pas fini de faire l’exercice et que j’ai des grosses lacunes en mathématiques !

Mais tout se passera bien:

Commence par cliquer sur R > Fichier > Nouveau script > sauver sous boxplotformants.R

Qu’est ce qui différencie le plus les 2 locuteurs ?

s’agit-il de différences générales (valeurs moyennes de durée, de f0, etc.) ?

ou de valeurs plus précises (valeurs de durée sur certaines voyelles, certaines syllabes, dans certaines positions) ?

ou autre…

utilisez le fichier « intitulé_colonnes.xls » pour vous aider à comprendre les mesures manipulées

Un document de 1 à 2 pages (avec figures, résultats et interprétation)

Je pense qu’on aurait pu faire à la place de ce que j’ai fait quelque chose avec une valeur moyenne, mais je pense que on peut s’en sortir avec boxplot.

L’idée c’est:

setwd(« C:/Program Files/Phonologie/Rcours »)

donnees = read.table(« resultats_Tivolle_Hondelatte.txt », header=TRUE, sep = « \t », na.strings = « NA », stringsAsFactors = default.stringsAsFactors(), quote= » »)

boxplot(donnees$f1,donnees$f2, main = « f2 vs f1 »)

Après tu essayes ce programme-là en le sélectionnant en entier > click droit > exécuter

plot.new()

par(mfrow=c(1,2))

Hond1 = donnees[donnees$speaker == « Christophe_Hondelatte »,]
boxplot(Hond1$f1, Hond1$f2, Hond1$f3, Hond1$f4, Hond1$f0, xlab= »Formants », main= »Hondelatte », sub= »pour toutes les voyelles »)
axis(1, 1:5, labels=c(« f1 », « f2 », « f3 », « f4 », « f0 »))
arrows(1.5,3700,2.8,3200)
text(1.5, 3900, « Plus de \n différence », cex=0.7)

Tiv1 = donnees[donnees$speaker == « Simon_Tivolle »,]
boxplot(Tiv1$f1, Tiv1$f2, Tiv1$f3, Tiv1$f4, Tiv1$f0, xlab= »Formants », main= »Tivolle », sub= »pour toutes les voyelles »)
axis(1, 1:5, labels=c(« f1 », « f2 », « f3 », « f4 », « f0 »))
arrows(1.5, 3700, 2.8, 3200)
text(1.5, 3900, « Plus de \n différence », cex=0.7)
Mais je ne peux pas garantir que ce que je raconte c’est vrai (parce que ça peut être complètement faux).

De plus je viens de recevoir FINALEMENT un message comme quoi notre aimable professeur veut qu’on rende le devoir même si c’est trop tard, et que le cours de rattrapage n’aura PAS lieu demain:

« Bonsoir à tous

il n’y aura donc pas cours de rattrapage demain pour cause de grève …

je vous recontacte ultérieurement pour convenir d’une autre date …

La remise du dernier devoir prévue pour le 31 janvier est évidemment repoussée

cg «

Dis moi si tu as des difficultés, car comme je n’ai rien préparé car je ne suis ni sais ce que le prof il sait, je ne sais pas si j’explique bien.

En plus je ne sais pas comment je vais interpréter les données !!!

Parce que je ne sais pas lire les images !!!

Tu arrives à obtenir une image ?

Question 1:

Quelle est la différence entre Hondelatte et Tivolle ?

Soit un formant (en Hz) sur http://atilf.atilf.fr/:

A. ACOUSTIQUE. Fréquence de résonance maximum de l’enveloppe spectrale du signal de la parole à un instant donné (d’apr. F. CARTON, Introd. à la phonét. du fr., Paris, Bordas, 1974, p. 236) :

Les fréquences particulièrement renforcées par la résonance du canal vocal s’appellent des formants [it. ds le texte] : aux diverses configurations du canal vocal propres à chaque voyelle correspond un spectre avec des formants différents, dont la détermination exige des calculs mathématiques compliqués. Il est erroné de faire correspondre, comme on le faisait naguère, un formant à chaque cavité.
F. CARTON, Introd. à la phonét. du fr., 1974 Paris, Bordas, p. 48.

D’après boxplotformants.bmp, en ce qui concerne les formants pour toutes les voyelles…

Question 2:

Tout d’abord essaye de comprendre le programme que j’ai mis en ligne sur les formants pour un faire un pareil avec les durées et sauve-le avec le nom de ton choix.R

Peut-être que ton programme sera différent du mien.

As-tu besoin de + d’aide ?

Soit la durée du phonème en (ms) sur http://atilf.atilf.fr/: une mesure du temps envisagée » dans son aspect quantitatif; en parlant du temps défini, fractionnable, délimité par un début et un terme, et appliqué au déroulement d’un procès. «

Soit une voyelle sur http://fr.wikipedia.org/wiki/Voyelle :

» un son du langage humain dont le mode de production est caractérisé par le libre passage de l’air dans les cavités situées au-dessus de la glotte, à savoir la cavité buccale et/ou les fosses nasales. Ces cavités servent de résonateurs dont la forme et la contribution relative à l’écoulement de l’air influent sur la qualité du son obtenu. La plupart des voyelles utilisées dans les langues sont sonores, c’est-à-dire qu’elles sont prononcées avec une vibration des cordes vocales, mais des voyelles sourdes, sans vibration des cordes vocales, sont utilisées dans certaines langues comme le cheyenne et le japonais. Le chuchotement utilise aussi – par définition – des voyelles sourdes. «

Quelle est la différence entre Hondelatte et Tivolle ?

D’après ton programme en ce qui concerne la durée pour toutes les voyelles…

(Rem: je ne peux pas garantir que mes idées soient les bonnes)

Françoise Del Socorro

********************************************************************************

— En date de : Ven 30.1.09, khiari raoum <raoumkhiari@yahoo.fr> a écrit :

De: khiari raoum <raoumkhiari@yahoo.fr>
Objet:
À: francoise_peace@yahoo.com.br
Date: Vendredi 30 Janvier 2009, 12h56

bonjour,
voici les schémas que g pu faire mé je comprend rien et je ne peux po les commenter!

>je n’ai pas acheté les programmes de bureautique de windows même si je les ai sans le numéro de série, donc je peux ouvrir les .pptx mais pas les éditer, et donc j’aurai préféré que tu m’envois cela dans .odt: open office.

si tu peux m’expliquer :
on doit comparer quoi entre les 2 loc?voyelles, le i,durees …?

> L’axe horizontal s’appelle l’abscisse, c’est l’axe où on trouve les valeurs des x, ici ce sont des Hertz (Hz).

L’axe vertical s’appelle l’ordonnée, c’est l’axe où on trouve les valeurs de y, ici ce sont les formants f1 f2 f3 f4 f0.

Dans ton programme il n’y a pas les durées, il n’y a que les formants donc c’est ça qu’il faut comparer.

Hond1 = Christophe Hondelatte

Hond1 est une variable qui récupère toutes les données de Christophe Hondelatte.

f1 est un formant, comme on a Hond1$f1 alors on n’a que le f1 de Hondelatte.

De même pour las autres formants et pour Simon Tivolle.

Hond1 = donnees[donnees$speaker == « Christophe_Hondelatte »,]
boxplot(Hond1$f1, Hond1$f2, Hond1$f3, Hond1$f4, Hond1$f0, xlab=”Formants”, main=”Hondelatte”, sub=”pour toutes les voyelles”)
axis(1, 1:5, labels=c(”f1″, “f2″, “f3″, “f4″, “f0″))
arrows(1.5,3700,2.8,3200)
text(1.5, 3900, “Plus de \n différence”, cex=0.7)

Boxplot est une fonction:

BoxPlot (http://statisdisq.free.fr/def/graph/boxplot.html)

Une boîte à moustache normale représente des données à une seule variable.
Les moustaches vont du point minimum (minX) au premier quartile (Q1) et du troisième quartile (Q3) au point maximum (maxX). La « boîte » ou cadre est définie par Q1, Med (la médiane) et Q3.

Donc on regarde des données à une seule variable, la variable étant f1 puis f2, puis f3, puis f4, puis f0.

Je ne sais pas dans le détail comment une boîte à moustache fonctionne, mais quand on ne sais pas on regarde la forme, et on voit que pour le f3 c’est plus étiré pour xxxxx que pour yyyyy.

qu’est-ce qu’un formant?F1, F2….!

>Un formant donne des renseignements en Hertz (Hz) sur l’un des maxima d’énergie du spectre sonore, dans notre cas, on a des maxima d’énergie des voyelles, c’est sûrement ce qui est le plus audible.

Il y a une meilleure description sur Wikipédia: http://fr.wikipedia.org/wiki/Formant

Formant

Un article de Wikipédia, l’encyclopédie libre.

» On désigne par formant (acoustique) d’un son de parole l’un des maxima d’énergie du spectre sonore de ce son de parole.

Le spectre sonore représente la distribution en fréquences de l’énergie du signal de parole, dans une bande de fréquences allant de 0 Hz à 4000 Hz si on s’intéresse à la bande passante téléphonique (largement suffisante pour assurer l’intelligibilité du son), voire de 0 Hz à 8000 Hz, si on s’intéresse à l’essentiel de la bande passante audible. Le spectre sonore se mesure par analyse fréquentielle d’un segment très court (aussi appelé fenêtre d’analyse dans le vocabulaire du traitement du signal), de 10 à 40 millisecondes, du signal de parole. C’est une information variable au cours du temps, dépendant du type son de parole, c’est à dire en première approximation, du phonème prononcé, mais plus complètement, de la manière particulière dont il a été prononcé.

Comme le spectre sonore, dont ils représentent l’un des aspects, les formants sont mesurés sur des segments de parole très courts, et ils sont donc variables au cours du temps, dépendant du phonème prononcé et de la manière dont il est prononcé. On numérote les formants (qui sont donc les maxima du spectre sonore) en allant des basses fréquences vers les hautes fréquences. On les désignent par la notation physique Fi (mesurée en Hz) en partant du premier formant F1 dans les fréquences basses. La notation F0 est réservée à la fréquence fondamentale, dont les variations au cours du temps constituent l’intonation de la parole. «

Françoise Del Socorro

leave a comment

Question de codage caractères spéciaux XML

Posted in Boîte à Outils, Projet 2008-2009 by pluritaluser on 20 janvier 2009

Nous avons jeté un premier coup d’oeil au nouveau projet et, comme d’habitude, nous avons constaté des petits soucis de codage, notamment pour ce qui concerne les caractères spéciaux d’XML, par exemple l’apostrophe, les guillemets et le &.

En effet, quand nous voulons afficher à l’écran ces caractères, il est nécessaire de les écrire avec une notation spéciale, soit en décimal, soit en hexadécimal. Par exemple, la notation que nous avons repérée pour l’apostrophe dans un des fichiers xml de notre corpus, est la suivante:

&#39

39 étant le code décimal de l’apostrophe en ASCII.

Nous nous sommes donc demandé comment il faudra eventuellement traiter ce genre de caractères.

Marco & Nassim

leave a comment

aidez moi svp

Posted in pluriTAL by pluritaluser on 20 janvier 2009

slt,

SVP , je vous demande de m’envoyer les 2 derniers cours de MR G endrot,car je n’y ai pas assisté et j’en ai aucune idée! en plus j’ai eu un accident et je ne peut pas assister au cours du Mercredi ainsi je ne pourrais pas récupérer le cours.

mail: raoumkhiari@yahoo.fr

Merci

leave a comment

Mes notes de cours… si ça peut servir

Posted in pluriTAL by pluritaluser on 18 janvier 2009

Pour les élèves qui lisaient le blog, comme le prof avait dit : » j’ai vu que de nombreuses informations ciculaient sur le forum PluriTAL « , je tiens à dire que je n’ai pas écrit n’importe quoi et que j’ai mis sur mon site internet ce que j’ai fait (avec une introduction différente): http://www.geocities.com/mhaourrr_fifiufiufiu/phonetique-sur-R.html

Fichiers dernier-cours.zip et notes-de-cours.zip mis à jour le 9 février (durée: 1semaine). Rem: Le dernier délai c’est le 10 février et il faut profiter qu’on n’a pas le cours de syntaxe. Si vous ne savez pas quoi faire, essayez mes deux programmes et les programmes qu’il y a dans le cours du prof pour 2 phonèmes.

« Chers tous,
En raison de la journée d’action de demain, le cours de syntaxes formelles n’aura pas lieu.
Je vous envoie ci-joint quelques pages de l’ouvrage de Sag, Wasow et Bender (2003), « Syntax: A formal introduction » à lire pour la semaine prochaine.
Bien à vous
Pollet Samvelian »

>> La prof de syntaxe nous a envoyé un fichier joint en .pdf pour lire, si vous ne l’avez pas reçu, lui envoyer un e-mail !

En ce qui concerne le dernier cours de phonologie (en tout cas j’ai compris que c’était le dernier cours), dernier-cours.zip, le prof nous avait donné un nouveau devoir à faire jusqu’au 31 janvier (et avait dit qu’il fallait qu’on lui rende tous les devoirs en retard), je n’ai pas encore commencé à le faire, mais je me suis organisée en recopiant toutes mes notes de cours, et en retrouvant mes anciens cours de mathématiques du CNAM que j’avais recopié aussi car je ne comprends pas les mathématiques et en mettant tout dans le fichier notes-de-cours.zip, ça reste une semaine sur yousendit.com gratuit et si ça ne marche plus je peux remettre le lien. Je ne peux pas garantir que je n’ai pas écrit des choses Fausses dans aucun des fichiers de notes-de-cours.zip.

Je n’ai pas encore commencé, je ne sais pas comment je vais faire le devoir, personne ne va m’aider, et j’ai d’autres partiels à préparer. Mais si vous voulez mettre vos idées sur le blog pour qu’on s’entre-aide, ce serait une bonne idée.

Françoise Del Socorro

********************************

Je ne sais pas interpréter les graphiques, là j’ai commencé par quelque chose de simple en me calquant sur la correction du dernier devoir.

Donc je suis loin d’être à la fin du fichier de diapositives.

Est-ce que cela signifie que Tivolle ouvre plus ses lèvres que Hondelatte quand il prononce les voyelles?

#Relire l’emplacement du fichier fréquemment

setwd(« C:/Fcours/Phonologie/Rcours »)

donnees = read.table(« resultats_Tivolle_Hondelatte.txt », header=TRUE, sep = « \t », na.strings = « NA », stringsAsFactors = default.stringsAsFactors(), quote= » »)

#Les voyelles étudiées: @ a c e E i o u x y

colnames(donnees)

donnees[,2]

#Les formants pour toutes les voyelles

plot.new()

par(mfrow=c(1,2))

Hond1 = donnees[donnees$speaker == « Christophe_Hondelatte »,]

boxplot(Hond1$f1, Hond1$f2, Hond1$f3, Hond1$f4, Hond1$f0, xlab= »Formants », main= »Hondelatte », sub= »pour toutes les voyelles »)

axis(1, 1:5, labels=c(« f1 », « f2 », « f3 », « f4 », « f0 »))

arrows(1.5,3700,2.8,3200)

text(1.5, 3900, « Plus de \n différence », cex=0.7)

Tiv1 = donnees[donnees$speaker == « Simon_Tivolle »,]

boxplot(Tiv1$f1, Tiv1$f2, Tiv1$f3, Tiv1$f4, Tiv1$f0, xlab= »Formants », main= »Tivolle », sub= »pour toutes les voyelles »)

axis(1, 1:5, labels=c(« f1 », « f2 », « f3 », « f4 », « f0 »))

arrows(1.5, 3700, 2.8, 3200)

text(1.5, 3900, « Plus de \n différence », cex=0.7)

#La distribution de f3 pour « i » « y » « e » « E » « a » « @ » « u » « o » « c » « x »

memory.limit(2000)

plot.new()

par(mfrow=c(3,4))

Hondu= donnees[donnees$label == « u » & donnees$speaker == « Christophe_Hondelatte »,]

Tivu= donnees[donnees$label == « u » & donnees$speaker == « Simon_Tivolle »,]

plot(density(Hondu$f3), main = « », xlim = c(3000,5000), ylim = c(0,0.0035), col = « black »)

lines(density(Tivu$f3), main = « », xlim = c(3000,5000), ylim = c(0,0.0035), col = « red »)

legend(« center », title= »Legende: », lty=c(1,1), col=c(« black », »red »), c(« Hondelatte », »Tivolle »), text.col= »black »)

Hondi = donnees[donnees$label == « i » & donnees$speaker == « Christophe_Hondelatte »,]

Tivi = donnees[donnees$label == « i » & donnees$speaker == « Simon_Tivolle »,]

plot(density(Hondi$f3), main = « », xlim = c(1900,3600), ylim = c(0,0.0024), col = « black »)

lines(density(Tivi$f3), main = « », xlim = c(1900,3600), ylim = c(0,0.0024), col = « red »)

title(sub = « f3 i »)

Hondy = donnees[donnees$label == « y » & donnees$speaker == « Christophe_Hondelatte »,]

Tivy = donnees[donnees$label == « y » & donnees$speaker == « Simon_Tivolle »,]

plot(density(Hondy$f3), main = « », xlim = c(1800,3000), ylim = c(0,0.0024), col = « black »)

lines(density(Tivy$f3), main = « », xlim = c(1800,3000), ylim = c(0,0.0024), col = « red »)

title(sub = « f3 y »)

Honde = donnees[donnees$label == « e » & donnees$speaker == « Christophe_Hondelatte »,]

Tive = donnees[donnees$label == « e » & donnees$speaker == « Simon_Tivolle »,]

plot(density(Honde$f3), main = « », xlim = c(1900,3100), ylim = c(0,0.0044), col = « black »)

lines(density(Tive$f3), main = « », xlim = c(1900,3100), ylim = c(0,0.0044), col = « red »)

title(sub = « f3 e »)

HondE = donnees[donnees$label == « E » & donnees$speaker == « Christophe_Hondelatte »,]

TivE = donnees[donnees$label == « E » & donnees$speaker == « Simon_Tivolle »,]

plot(density(HondE$f3), main = « », xlim = c(1900,3100), ylim = c(0,0.0044), col = « black »)

lines(density(TivE$f3), main = « », xlim = c(1900,3100), ylim = c(0,0.0044), col = « red »)

title(sub = « f3 E »)

Honda = donnees[donnees$label == « a » & donnees$speaker == « Christophe_Hondelatte »,]

Tiva = donnees[donnees$label == « a » & donnees$speaker == « Simon_Tivolle »,]

plot(density(Honda$f3), main = « », xlim = c(1900,3100), ylim = c(0,0.0044), col = « black »)

lines(density(Tiva$f3), main = « », xlim = c(1900,3100), ylim = c(0,0.0044), col = « red »)

title(sub = « f3 a »)

Hondar = donnees[donnees$label == « @ » & donnees$speaker == « Christophe_Hondelatte »,]

Tivar = donnees[donnees$label == « @ » & donnees$speaker == « Simon_Tivolle »,]

plot(density(Hondar$f3), main = « », xlim = c(1900,3100), ylim = c(0,0.0044), col = « black »)

lines(density(Tivar$f3), main = « », xlim = c(1900,3100), ylim = c(0,0.0044), col = « red »)

title(sub = « f3 @ »)

Hondu= donnees[donnees$label == « u » & donnees$speaker == « Christophe_Hondelatte »,]

Tivu= donnees[donnees$label == « u » & donnees$speaker == « Simon_Tivolle »,]

plot(density(Hondu$f3), main = « », xlim = c(1800,3000), ylim = c(0,0.0035), col = « black »)

lines(density(Tivu$f3), main = « », xlim = c(1800,3000), ylim = c(0,0.0035), col = « red »)

title(sub = « f3 u »)

Hondo = donnees[donnees$label == « o » & donnees$speaker == « Christophe_Hondelatte »,]

Tivo = donnees[donnees$label == « o » & donnees$speaker == « Simon_Tivolle »,]

plot(density(Hondo$f3), main = « », xlim = c(1700,3100), ylim = c(0,0.0030), col = « black »)

lines(density(Tivo$f3), main = « », xlim = c(1700,3100), ylim = c(0,0.0030),col = « red »)

title(sub = « f3 o »)

Hondc = donnees[donnees$label == « c » & donnees$speaker == « Christophe_Hondelatte »,]

Tivc = donnees[donnees$label == « c » & donnees$speaker == « Simon_Tivolle »,]

plot(density(Hondc$f3), main = « », xlim = c(1800,3100), ylim = c(0,0.0030), col = « black »)

lines(density(Tivc$f3), main = « », xlim = c(1800,3100), ylim = c(0,0.0030),col = « red »)

title(sub = « f3 c »)

Hondx = donnees[donnees$label == « x » & donnees$speaker == « Christophe_Hondelatte »,]

Tivx = donnees[donnees$label == « x » & donnees$speaker == « Simon_Tivolle »,]

plot(density(Hondx$f3), main = « », xlim = c(1900,3100), ylim = c(0,0.0035), col = « black »)

lines(density(Tivx$f3), main = « », xlim = c(1900,3100), ylim = c(0,0.0035), col = « red »)

title(sub = « f3 x »)

#Conclusion 1: Tivolle ouvre plus les lèvres que Hondelatte quand il prononce les voyelles?

Françoise Del Socorro

2 comments

Comment envoyer toutes ses pages web ?

Posted in pluriTAL by pluritaluser on 6 janvier 2009

Si vous n’arrivez pas à télécharger votre site zippé dans votre e-mail, utilisez la version gratuite de:
http://www.yousendit.com/?home=true

Françoise Del Socorro

leave a comment

HTML et SED

Posted in pluriTAL by pluritaluser on 3 janvier 2009

Moi et Hugo, on va présenter les différents sens du mot bouchon en plusieurs langues, j’ai commencé à mettre en ligne ce qu’on a fait mais je n’ai pas encore traité les accents pour que mon codage html soit compréhensible tant que ce n’est pas fini. Bien que je n’ai rien compris à ce que hexadécimal veut dire, une fois que j’ai fini d’écrire une page web, j’ai pris l’habitude de toujours convertir tous mes accents en héxadécimal car ça marche dans tous les systèmes d’exploitation: é -> é Mais je n’ai pas encore fait ça.

http://www.geocities.com/laviedesbouchonssurleweb/index.html

Pour l’édition de vos pages html, je vous conseille fortement d’utiliser internet explorer car je n’ai pas réussi à faire apparaître les images ni à faire fonctionner les liens sous Mozilla, ce navigateur est trop sécurisé.

Et je dois encore re-commencer à chercher des URLs une fois que j’aurai tout fini car la plupart des URLs que j’avais ont disparu.

Quand à la suppression du motif, EGREP -v ne marche pas car ça supprime la ligne entière avec le motif mais SED ça marche car ça sert à rechercher et remplacer un motif. Par contre les expressions régulières ne marchent pas dans la pratique avec SED.

Je ne sais pas écrire des boucles, et donc je suis en train de préparer un programme linéaire pour toutes les langues (en espérant que Hugo revienne de ses vacances car il fait plus de langues que moi) que vous pouvez réutiliser:

#!/bin/bash
#Portugais: bouchon conteneur
egrep -o -i « \b(((t|T)amp(as?|inhas?))|(TAMPAS?)) » ./CONTEXTES/Portugais/contexte-conteneur-pt.txt >> ./CONTEXTES/Portugais/formes-conteneur-pt.txt
sed -i.bak -e s/TAMPA//g ./CONTEXTES/Portugais/contexte-conteneur-pt.txt
sed -i -e s/Tampinhas//g ./CONTEXTES/Portugais/contexte-conteneur-pt.txt
sed -i -e s/Tampas//g ./CONTEXTES/Portugais/contexte-conteneur-pt.txt
sed -i -e s/tampas//g ./CONTEXTES/Portugais/contexte-conteneur-pt.txt
sed -i -e s/Tampa//g ./CONTEXTES/Portugais/contexte-conteneur-pt.txt
sed -i -e s/tampa//g ./CONTEXTES/Portugais/contexte-conteneur-pt.txt

Dans V1langue.sh:

cat ./CONTEXTES/Portugais/$i.txt >> ./CONTEXTES/Portugais/contexte-conteneur-pt.txt

concatène les contextes.

Dans nuage-de-mots.sh, on va mettre les expressions régulières de toutes les langues.

egrep cherche tampa et tampas et Tampa et Tampas et TAMPAS, mais l’option -o permet de ne récupérer que les formes. Le fichier formes-conteneur-lang ne sert que à vérifier ce qu’on va effacer.

sed efface le mot qu’il désigne en le remplaçant par rien: //

Dans la première ligne -i.bak fait une sauvegarde du contexte avec le mot bouchon sous le nom contexte-contezneur-lang.txt.bak

Dans la deuxième ligne, » on ne le sauvegarde pas » (je pense que on l’écrase au fur et à mesure qu’on dépièce les mots car i est une variable qu’on ne peut pas changer) pour ne pas l’écraser avec des fichiers sans l’ocurrence TAMPA

contexte-conteneur-pt.txt est le fichier qui subi les effacements.

Et si vous voulez tout recommencer sans avoir à relancer votre pgm avec cat ./CONTEXTES/Portugais/$i.txt >> ./CONTEXTES/Portugais/contexte-conteneur-pt.txt dans sa boucle, puisque je ne sais pas faire des boucles, voici un autre pgme linéaire inspiré sur celui de MARCO (qui propose du rm comme AGNES, mais là j’ai compris car c’était linéaire) !

zero-nuage-de-mots.sh

#!/bin/bash
# Langue: Portugais
echo -e « \nProgramme à utiliser quand on veut relancer nuage-de-mots.sh sans avoir à relancer V1langue.sh.\nFais attention à ce que tu vas faire, si tu tapes \ »y\ » tu vas tout effacer, si tu tapes \ »n\ » tu ne vas rien faire, si tu tapes \ »Ctrl+C\ » tu quittes le programme !\nLangue: Portugais !!! »;
echo -e « \nVeux-tu remettre à zéro le fichier de nuages de mots contexte-conteneur-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/contexte-conteneur-pt.txt;
cat ./CONTEXTES/Portugais/contexte-conteneur-pt.txt.bak >> ./CONTEXTES/Portugais/contexte-conteneur-pt.txt
echo -e « Veux-tu remettre à zéro le fichier de nuages de mots formes-conteneur-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/formes-conteneur-pt.txt;

echo -e « \nVeux-tu remettre à zéro le fichier de nuages de mots contexte-liege-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/contexte-liege-pt.txt;
cat ./CONTEXTES/Portugais/contexte-liege-pt.txt.bak >> ./CONTEXTES/Portugais/contexte-liege-pt.txt
echo -e « Veux-tu remettre à zéro le fichier de nuages de mots formes-liege-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/formes-liege-pt.txt;

echo -e « \nVeux-tu remettre à zéro le fichier de nuages de mots contexte-embouteillage-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/contexte-embouteillage-pt.txt;
cat ./CONTEXTES/Portugais/contexte-embouteillage-pt.txt.bak >> ./CONTEXTES/Portugais/contexte-embouteillage-pt.txt
echo -e « Veux-tu remettre à zéro le fichier de nuages de mots formes-embouteillage-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/formes-embouteillage-pt.txt;

echo -e « \nVeux-tu remettre à zéro le fichier de nuages de mots contexte-restaurant-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/contexte-restaurant-pt.txt;
cat ./CONTEXTES/Portugais/contexte-restaurant-pt.txt.bak >> ./CONTEXTES/Portugais/contexte-restaurant-pt.txt
echo -e « Veux-tu remettre à zéro le fichier de nuages de mots formes-restaurant-pt.txt? »;
rm -i -v ./CONTEXTES/Portugais/formes-restaurant-pt.txt;

il récupère le fichier .txt.bak et le remet dans le .txt

je n’ai pas effacé le .bak après mais je n’ai pas eu de prob avec le .bak ( je ne sais pas pq)

Françoise Del Socorro

leave a comment

	pluritaluser dans Les blogs du projet n°1
	tal-p3 dans cours de Mme Desmets à pa…
	pluritaluser dans Les blogs du projet n°1
	pluritaluser dans Les blogs du projet n°1
	pluritaluser dans Les blogs du projet n°1

pluriTAL – BLOG Master pluriTAL [ParisX, ParisIII, INALCO]

Ce qu’on a fait à la première semaine du S2 du M1 PluriTAL

Mes images

Pour Khiari Raoum

Question de codage caractères spéciaux XML

aidez moi svp

Mes notes de cours… si ça peut servir

Comment envoyer toutes ses pages web ?

HTML et SED

Apports croisés, complémentaires et pluriels pour le TAL

Informations MASTER

Meta

Pages des Projets

Master TAL Recherche

Catégories

Articles récents

Commentaires récents

Articles les plus consultés

Calendrier

Archives

Blog Stats