Perception de la parole
Jonathan Grainger
Bibliographie
• Segui, J. & Ferrand, L. (2000). Leçons de parole. Paris: Odile Jacob
• Spinelli, E. & Ferrand, L. (2005). Psychologie du Langage, Paris: Armand Colin
• Ferrand, L. (2001). Cognition et Lecture. Bruxelles: DeBoeck
Corpuslinguistique
Résultats desexpériences
Résultats des simulations
Base de données linguistiques
Sujet humain Modèle computationnel
stimuli
prédictionfalsif
ication
confrontation
échantillons
acquisition perception production
ORAL
ECRIT
+ taille des unités de traitement :
lettres/phonèmes - mots - phrases - texte/discours
X
Perception des unités élémentaires du langage
émetteur récepteur
émetteurrécepteur = cerveau
Le Phonème
- classification des sons du langage développée par les linguistes sur la base des informations articulatoires
- la plus petite unité de son dont le changement modifie le sens
/bal/ = /b/ + /a/ + /l/
/bar/ = /b/ + /a/ + /r/
- la principale fonction des sons d’une langue est d’établir des distinctions entre les unités de signification (ou mots) de cette langue.
Distinction entre « phone » et « phonème » qui est spécifique à une langue donnée - et le concept d’allophone
- un phonème peut avoir plusieurs réalisations acoustiques différentes sans que l’on perçoive un changement de sens (les allophones)
- variations contextuelles (« cou » vs. « qui ») et non-contextuelles (accents régionaux)
- variations inter-langues : exemple du /r/ et /l/ en langue japonaise
Les caractéristiques articulatoires qui déterminent la prononciation des consonnes en langue française
- lieu d’articulation : endroit où la voie vocale est fermée (ex : bilabial = fermeture au niveau des lèvres)
- le mode d’articulation : occlusif, nasal, fricatif, glissant, liquide
- voisement : l’entrée en vibration des cordes vocales (ex : /b/voisé; /p/ non-voisé)
L’analyse acoustique des sons du langage
/p/
/b/
Le Spectrogramme
http://cslu.cse.ogi.edu/tutordemos/SpectrogramReading/spectrogram_reading.html
Pour plus d’informations voir :
Est-ce que le phonème est une unité perceptive de base dans la reconnaissance de mots parlés?
Données pour : La perception catégorielle
Perception Catégorielle
1. Création d’un continuum entre deux catégories
/ba/ - /da/
Perception Catégorielle 1
1. Création d’un continuum entre deux catégories
1 ... 3 … 5 … 7
/ba/ - /da/
Perception Catégorielle 2
1. Expérience de classification
1 ... 3 … 5 … 7
% /ba/
100 Frontière nette
Le phonème est défini en termes articulatoires, alors que les sons de parole arrivent sous forme acoustique - comment établir une relation entre les deux?
Deux problèmes principaux:
1) L’invariance - ex : la coarticulation
2) La segmentation - les frontières entre les phonèmes ne sont pas toujours très évidentes dans le signal acoustique
Les problèmes avec le phonème :
Spectrogramme de l’énoncé « mille neuf cent quatre-vingt-sept »
Distribution des indices acoustiques correspondant aux différents segments d’une syllabe
Syllabe/bal/
Rime/al/
Attaque/b/
Noyau Coda
/b/ /l//a/
Proposition de structure non-linéaire de la syllabe
Une approche expérimentale en psycholinguistique :
La tâche de détection de sons linguistiques
Cible = /b/
maison, fleur, vélo, bateau, …
Cible = /ba/
maison, fleur, vélo, bateau, …
(Savin & Bever, 1970, JVLVB, « The non-perceptual reality of the phoneme)
Détection de syllabes et compatibilité syllabique
Type de Cible : CV / CVC (ex : BA vs. BAL)
Type de cibleCV CVC
CVC
CVTR
Type de Mot : CV / CVC ( ex : BA.LANCE vs. BAL.CON)
Type de mot
(Mehler et al., 1981, JVLVB)
(Cutler et al., 1986, JML)
Le rôle de la sonoritéLe rôle de la sonorité
L’échelle de sonorité (Selkirk, 1984)
obstruantes < nasales < liquides < semi-voyelles < voyelles
sonorité- +
Le rôle de la sonoritéLe rôle de la sonorité
Syllabe optimale et frontière syllabique optimalede
gré
de s
onor
ité
p1 p2/p3S1
p1 p2/p3S2
Lexique phonologique
représentations phonologiques des mots
représentations
infralexicales
signal acoustique
(segmentation infralexicale)
(mise en correspondance :segmentation lexicale)
La reconnaissance de mots parlés
Le problème de la segmentation lexicaleLe problème de la segmentation lexicale
Dans le flux continu de la parole, comment détecter les frontières entre les mots?
Les frontières syllabiques ne correspondent pas toujours à des frontières lexicales - problème de l’enchaînement (ex : sac anglais) et de la liaison enchaînée (ex : petit ami) en langue française.
Erreurs de segmentation chez le jeune enfant : le « néléphant » - mais l’adulte corrige ces erreurs et l’enfant reçoit un signal qui accentue les frontières lexicales (« child directed speech »)
=> stratégie de segmentation basée sur l’identification lexicale chez l’adulte (mais comment fait l’enfant?).
Quelles sont les autres stratégies possibles?
Utilisation des indices dans le signal :
2) Indices prosodiques - ex : MSS, stratégie de segmentation métricale (en langue anglaise, la plupart des syllabes accentuées se trouvent au début d’un mot).
3) Régularités phonotactiques - certaines séquences de phonèmes ne peuvent pas apparaître à l’intérieur d’un mot (ex : /j/ /f/) mais peuvent apparaître entre deux mots (ex :sage femme). Certaines séquences ne peuvent apparaître qu’à la frontière entre deux syllabes (ex : /t/ /l/ dans « atlas »).
4) Probabilités transitionnelles - la probabilité que le phonème /y/ suive le phonème /x/ : p(intra) vs. p(inter) détermine la probabilité qu’il s’agit d’une frontière lexicale ou non
1) Indices phonétiques - variations allophoniques (ex : nitrate vs. night rate)
Stratégie de segmentation basée sur l’identification lexicale
1) Alignement par phonème (ex : TRACE, Shortlist) : chaque nouveau phonème constitue le début potentiel d’un mot
2) Alignement par syllabe - SOSH (Content et al., 2001, JML) : syllable onset segmentation heuristic : chaque nouvelle syllabe constitue le début potentiel d’un mot
L’approche scientifique en psychologie cognitive
observations
explication théoriquemodélisation
prédictions expérimentales
expérimentation
L’approche scientifique en psychologie cognitive
TR / erreurs dans une tâche expérimentale
modèle de la reconnaissance de
mots parlés
influence d’une variable donnée sur les temps
d’identification des mots
mesure des temps d’identification des
mots
Comment mesurer le temps d’identification d’un mot parlé?
1) Gating : /e/? - /ele/? - /elef/?
2) Décision lexicale : /bal/ est un mot? /nal/ est un mot?
3) Shadowing : répétition à voix haute du mot que l’on vient d’entendre
Les techniques comportementales en psychologie expérimentale :
1) Le modèle de la cohorte (Marslen-Wilson & Welsh, 1978, Cognitive Psychology)
… et le principe d’activation multiple
Les modèles de la reconnaissance de mots parlés
QuickTime™ et un décompresseurPhoto - JPEG sont requis pour visualiser
cette image.
Pour le modèle de la cohorte
1) Bon appariement entre le PU (théorique) et le PI (gating task)
2) Corrélation entre le PU (théorique) et la N400 (composante ERP)
0ms = début du mot
0ms = point d’unicité
Contre le modèle de la cohorte
1) l’effet de fréquence : les mots qui apparaissent fréquemment dans le langage (ex : TABLE) sont identifiés plus facilement que les mots qui apparaissent plus rarement (ex : CABLE)
2) l’effet de voisinage phonologique : les mots avec beaucoup de voisins phonologiques (ex : BALLE - salle, calle, dalle, bol, bar …) sont plus difficilement identifiés que les mots avec peu de voisins phonologiques (ex : BOMBE)
3) … et le problème de la segmentation lexicale
Les modèles qui appliquent la stratégie de segmentation par identification lexicale (avec alignement par phonème)
TRACE (McClelland & Elman, Cognitive Psychology, 1986)
Shortlist (Norris, Cognition, 1994)
- Le principe de compétition (inhibition) lexicale : on ne reconnaît qu’un seul mot à la fois
Stratégie de segmentation par identification lexicale et principe de compétition lexicale - comment combiner les deux?
Le problème des mots « enchâssés »
Ex : « chaud » dans « chômage »
Par rapport à « chaud » dans «le temps chaud …»
/chômage/
« chaud » « chômage »
« chaud » et « chômage » sont alignés - donc en compétition
/temps chaud/
« temps » « chaud »
« temps » et «chaud » ne sont pas alignés -
donc ils ne sont pas en compétition
QuickTime™ et un décompresseurPhoto - JPEG sont requis pour visualiser
cette image.
QuickTime™ et un décompresseurPhoto - JPEG sont requis pour visualiser
cette image.
Shortlist
QuickTime™ et un décompresseurPhoto - JPEG sont requis pour visualiser
cette image.
QuickTime™ et un décompresseurPhoto - JPEG sont requis pour visualiser
cette image.
QuickTime™ et un décompresseurPhoto - JPEG sont requis pour visualiser
cette image.
Résultats expérimentaux en faveur des modèles TRACE et Shortlist (favorables aux deux
principes centraux de ces modèles : l’activation multiple et la compétition lexicale):
1) Effet de fréquence et effet de voisinage phonologique
2) Effet d’amorçage phonologique
3) Word spotting - tâche de détection de mot
L’amorçage phonologique
(Slowiaczek et al., 2000, JML)
2) Final-overlap facilitation - ex : TRACE-GRACE l’effet facilitateur est identique pour les amorces mots et les amorces nonmots (ex : PRACE-GRACE). Effet de facilitation prélexicale.
1) Initial overlap inhibition - ex : TRACE-TRAME ; l’effet inhibiteur est plus fort avec les amorces mots qu’avec les amorces nonmots (ex : TRALE-TRAME). Effet d’inhibition lexicale.
Détection d’un mot enchâssé dans un nonmot - ex : « mess » dans « demess » est plus lent que « mess » dans « nemess» (« demess » est le début d’un mot possible en anglais (domestic)
Word spotting
(McQueen et al., 1994, JEP:LMC)
Rôle des frontières syllabiques en langue française (Dumay et al., 2002, Brain and Language)
« lac » dans « zun.lac » est plus rapide que
« lac » dans « zu.glac » (SOSH)
The eye-tracking paradigm
•Les participants doivent cliquer avec la souris sur l’objet mentionné : “click on the net”
target
competitor distractor
distractor
(Dahan et al., 2001, Cognitive Psychology)
target frequency
competitor frequency
Différences entre TRACE et Shortlist : Interactivité vs. autonomie
phonèmes
mots
modèle autonome (feedforward)
signal
phonèmes
mots
modèle interactif (ff + feedback)
signal
Shortlist TRACE
Différences entre TRACE et Shortlist : Interactivité vs. autonomie
Pour l’interactivité : l’influence lexicale sur l’identification des phonèmes
- la restauration phonémique : on présente PATTEUR, vous entendez BATTEUR (Samuel, 1984, JEP:GEN)
- effet de lexicalité dans la détection de phonèmes : /t/ est plus rapide dans BATEAU que dans MATEAU
Point d’unicité et détection de phonèmes(Frauenfelder et al., 1990, JEP:HPP )
- la détection d’un phonème est plus rapide dans un mot que dans un nonmot lorsqu’il est présenté après le point d’unicité - ex : /l/ dans VOCABULAIRE vs. SOCABULAIRE
Pour l’interactivité :
- aucune influence négative des informations lexicales erronées - ex : /t/ dans VOCABUTAIRE vs. SOCABUTAIRE
Contre l’interactivité :
printed word
O-units
spoken word
O-words P-words
P-units
O-P-C
semantics
effets orthographiques sur la perception des mots parlés …
JEP:GEN - Journal of Experimental Psychology: General
JEP:HPP - Journal of Experimental Psychology: Human Perception and Performance
JEP:LMC - Journal of Experimental Psychology: Learning, Memory and Cognition
JML - Journal of Memory and Language
JVLVB - Journal of Verbal Learning and Verbal Behavior
Abréviations