histoire de la statistique - crest | center for research in … · 2016-06-17 · histoire de la...

82
Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip 13 avril 2011 Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 1 / 82

Upload: others

Post on 14-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

Histoire de la StatistiqueLa naissance des MCO

Laurent Davezies Emmanuel Didier

Crest-Insee

Cnrs-Cesdip

13 avril 2011

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 1 / 82

Page 2: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

Le contexte scientifique

Plan

1 Le contexte scientifique

2 La combinaison des observations

3 D’une methode geometrique a une methode probabiliste

4 Le devenir de la methode

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 2 / 82

Page 3: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

Le contexte scientifique

Isaac Newton (1642-1727), vu par Gotlib(1934- )

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 3 / 82

Page 4: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

Le contexte scientifique

La mecanique newtonienne

Au debut du 17eme siecle, Kepler enonce trois lois a partir des mesures deTycho Brahe :

Loi des orbites : Les planetes du systeme solaire decrivent destrajectoires elliptiques dont le Soleil occupe l’un des foyers

Loi des aires : Le rayon de l’orbite d’une planete balaie des airesegales en des temps egaux

Loi des periodes : Le carre des periodes de revolution des planetes estproportionnel au cube des demi grands axes de leurs orbites

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 4 / 82

Page 5: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

Le contexte scientifique

La mecanique newtonienne

A la fin du 17eme siecle, Newton prolonge les travaux de Galilee etDescartes sur la conservation de la quantite de mouvement enenoncant le principe fondamental de la dynamique :∑−→

F = m−→a

Il va plus loin et cherche a expliciter les forces en jeu dans lesmouvements celestes. Il demontre alors que les lois de Kepler et leprincipe fondamental de la dynamique implique l’existence d’une forcede la forme : −→

F 12 = −Gm1m2

d2−→u 12

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 5 / 82

Page 6: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

Le contexte scientifique

La mecanique newtonienne

Les lois de la mecanique enoncees par Newton, comme celles de Kepler,introduisent des relations stables entre les positions des differents astres aucours du temps.

Possibilite de faire des predictions (test de validite de la theorie)

Estimation de ”constante physique” : G

Determination de grandeurs (masse, distance etc.) inaccessibles parune mesure directe

⇒ Le developpement de la mecanique va stimuler l’emergence d’une”ingenierie” ou d’une ”technologie” de la combinaison des observations.

Une autre propriete de la mecanique newtonienne est que la dynamique dusolide peut (en partie) se ramener a une dynamique du point. Pour cela, latheorie introduit la notion de centre de gravite.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 6 / 82

Page 7: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Plan

1 Le contexte scientifique

2 La combinaison des observations

3 D’une methode geometrique a une methode probabiliste

4 Le devenir de la methode

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 7 / 82

Page 8: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Le probleme de la combinaison des observations

Dans le cadre de la mecanique newtonienne de l’epoque, de nombreuxproblemes consistent a identifier une combinaison lineaire inconnue maisstable entre differentes grandeurs a, b, c... mesurees a differents momentsou sur differents objets.

0 = a + bx + cy + ...

Si autant d’observations que d’inconnues x , y , z ..., il est alors possiblede resoudre le systeme qui admet au moins une solution

Si plus d’observations que d’inconnues, le systeme n’a en general pasde solution

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 8 / 82

Page 9: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Le probleme de la combinaison des observations

Que faire face a un systeme non inversible ?

Soit la theorie de la mecanique newtonienne echoue a rendre comptedes phenomenes observes

Soit les observations sont ”fausses”

Soit il faut construire une theorie de l’observation et de l’erreur demesure

La mecanique newtonienne a fait suffisamment de preuves pour ne pas etresimplement rejetee par des observations imparfaites.

Probleme essentiel de nombreux ”penseurs” ou ”techniciens” de l’epoque.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 9 / 82

Page 10: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Les precurseurs : Cotes

Cotes :

Au cours du 18eme siecle un usage frequent chez les astronomes et lesnavigateurs : faire des moyennes arithmetiques sur des mesures prises dansdes conditions jugees ”semblables”

On ”combine” donc des observations a la condition qu’elles aient ete faitespar le meme observateur, au meme moment, avec le meme instrumentetc...

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 10 / 82

Page 11: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Les precurseurs : Cotes

Roger Cotes (1682, 1716), mathematicien anglais.

Un proche d’Isaac Newton avec qui il partage la decouverte de la methodede Newton-Cotes en analyse numerique, qui etend de maniere generale lamethode des trapezes et la methode de Simpson pour le calcul desintegrales.

Professeur plumien d’astronomie et de physique experimentale al’universite de Cambridge. Roger Cotes est devenu membre de la RoyalSociety le 30 novembre 1711. Sa Correspondance avec Isaac Newton a etepubliee a Londres, en 1853. (wikipedia)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 11 / 82

Page 12: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Les precurseurs : Cotes

Let p the place of some object defined by observation, q, r , s the places ofthe same object from subsequent observations. Let there also be weightsP, Q, R, S reciprocally proportional to the displacements which may arisefrom the errors in the single observations, and which are given from thegiven limits of error ; and the weights P, Q, R, S are conceived as beingplaced at p, q, r , s and their centre of gravity Z is found : I say the pointZ is the most probable place of the object, and may be most safely had forits true place. (Harmonia mensurarum, 1722)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 12 / 82

Page 13: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Les precurseurs

Le texte de Cotes est une des premieres references a l’idee de moyenneponderee, a l’idee de combinaison des observations selon leur degre deprecision, mais pas d’application, peu d’influence posterieure (premierecitation connue : 90 ans plus tard par Laplace).

Trois problemes physiques concrets ont donne lieu a des combinaisons”pres-MCO”, ou a des methodes alternatives

Le probleme de la libration de la lune, Tobias Mayer (1750)

Les inegalites du mouvement de Jupiter et Saturne, Leonhard Euler(1749) & Pierre Simon Laplace (1788)

La mesure de l’aplatissement de la terre, Boscovich (1755)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 13 / 82

Page 14: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

La libration de la lune

La libration de la Lune, qu’est ce que c’est ?⇒ C’est ca !

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 14 / 82

Page 15: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

La libration de la lune

Trois causes de libration connues a l’epoque :

La libration diurne due au fait que la terre tourne sur elle meme(Galilee), libration en longitude

La libration due au fait que l’axe de rotation de la Lune n’est pasperpendiculaire au plan de son orbite (Galilee), libration en latitude

La libration due au fait que l’orbite de la Lune autour de la Terre estelliptique et non circulaire, libration en longitude

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 15 / 82

Page 16: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Un enjeu economique fort

Determination de la position des navires en mer

La latitude : mesure d’angle sur des etoiles fixes (etoile polaire)

La longitude : probleme plus difficile, institution anglaise”commisioners for the discovery of longitude at sea” qui distribua101 000 livres de bourses et de prix entre 1714 et 1815, deuxmethodes concurrentes

Des montres precises a bord des bateaux pour connaıtre l’heure GMTDes tabulations precises sur le mouvement de la Lune qui permettentde retrouver l’heure GMT

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 16 / 82

Page 17: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Tobias Mayer (1723−1762)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 17 / 82

Page 18: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Les ”equations estimantes”

Mayer observe le mouvement du cratere de Manilius dans le referentiel”pole de l’ecliptique” et ”direction de l’equinoxe” : g , h et l’angle entre ladirection de l’equinoxe et l’intersection de l’orbite de la Lune et du plan del’ecliptique : k

Un parametre inconnu et fixe permet de decrire partiellement la positiondu cratere de Manilius dans le referentiel ”pole et equateur lunaire” : β(longitude lunaire du cratere)

Deux autres parametres inconnus et fixes permettent de completer ladescription du mouvement : angle ”pole de l’ecliptique” et ”pole vrai”α etl’angle entre le point d’intersection ”orbite” et ”plan de l’ecliptique” et celuide l’”equateur” et ”le plan de l’ecliptique”θ

sin(β) = cos(α)cos(h) + sin(α)sin(h)sin(g − k − θ)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 18 / 82

Page 19: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Linearisation

sin(β) = cos(α)cos(h) + sin(α)sin(h)sin(g − k − θ)

Deux relations :

sin(g − k − θ) = sin(g − k)cos(θ)− sin(θ)cos(g − k)

sin(β) = cos(h)cos(β − π

2+ h) + sin(h)sin(β − π

2+ h)

Donc :

cos(h)[cos(β − π

2+ h)− cos(α)

]+ sin(h)sin(β − π

2+ h) =

sin(α)sin(h) [sin(g − k)cos(θ)− sin(θ)cos(g − k)]

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 19 / 82

Page 20: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Linearisation

Par ailleurs : α, θ et β − π2 + h sont petits par rapport aux autres angles

sin(h)(β − π

2+ h) ≈ αsin(h) [sin(g − k)− sin(θ)cos(g − k)]

h − π

2≈ −β + αsin(g − k)− αsin(θ)cos(g − k)

Equation lineaire a trois inconnues : β, α, αsin(θ)

Y = Xλ+ ε

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 20 / 82

Page 21: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Un probleme de riche

Pour resoudre ce systeme, Mayer a besoin de trois observations de h etg − k. Le seul probleme c’est qu’il dispose de ... 27 releves entre le 11 avril1748 et le 4 mars 1749 !

Il n’existe pas de solutions exactes qui satisfassent les 27 releves : c’estnormal car il y a des erreurs de mesure dans les releves et uneapproximation lineaire dans la construction des equations lineaires.

Mayer se ramene donc au cas connu de trois equations en ”regroupant” lesobservations en trois groupes et en ”moyennant” sur chaque groupe : ⇒role important de la linearite

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 21 / 82

Page 22: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Une combinaison ”optimale” des observations ?

En langage moderne, Mayer a trois covariables : la constante, la covariablesin(g − k) ∈ [−1, 1] et la covariable cos(g − k) ∈ [0, 1]. La variation descovariables est entierement parametree par g − k.

⇒ Mayer definit ses groupes en fonction des valeurs de g − k, si on classeles observations par valeurs croissantes de g − k :

KY = KXλ+ Kε avec K = I3 ⊗ e ′9

⇒ λ = (KX )−1KY

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 22 / 82

Page 23: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Une combinaison ”optimale” des observations ?

Mayer va plus loin en qualifiant ce regroupement des observations de”richtiger”.

Aujourd’hui on sait qu’au sens de Gauss-Markov la meilleure combinaisonest K = X ′. Cependant, du fait de la structure des X , K est une matrice”proche” de X parmi les matrices n’ayant que des 0 et des 1.

Il est deja remarquable pour l’epoque de tenter de traiter de lacombinaison optimale des observations, alors que la theorie desprobabilites (et/ou des erreurs) est quasiment inexistante.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 23 / 82

Page 24: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Et une quantification de gain de precision

Mayer rejoint Cotes dans l’idee que les moyennes sur 9 observationsdonnent des estimations plus precises que celle construite avec seulementtrois observations prises au hasard.

C’est une rupture conceptuelle avec le calcul des variations (Leibnitz,Newton) :

df (x1, x2, ..., xn) =n∑

i=1

∂f

∂xi(x1, x2, ..., xn)dxi

Pour une moyenne :

d

(1

n

n∑i=1

xi

)=

1

n

n∑i=1

dxi

Il affirme (et ecrit ce qui constitue pour lui une demonstration) que leserreurs sont neuf fois moindres avec sa combinaison plutot qu’en utilisantun triplet d’observations sur ”dire d’experts”.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 24 / 82

Page 25: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Et une quantification du gain de precision

Aujourd’hui on sait que ce gain n’est que de√

9 = 3.

Cependant, peu de travaux a l’epoque developpent une approche aussipoussee et aussi pertinente en terme d’idee directrice.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 25 / 82

Page 26: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Les inegalites de mouvements de Saturne et Jupiter

Parallelement a Mayer, Euler travaille sur un autre probleme.

Pas de motivation economique directe

Un grosse motivation scientifique et philosophique

La mecanique newtonienne permet de bien formaliser les mouvements dedeux corps. Dans ce formalisme, les mouvements observes entre le Soleil etSaturne d’une part et le Soleil et Jupiter de l’autre conduisent a despredictions inquietantes : crash de Jupiter sur le Soleil et ejection deSaturne hors du systeme solaire.

⇒ Mieux comprendre le phenomene d’attraction mutuelle de trois corps.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 26 / 82

Page 27: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Leonard Euler (1707-1783)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 27 / 82

Page 28: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Le memoire de Leonhard Euler

Commence par faire des hypotheses simples qui sont rejetees par lesobservations :

Orbites de Saturne et Jupiter circulaires et dans le meme plan

Orbite de Saturne elliptique, de Jupiter circulaire et dans le meme plan

Orbites de Saturne et Jupiter elliptiques et dans le meme plan

Orbites de Saturne et Jupiter elliptiques et dans des plans differents(mais proches)

Derive du dernier jeu d’hypotheses une equation decrivant la longitudeheliocentrique de Saturne : 8 parametres fixes et inconnus. Unereparametrisation simple permet de lier lineairement ces parametres enfonction de grandeurs mesurables.

75 observations entre 1582 et 1745.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 28 / 82

Page 29: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Le memoire de Leonhard Euler

Utilise des proprietes de periodicite de 6 covariables (sur les 8), pour seramener par difference a un systeme de deux equations a deux inconnues.

Echoue a aller plus loin, rechigne a moyenner les observations (il le faitseulement dans le cas ou les covariables ont des valeurs proches).

”Maintenant de ces equations je ne peux rien conclure ; et la raison est,peut-etre, que j’ai essaye de satisfaire differentes observations exactement,alors que j’aurai du seulement les satisfaire approximativement ; et quecette faute s’est ensuite augmentee”

Euler cherche a trouver des solutions en utilisant differents petits nombresd’observations et en acceptant l’estimation si les differentes solutions sontcoherentes.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 29 / 82

Page 30: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Mayer 1-Euler 0

Euler : mathematicien qui cherche ”la” solution du systeme, lasur-identification conduit a rejeter les equations ou la serie d’observations

Mayer : astronome pratique qui accepte de construire une ”combinaison”empirique, intuition que la sur-identification permet de gagner en precision(mais pas de theorie coherente faute de formalisme concernant lesprobabilites)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 30 / 82

Page 31: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Pierre Simon de Laplace (1749-1827)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 31 / 82

Page 32: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Laplace et le probleme des trois corps

Il faut attendre 40 ans pour que Laplace introduise les methodes pratiquesde Mayer dans la resolution du probleme des trois corps.

Entretemps, Lambert a deduit a partir d’observations de l’epoque que lestendances dans les mouvements de Saturne et de Jupiter s’etait inverse, cequi laisse imaginer que les mouvements sont periodiques (de tres longueperiode) et non ”seculaires”.

Objectif de Laplace : montrer que les mouvements observes sontcompatibles avec la theorie de la gravitation newtonienne et la limite deprecision des observations.

Laplace ne repart pas de l’equation de la longitude heliocentrique deSaturne etablie par Euler.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 32 / 82

Page 33: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Laplace et le probleme des trois corps

En utilisant partiellement les travaux de Lagrange, Laplace trouve unerelation invariante reliant les masses et accelerations des deux planetes.Cette propriete d’invariance est compatible avec les tables d’Halley.

Ensuite, il utilise des ”petites” variations autour d’une identite faiblementfluctuante reliant le mouvement annuel moyen des deux planetes. Cespetites oscillations autour d’une tendance stable ont une periodicite de 900ans environ. Ces termes apparemment ”negligeables” ne doivent pas l’etrecar de petits ecarts dans les equations differentielles de la mecaniquepeuvent produire de grands effets en termes de trajectoires futures (cf.Lagrange).

Il obtient ainsi de ”meilleures” equations de longitude des planetesqu’Euler. Reste quatre grandeurs inconnues a determiner pour obtenir desequations du mouvement, grandeurs liees aux observations par une relationlineaire. Laplace dispose d’une serie de 24 observations.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 33 / 82

Page 34: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Laplace et le probleme des trois corps

Laplace utilise alors une technique de combinaison proche de celle deMayer.

Raffinements importants :

Une meme observation est utilisee dans plusieurs des quatrecombinaisons lineaires

Les combinaisons lineaires ne sont pas que des moyennes, Laplaceutilise aussi des differences et pas que des sommes

Sans en donner une justification precise, le choix et la maniere deregrouper les equations suit une logique relativement comprehensiblequi permet d’obtenir des combinaisons lineaires correlees avec cellesutilisees pour les moindres carres

Il calcule des residus pour verifier que l’ajustement est ”bon”

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 34 / 82

Page 35: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Mayer-Laplace

Mayer :Y = Xβ + ε

X ∈M(27,3)(R), x22i + x2

3i = 1K ′ =

[1x2i<x|1x2i>x|1x2i∈[x ,x]

]ou de maniere equivalente

K ′ =[1|1x2i>x − 1x2i<x|1x2i∈[x ,x]

]β = (KX )−1KY

Laplace :Y = Xβ + ε

X ∈M(24,4)(R), x23i + x2

4i = 1K ′ =[1|1− 21x2i<Med(x2i )|1x3i>

√2/2 − 1x3i<−

√2/2|1x4i>

√2/2 − 1x4i<−

√2/2

]β = (KX )−1KY

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 35 / 82

Page 36: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Succes de la methode des moindres carres

La methode de Laplace est une generalisation de celle de Mayer mais cesmethodes restent en partie contingentes aux problemes abordes. Cesmethodes ont ete tres longtemps utilisees car elles avaient permis de fairedes avancees tres importantes pour leur epoque.

Le succes des moindres carres viendra en partie du fait que c’est unemethode generale, qui ne requiert pas de l’utilisateur ”une expertise”particuliere du probleme, c’est aussi une methode qui peut se rationalisermathematiquement comme celle qui donne le ”meilleur ajustement” desequations selon un critere de distance quadratique.

Cependant, la methode des moindres carres n’est pas la premiere a etremathematiquement fondee de la sorte.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 36 / 82

Page 37: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Ruggiero Giuseppe Boscovich (1711-1787)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 37 / 82

Page 38: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Boscovich et la ”presque regression quantile”

Autre question scientifique importante : la forme de la Terre

Le contexte :

Un pendule est moins affecte par la gravite a l’equateur qu’a Paris(Richer, 1672)

Newton en deduit que l’observateur a l’equateur est plus eloigne ducentre de gravite terrestre que l’observateur a Paris (1687)

Contraire a la theorie de Domenico Cassini, directeur de l’observatoirede Paris

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 38 / 82

Page 39: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Le match France-Angleterre

Autre maniere de mesurer l’aplatissement de la Terre : prendre desmesures d’angle entre l’etoile polaire et la verticale du lieu pour differenteslatitudes.

z , z + y , a : longueur d’un degre de latitude a l’equateur, au pole et lalatitude θ.

Equation de l’ellipse : a = z + ysin2(θ) = z + y2 (1− cos(2θ))

Programme scientifique : avec differentes mesures du couple a, θ,determiner la valeur de y (et son signe en particulier)

On envoie donc differentes equipes scientifiques a differents points duglobe, afin de faire de comparaison avec les mesures prises a Paris.

Bouguer, Jussieu, La Condamine au Perou (1735-1745), une aventureepique : des dangers, des rivalites, de la violence, des morts...

Maupertuis en Laponie (1736-1737) : polemique avec Cassini carMaupertuis est Newtonien...

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 39 / 82

Page 40: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

La mesure de l’aplatissement

Les anglais ayant gagne, reste la determination precise de y , Boscovichdispose de 5 couples a, θ : Quito, Cap de bonne esperance, Rome, Paris,Laponie.

⇒ Dix couples d’observations qui donnent dix solutions differentes,Boscovich en vient a rejeter l’hypothese d’”ellipsicite” en 1755 (test demodele informel...)

En 1760, Boscovich propose de determiner les coefficients avec les reglessuivantes :

La moyenne des erreurs est nulle

La somme des valeurs absolues des erreurs est minimum

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 40 / 82

Page 41: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Qu’est ce que la methode de Boscovich ?

La methode de Boscovich est un mixte entre la regression MCO et laregression quantile (sur la mediane).

Y = a + Xb + ε

a = y − bX

b = Argminb

∑i

|(yi − y)− b(Xi − X )|

Rappel : regression-quantile τ : P(y < Xβτ |X ) = τβτ = Argminb

∑|y − Xb|(τ1y−Xb≥0 + (1− τ)1y−Xb<0)

βτ = Argminb∑

(y − Xb)(τ − 1y−Xb<0)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 41 / 82

Page 42: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Une ”quasi-regression quantile” avec une covariable

Boscovich echoue a donner une solution analytique a son programme, maisil donne une elegante solution graphique.

La droite passe par le point moyen du nuage puisque y = a + bX . Ensuite,il suffit de faire tourner la droite autour de ce point (peut etre vu commeune reparametrisation de b par tan(θ))

La droite ”tournante” passe successivement sur les differents points dunuage, l’ordre des points depend de la pente de la droite en les points et lecentre de gravite. Pour la pente de la droite tournante, il faut alors choisirle point du nuage qui correspond a la pente mediane.

Comme dans la regression quantile classique, l’usage de la distance L1

engendre un probleme moins regulier que l’usage de la distance L2 mais leprobleme reste convexe.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 42 / 82

Page 43: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Revoila Laplace

Boscovich echoue a donner une version analytique de son algorithme.

Il se contente de dire que cet algorithme pourrait etre utilise dans biend’autres cas mais sans proposer de cas d’applications.

Laplace lui aussi a etudie la question de l’aplatissement de la Terre, ettravaille sur un algorithme qui minimise la plus grande erreur, cetalgorithme est neanmoins ”tres penible”. Quelques annees plus tard, ilreprend cette question et ameliore la methode de Boscovich dans deuxdirections :

Il propose un algorithme analytique

Il reprend les calculs de Boscovich en ”ponderant”

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 43 / 82

Page 44: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Revoila Laplace

Equation de l’ellipse : a = z + ysin2(θ) = z + y2 (1− cos(2θ))

a est un nombre de toises par degre, donc obtenu par un ratio entre unelongueur et une variation d’angle.

L’argument de Laplace consiste a dire que les arcs les plus longs donnentla meilleure estimation du ratio, si i est la longueur de l’arc :

i · a = i · z + i · ysin2(θ) = i · z + i · y

2(1− cos(2θ))

Il reprend donc le programme de Boscovich :∑i · [a− z − y

2 (1− cos(2θ))] = 0 ⇒ z =∑

i ·[a− y2(1−cos(2θ))]∑

i

La minimisation en y donne alors :Min

∑|i · [a−

∑i ·a∑i −

y2 (

∑i ·cos(2θ)∑

i − cos(2θ))]|Note : Il se trouve que l’arc de Paris est de loin le plus long et que l’arc deLaponie (mesure par Maupertuis, favorable aux theses newtoniennes) est leplus court.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 44 / 82

Page 45: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Le coup d’eclat de Legendre

Jusqu’ici

Problemes astronomiques, une methode a la Mayer-Laplace : une”recette de cuisine” qui permet de traiter un nombre de situationsrelativement variees mais une methode neanmoins contingente a lastructure des equations

Probleme geodesique, une methode a la Boscovich-Laplace : un criterede minimisation mathematique donc non contingent a la structure desequations mais restreint au cas ou il n’y a qu’une covariable

Et un mathematicien, Louis Adrien Legendre qui travaille sur les deuxtypes de problemes

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 45 / 82

Page 46: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

Adrien-Marie Legendre (1752-1833) et Joseph Fourier(1768-1830)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 46 / 82

Page 47: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

L.A. Legendre

1775-1780 : chaire de mathematique a l’ecole militaire de Paris

1783 : membre de l’academie des sciences

1787 : commissaire charge des operations geodesiques

membre de la commission internationale qui decida de l’adoption dusysteme metrique

1812 : remplace Lagrange au bureau des longitudes

principales contributions : physique, arithmetique et analyse

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 47 / 82

Page 48: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

L.A. Legendre

Alors qu’il est specialiste de geodesie, il semble que Legendre decouvre etentrevoie toutes les potentialites pratiques au moment ou il redige untraite d’astronomie ”Nouvelles methodes pour la determination des orbitesdes cometes”. La methode des moindres carres apparait tardivement dansce memoire (p. 64), alors que plusieurs opportunites de la mobiliserexistent dans les pages precedentes.

Il semble que Legendre ”invente” la methode alors que le memoire est encours de finition, mais qu’il en saisit immediatement les avantages. Ilajoute un appendice de 9 pages pour vanter les qualites de cette methode,en commencant par presenter un cadre tres general : un systeme lineairesur-identifie.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 48 / 82

Page 49: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

La combinaison des observations

L.A. Legendre

Il presente la methode des moindres carres et ajoute quatre commentaires :

Si une solution ”parfaite” du systeme existe la methode des MCO ladonne

Si apres un calcul des MCO, on decide de retirer une observation dontl’erreur semblerait trop grande, on n’a pas besoin de recommencertous les calculs pour trouver le nouveau resultat

La moyenne arithmetique et la determination d’un centre de gravitedans l’espace sont un cas particulier de la methode des MCO

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 49 / 82

Page 50: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Plan

1 Le contexte scientifique

2 La combinaison des observations

3 D’une methode geometrique a une methode probabiliste

4 Le devenir de la methode

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 50 / 82

Page 51: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Limites des MCO de Legendre

Une approche pratique sans fondements statistiques ou probabilistes clairs.

Quel lien avec les debuts de theories concernant la probabilite ?

Par ailleurs, des rivalites (ou une saine emulation ?) sont a l’oeuvre entreles savants... Elles vont jouer un role non negligeable...

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 51 / 82

Page 52: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Que sait-on en 1805 sur les probabilites ?

Que sait-on en 1805 sur les probabilites ? Pas grand chose !

Deux individus ont decouvert les premiers theoremes de concentration dansle cas de la binomiale :

Jacques (ou Jacob ou James) Bernoulli : mort en 1705, publication deArs Conjectandi par son neveu Nicholas en 1713

Abraham de Moivre : Approximatio ad Summam Terminorum Binomiia + b|n in Seriem expansi en 1733, The doctrine of chances en 1738

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 52 / 82

Page 53: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Jacques (ou Jacob) Bernoulli (1654-1705)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 53 / 82

Page 54: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Apport de J.Bernoulli

Avec des notations modernes :X ∼ B(N, p), pour p, c, ε donnes, trouver N = N(p, c, ε) tel que :

P

(|XN− p| > ε

)<

1

c + 1

Principe de la demonstration :Ak = P

(XN − p ∈]kε, (k + 1)ε]

), majoration uniforme en k de Ak+1

Akpar

η < 1, pour en deduire une minoration de A0∑k>0 Ak

=P(0<X

N−p≤ε)

P( XN−p>ε)

> 1−ηη

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 54 / 82

Page 55: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Qualite de la majoration ?

La majoration est loin d’etre optimale, et cela pose un probleme pratiquepour l’epoque, JB considere ce resultat de peu de portee pratique :

Exemple de Jacques Bernoulli : Si p = 60%, ε = 2%, c = 1000, alorsN = 25 500 !

Mais bien meilleure que la majoration obtenue avec l’inegalite deChebychev : N = c+1

ε2p(1−p)> 6 · 105

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 55 / 82

Page 56: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Abraham de Moivre (1667-1754)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 56 / 82

Page 57: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

L’amelioration de De Moivre

De Moivre va considerablement ameliorer les majorations de J.Bernoulli...et va mettre en evidence une approximation en e−x2

!

Commence par traiter le cas p = 1/2, et montre que le terme dominant

P(X = N2 ) = C

N/2N /2N dans la distribution de la binomiale est A

(1− 1n)n

√n−1 .

A =4∑

k=1

an ≈+∞∑k=1

an =2e√2π

(Stirling)

Ensuite, pour n’importe quel point de support de la distribution, il montreque :

ln (P(X = N/2 + l)/P(X = N/2)) = −2l2

N+ o(N−1)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 57 / 82

Page 58: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Premiere apparition de la loi normale ?

Pour Karl Pearson (1926), entre autres, c’est la premiere apparition de laloi normale.

De Moivre parle de ”courbe” pour la distribution limite, alors que leconcept de densite n’est pas connu.

Vu aujourd’hui comme une avancee considerable, mais pas pour De Moivreet ses contemporains : il s’agit avant tout d’ameliorer les resultats deBernoulli et donc de trouver une approximation non pour un termeP(X = k) mais pour un terme P(X > k).

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 58 / 82

Page 59: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Et une methode de calcul par quadrature

Etudie les points d’inflexion de la courbe limite : ±√

N2

Calcul l’integrale :

Entre ces points d’inflexion, developpe l’exponentielle en serie entiere,integre terme a terme, prend les premiers termes pour retrouver unebonne approximation

Au dela des points d’inflexion, le nombre de termes a prendre encompte dans le developpement devient trop grand, il utilise unemethode de quadrature.

Montre que la vitesse de convergence est en√

n

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 59 / 82

Page 60: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Joseph-Louis Lagrange (1736-1813)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 60 / 82

Page 61: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Generalisation de Lagrange

Lagrange generalise le resultat de De Moivre a une distributionmultinomiale.

Idee :

k types de mesures possibles entachees d’erreurs : x1, x2, ..., xk

Avec des probabilites associees : p1, p2, ..., pk

Construire un protocole de calibration des instruments de mesure

Methode :

Maximise la distribution des observations en pi (vraisemblance)

Etudie l’ecart asymptotique entre frequence observee et theorique(statistique pivotale)

Construit un ”intervalle de probabilite” pour chaque pi (intervalle deconfiance)

En deduit un ”intervalle de probabilite” pour µ

Fisher qualifiera cette demarche d’entierement ”identique” a celle del’inference frequentiste.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 61 / 82

Page 62: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Mais peu de succes aupres des ”empiristes”

De Moivre donne peu de perspectives empiriques a ses travaux.

Ces calculs de probabilites sont tres fins, theoriquement tres feconds, maisDe Moivre n’aborde pas la question de l’inference.

Pour lui, la probabilite p est connue, et connaissant cette probabilite, ilcalcule des probabilites d’evenements issues d’experiences repetees.Calcul de P(X/N ∈ [a, b]|p)

La ”vraie” question empirique consiste a renverser la question : qu’est-ceque l’observation des experiences repetees m’apprend sur p que je neconnais pas ?Trouver des estimateurs aα, bα tels que P([aα, bα] 3 p) = α

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 62 / 82

Page 63: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Thomas Bayes (1711-1787) and Richard Price (1723-1791)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 63 / 82

Page 64: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Pendant ce temps en Angleterre...

Le reverend Bayes est membre de l’academie des sciences, mais il ne publierien de son vivant.

Son ami Price retrouve ”Un essai sur la resolution d’un probleme dans ladoctrine des chances”, il complete et publie ce texte en 1764.

De Moivre avait defini l’esperance a partir de la probabilite. Bayes prend leparti inverse : definir la probabilite a partir de l’esperance (donc loi deprobabilite uniforme).

Imagine un jeu en deux etapes pour proposer une ”inference” dans le cas dela binomiale.

p ∼ U[0,1], Sn|p ∼ B(n, p)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 64 / 82

Page 65: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Pendant ce temps en Angleterre...

En utilisant un resultat de De Moivre :

P(AB) = P(A)P(B|A) = P(B)P(A|B)

Il deduit que :P(A|B) = P(AB)/P(B)

Donc :

P(p1 < p < p2|Sn = k) =

∫ p2

p1C k

n pk(1− p)n−kdp∫ 10 C k

n pk(1− p)n−kdp

P(p1 < p < p2|Sn = k) = (n + 1)C kn

∫ p2

p1

pk(1− p)n−kdp

Mais aucune discussion d’application, pas de consideration sur laconstruction d’une demarche empirique scientifique, pas de donnees.

Price tente de donner des exemples (loterie et meteo), mais insiste surl’incertitude (concernant p) dans laquelle doit se trouver le ”joueur”.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 65 / 82

Page 66: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Et encore une fois Laplace

Laplace introduit la notion de probabilite inverse, tres proche de celle deBayes sans pour autant partir de l’esperance.

Laplace est motive par des problemes empiriques concrets (erreur demesure en astronomie, recensements, sex-ratio etc)

Par un calcul de la probabilite directe, on sait que la binomiale tend versnp. Pour inferer sur p Laplace imagine que p suit une distribution ”fictive”.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 66 / 82

Page 67: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Urne(s) de Bernoulli

Laplace passe de l’urne de Bernoulli a un modele avec differentes urnes (cf.les problemes de recensement).

Differentes causes exclusives C1, C2, ..., Cn

Trouver ”la cause la plus probable”, sachant les observations E .

On connaıt P(E |Ci ) pour les differents Ci

Laplace cherche P(Ci |E ) pour les differents Ci

Il pose le principe de symetrie suivant

P(Ci |E ) ∝ P(E |Ci ) (∀i)

Proba. indirecte ∝ Proba. directe (∀i)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 67 / 82

Page 68: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Bayesien ou frequentiste ?

Le principe de symetrie peut etre vu comme bayesien :

Pas de loi a priori apparente, mais coherent avec une loi uniformeP(Ci ) = 1/n

Dans certains de ses travaux ulterieurs (apres la lecture dePrice-Bayes), Laplace evoque des a priori non uniformesP(Ci |E ) = P(Ci )P(E |Ci )/

∑P(Ck)P(E |Ck) ou le cas ou les

parametres sont continus (θ ∈ Θ)

En pratique, il a du mal a justifier l’utilisation d’un a priori autrequ’uniforme :

Quand on se sait rien sur la distribution des causes, a priori uniforme(principe de raison insuffisante)Quand on connaıt parfaitement la cause ”inference newtonienne” et nonprobabilisteEntre ces deux cas, pas de reellement de theories ou d’exemples

Calcul a posteriori de E (θ|X ), P(θ1 < θ < θ2|X ) etc...

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 68 / 82

Page 69: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Bayesien ou frequentiste

Le principe de symetrie peut etre vu comme frequentiste :

Dans certains de ses travaux (avant la lecture de Bayes), Laplacecherche le mode de la probabilite inverse.

Le mode de la probabilite inverse est donc le maximum en θ de laprobabilite directe ⇒ Maximum de vraisemblance !

Cependant, il ne s’agit pas d’un point de vue frequentiste du faitmeme de parler de probabilite inverse

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 69 / 82

Page 70: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Qq exemples des travaux de Laplace

Empiriques

Theoriques :

Le theoreme central limite

La popularisation de la transformee de Laplace (inventee par Euler)

Un gros effort pour chercher la loi des erreurs qui permettent d’utiliser lamoyenne comme la valeur la plus probable du parametre.Differentes lois des erreurs :

x 7→ Ke−m|x−θ| donne la moyenne (propos difficilementcomprehensible, confusion entre distribution a priori et a posteriori)

x 7→ 12a log( a

|x |) donne la mediane (la probabilite inverse a des

asymptotes verticales)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 70 / 82

Page 71: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Les deux branches

Newton Cotes Euler Mayer Boscovich &Maire

Laplace Legendre

1687 1722 1749 1750 1755 1788 1805Principia Harmonia

mensurarumRecherchessur la ques-tion desinegalites demouvementsde S. et de J.

Abhandlunguber die Um-walzung desMonds (...)

De LitterariaExpedi-tione perPontificiamditionem addimentien-das duasMeridianigradus

Theorie deJupiter et deSaturne

Nouvellesmethodespour la deter-mination desorbites descometes

Bernoulli De Moivre Bayes & Price Lagrange Laplace1713 1733/1738 1764 1776 1772-1781Ars Conjec-tandi

Approxi-matio adSummamTermino-rum Binomiia + b|n inSeriem ex-pansi & TheDoctrine ofChances

An essay to-ward solvinga problem inthe doctrineof chances

Memoire surl’utilite dela methodede prendre lemilieu entreles resultatsde plusieursobservations(...)

Memoire surla probabilitedes causespar les eve-nements &Recherchessur le milieuqu’il fautchoisir entreles resultatsde plusieursobserva-tions&Memoiresur les proba-bilites

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 71 / 82

Page 72: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

Carl Friedrich Gauss (1777-1855)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 72 / 82

Page 73: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

La synthese

Gauss en 1809 fait un grand saut conceptuel.

Il aborde la methode des moindres carres d’un point de vue probabiliste !

ε = Y − Xβ

En appliquant le principe de symetrie de Laplace il (pretend) montre(r)que le maximum de la probabilite inverse correspond a la valeur obtenuepar la methode des moindres carres si la distribution des erreurs est :

φ(u) =h√π

e−h2u2

Triptyque : MCO - maximum de la probabilite inverse - loi normale

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 73 / 82

Page 74: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

D’une methode geometrique a une methode probabiliste

La synthese

Le raisonnement originel de Gauss est partiellement bancal, mais celapermet a Laplace de jeter un pont entre les moindres carres et l’etude dela distribution des erreurs conduisant a utiliser la moyenne commecombinaison.

Entre 1809 et 1827 (mort de Laplace), Gauss et Laplace vont mettre enplace un edifice relativement mature sur le plan theorique et operant sur leplan pratique.

La loi normale des erreurs est vue comme essentielle car dans ce cas MCO= meilleur estimateur lineaire sans biais des observations (Gauss-Markov).

Les estimateurs des MCO sont asymptotiquement normaux, pourvu que laloi des erreurs admette des moments.

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 74 / 82

Page 75: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

Le devenir de la methode

Plan

1 Le contexte scientifique

2 La combinaison des observations

3 D’une methode geometrique a une methode probabiliste

4 Le devenir de la methode

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 75 / 82

Page 76: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

Le devenir de la methode

Aujourd’hui, les MCO

Pendant 150 ans, les statistiques et la methodes de MCO vaprogressivement se diffuser aux sciences sociales (cf. exposes d’A.Desrosieres et de J.J. Droesbeke)

Quetelet

Galton

Pearson

Fisher

Relecture actuelle de nombreux articles : fort tropisme pour la loi normale(ex : polemique Yules-Pearson sur la correlation de variables binaires)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 76 / 82

Page 77: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

Le devenir de la methode

Aujourd’hui, les MCO

Les MCO restent la methode la plus utilisee dans de nombreux domaines,malgre un renouvellement complet des theories

Cependant, le succes n’est pas alle sans remise en cause et/ou extensionsimportantes. Les evolutions sont souvent liees a des problemes concrets.On se contentera d’en donner quelques exemples dans le domaine de lastatistique et de l’econometrie.

disparition de la la notion de probabilite inverse

fondement de la probabilite a partir de la theorie de la mesure et del’axiomatique de Kolmogorov

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 77 / 82

Page 78: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

Le devenir de la methode

Importation dans les sciences sociales

Passage de la notion d’ajustement des moindres carres a celle de regressionet d’estimation de l’effet causal

Probleme d’erreur de mesure sur les X

Probleme de causalite inverse

Probleme de correlation des observables et des inobservables

VI :

si rg(Z ) ≥ rg(X ) alors β = (X ′Ω(Z )X )−1X ′Ω(Z )Y

la matrice Ω(Z ) optimale est Z (Z ′Z )−1Z ′

d’ou doubles moindres carres (X sur Z puis Y sur X et les residus dela premiere regression)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 78 / 82

Page 79: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

Le devenir de la methode

Probleme de l’admissibilite

Developpement de l’economie structurelle et de l’econometrie (Cowle’scommission).Estimation de systemes (plusieurs variables Y ), avec des dependancesparfois complexes.Stein : Y1

...Yk

=

m1...

mk

+

ε1...εk

,

ε1...εk

∼ N (0,Σ)

Si K > 2 alors il existe un estimateur (non-lineaire) qui est meilleur (ausens du risque quadratique) que l’estimateur des MCO et cela pour toutesles valeurs de m !

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 79 / 82

Page 80: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

Le devenir de la methode

La normalite

Poincare (cite par Cramer (1946) et Koenker et Basset (1978)) :

”Everyone believes in the [Gaussian] law of errors, the experimentersbecause they think it is a mathematical theorem, the mathematiciansbecause they think it is an experimental fact”

Critiques : Huber (robustesse), Koenker et Basset qui reactualisent lesresultats de Laplace (1818)

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 80 / 82

Page 81: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

Le devenir de la methode

Statistique robuste (Huber)

Les moindres carres et le maximum de vraisemblance sont un M-estimateur

Y = Xβ + ε

Max∑

φ(Y − Xβ)

avec φ fonction negative, croissante sur R−, decroissante sur R+, avec unmaximum ”propre” en 0.

Les conditions sur la distribution de ε|X assurant la convergence del’estimateur dependent du choix de φ. La variance asymptotique et doncl’efficacite relative des estimateurs dependent egalement du choix de φ

φ(x) Hyp. ident. var . asymp.

−x2 E (ε|X ) = 0 (X ′X )−1X ′V (ε|X )X (X ′X )−1

−|x | Med(ε|X ) = 0 (X ′X )−1

4fε|X (0)2

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 81 / 82

Page 82: Histoire de la Statistique - CREST | Center for Research in … · 2016-06-17 · Histoire de la Statistique La naissance des MCO Laurent Davezies Emmanuel Didier Crest-Insee Cnrs-Cesdip

Le devenir de la methode

Effet marginal non constant

β =∂E (Y |X )

∂X

Souvent, pas de raison que l’effet marginal soit constant :

Heterogeneite des effets : treatement effect (matching, LATE, etc.)

Modele a index

Regression non parametrique (sieves, noyau, etc.)

Regression quantile : estimation de l’effet marginal sur la probabilited’etre au dessus du quantile τ , l’effet marginal depend du rang dansla distribution de Y

Davezies and Didier (Crest-Insee, Cnrs-Cesdip) Histoire de la Statistique 13 avril 2011 82 / 82