estad´ıstica espacial en epidemiolog´ıa y medio ambiente · pdf...

Estadıstica Espacial en

Epidemiologıa y Medio Ambiente

Antonio Lopez Quılez

Primavera, 2006

Estadıstica Espacial en

Epidemiologıa y Medio Ambiente

Curso de Doctorado

Programa: Estadıstica y Optimizacion

Creditos: 3

Curso: 2005-2006

Profesor: Antonio Lopez Quılez

Dept. d’Estadıstica i Investigacio Operativa

Universitat de Valencia

Objetivos

Establecer la problematica del analisis estadıstico de la variabilidad espacial inherente

a los problemas con datos epidemiologicos y medioambientales. Introducir al estudiante

en los rudimentos de la Estadıstica Espacial de modo que entienda sus objetivos, asimile

sus lıneas argumentales basicas y sea capaz de aplicar algunos de los modelos de uso mas

frecuente. Analizar la aplicacion de la Geoestadıstica en el ambito de la Epidemiologıa

y en el del Medio Ambiente. Presentar la metodologıa aplicable al contexto, tanto desde

una perspectiva frecuentista como Bayesiana.

Programa

Unidad I. Introduccion ( Duracion: 0.3 creditos)

Tema 1.- Estadıstica, Epidemiologıa y Medio Ambiente.

Epidemiologıa. Ciencias Ambientales. Variabilidad espacial. Estudios observacionales.

Datos epidemiologicos y medioambientales. Modelizacion estadıstica. Futuro de la

Estadıstica Espacial.

Unidad II. Geoestadıstica (Duracion: 1.2 creditos)

Tema 2.- Procesos continuos estacionarios.

Procesos estocasticos espaciales. Estacionariedad. Estacionariedad de los incremen-

tos. Modelos de variograma.

3

Tema 3.- Estimacion del variograma.

Estimacion empırica del variograma. Estimacion parametrica de modelos de vari-

ograma. Validacion cruzada del variograma ajustado.

Tema 4.- Prediccion espacial.

Suavizacion e interpolacion. Kriging ordinario. Kriging universal. Kriging pulido por

la mediana. Cokriging.

Unidad III. Modelos de estructura compleja (Duracion: 0.6 creditos)

Tema 5.- Modelos Lineales Generalizados.

Definicion de Modelo Lineal Generalizado (GLM). Estimacion de un GLM. Seleccion

del mejor modelo GLM. Analisis de residuos.

Tema 6.- Modelos jerarquicos Bayesianos.

Introduccion. Definicion de modelo jerarquico. Ejemplos de modelos jerarquicos. Pro-

cesos espaciales. Inferencia Bayesiana en modelos jerarquicos.

Unidad IV. Geoestadıstica basada en modelos (Duracion: 0.9 creditos)

Tema 7.- Inferencia Bayesiana para el modelo lineal Gaussiano.

Formulacion. Parametros de correlacion fijos. Incertidumbre en los parametros de

correlacion.

Tema 8.- Modelos Lineales Generalizados con estructura espacial.

Fundamentos teoricos. Prediccion. Inferencia Bayesiana. Aplicacion con datos dis-

cretos.

Metodo de evaluacion

La evaluacion se compone de la resolucion de ejercicios propuestos en las clases practi-

cas y la elaboracion de un trabajo aplicado con datos de un problema concreto, que

se propondra a la vista de los intereses concretos de los estudiantes en la materia y su

formacion anterior.

4

Bibliografıa

Banerjee, S., Carlin, B.P. y Gelfand, A.E. (2004). Hierarchical Modeling and Analysis

for Spatial Data. Chapman & Hall, Boca Raton.

Christensen, O.F. y Ribeiro Jr., P.J. (2002) geoRglm: A package for Generalised Linear

Spatial Models. R-NEWS Vol 2, No 2.

http://cran.r-project.org/doc/Rnews

Cressie, N. (1993). Statistics for spatial data, segunda edicion. John Wiley and Sons,

New York.

Diggle, P.J., Tawn, J.A. y Moyeed, R.A. (1998). Model-based Geostatistics (con dis-

cusion). Applied Statistics, 47:299-350.

Diggle, P.J., Ribeiro, P.J. y Christensen, O.F. (2003). An introduction to Model-based

Geostatistics. En Spatial Statistics and Computational Methods, ed. J. Moller, Springer

Verlag, New York.

Goovaerts, P. (1997). Geostatistics for Natural Resources Evaluation. Oxford University

Press, New York.

Ripley, B. D. (1981). Spatial Statistics. John Wiley and Sons, New York.

R Development Core Team (2000). An introduction to R.

http://cran.r-project.org.

Ribeiro, P. J. y Diggle, P. J. (2000). geoR/geoS: functions for geostatistical analysis

using R or S-PLUS. Technical Report ST-99-09, version revisada. Department of

Mathematics and Statistics, Lancaster University.

http://www.maths.lancs.ac.uk/∼ribeiro/geoS.html.

Ribeiro Jr., P. J. y Diggle, P. J. (2001) geoR: A package for geostatistical analysis. R-

NEWS Vol 1, No 2.

http://cran.r-project.org/doc/Rnews

Venables, W. N. y Ripley, B. D. (1999). Modern Applied Statistics with S-PLUS, tercera

edicion. Springer, New York.

http://www.stats.ox.ac.uk/pub/MASS3.

Waller, L. A. y Gotway, C. A. (2004). Applied Spatial Statistics for Public Health Data.

John Wiley and Sons, Hoboken, New Jersey.

Unidad I. Introduccion

Tema 1. Estadıstica, Epidemiologıa y Medio Ambiente

La primera parte del programa esta destinada a introducir la materia, justificar su

importancia y motivar la estructura del programa. El tema considerado pretende cubrir

este objetivo, planteando la conexion obligada entre la Estadıstica Espacial y los estudios

epidemiologicos y medioambientales.

5

6

Tema 1.- Estadıstica, Epidemiologıa y Medio Ambi-ente

1. Epidemiologıa

2. Ciencias Ambientales

3. Variabilidad espacial

4. Estudios observacionales

5. Datos epidemiologicos y medioambientales

6. Modelizacion estadıstica

7. Futuro de la Estadıstica Espacial

Vivimos en un mundo cambiante y lleno de contrastes. La salud, la riqueza y el bi-

enestar han aumentado en muchas regiones del planeta. La esperanza de vida ha crecido

de forma espectacular. La condicion social de muchas personas ha mejorado gracias al

acceso a servicios sociales y de salud, medios de comunicacion y de entretenimiento. Sin

embargo, todo esto ocurre en medio de los daninos efectos de las emisiones toxicas y

los vertidos contaminantes con los que estropeamos nuestro entorno. Es preocupante la

contaminacion del suelo, del aire y del agua, los riesgos que conllevan las emisiones ra-

dioactivas, el calentamiento global del planeta y el efecto invernadero, la contaminacion

de la cadena alimenticia y el agotamiento de los recursos naturales. La aparicion de nuevas

enfermedades o el crecimiento de la incidencia de algunas de ellas son consecuencia di-

recta de los cambios tecnologicos y socioeconomicos de nuestra sociedad. Es evidente la

necesidad de comprometerse seriamente con la salud de las personas y de nuestro Medio

Ambiente.

Los problemas relacionados con el Medio Ambiente surgen de las ciencias naturales y

de la vida de forma mas complicada y mas urgente cada dıa. Conforme crece la poblacion

humana, debemos entender mejor el entorno en que vivimos y nuestro efecto sobre el.

Las agresiones medioambientales no respetan fronteras polıticas artificiales, aunque son

generalmente los gobiernos los que fijan las polıticas ambientales. Los cientıficos de todos

los contextos, incluyendo los estadısticos, tienen que jugar un papel importante para

proporcionar a los gobiernos una adecuada descripcion del equilibrio medioambiental,

mediante un analisis imparcial de nuestra salud ecologica.

7

Tambien los problemas de Salud Publica transcienden, gracias al movimiento de per-

sonas y mercancıas, hasta situaciones globalizadas. Problemas como los generados por la

gripe asiatica o el ”mal de las vacas locas”han puesto en alerta los sistemas de preven-

cion y vigilancia de todo el mundo. Los paıses europeos unen esfuerzos y criterios para

establecer sistemas de analisis de la salud publica y detectar problemas epidemiologicos.

En esta preocupacion estan inmersas la administracion nacional, la autonomica y la local,

con competencias repartidas.

1. Epidemiologıa

La Epidemiologıa se interesa por la distribucion y las causas de salud y enfermedad

en las poblaciones. Su campo de interes inicial fue el de las enfermedades contagiosas,

pero actualmente se extiende a las enfermedades cronicas, a la biologıa humana, a los

metodos de diagnostico y tratamiento, a los ensayos terapeuticos de medicamentos, a los

metodos pronosticos e incluso a la administracion de los servicios de salud. Los princi-

pios, las tecnicas y las aplicaciones de la epidemiologıa contemporanea se basan en el

concepto que entiende la salud como el producto de las interacciones entre el hombre y

su medio. La demografıa, la diversidad geografica, las caracterısticas socioeconomicas, los

habitos de vida y las intervenciones sanitarias, entre otros factores, determinan el riesgo

de enfermedad.

2. Ciencias Ambientales

El Medio Ambiente es el conjunto de circunstancias fısicas que rodean a un organismo,

y la Ecologıa es la ciencia que estudia la relacion de un organismo con su entorno, es decir,

con su medio ambiente. Ası pues, la nocion de proximidad en el espacio esta implıcita o

explıcitamente presente en todas las Ciencias Ambientales. La proximidad es una nocion

relativa, dependiente de la escala espacial de la investigacion cientıfica. La ubicacion de un

almacen de residuos toxicos puede afectar a un vecindario de varios kilometros cuadrados;

una planta termica puede alterar toda una extensa region, a menudo altamente poblada;

y un incremento del efecto invernadero puede tener un impacto global sobre el clima.

Pero dicho impacto global se experimenta a nivel local, modificando aspectos concretos.

Una cantidad como la temperatura media global es un resumen poco informativo de como

puede afectar en nuestras vidas diarias el calentamiento del planeta.

El campo de trabajo en un estudio medioambiental es interdisciplinario, por cuan-

to pueden intervenir diferentes ciencias: ecologıa, epidemiologıa, agricultura, toxicologıa,

8

geologıa, oceanografıa o meteorologıa, entre otras. La colaboracion entre ellas esta con-

siguiendo entender y describir las complejas interacciones existentes entre los seres vivos

y el medio en que vivimos.

3. Variabilidad Espacial

La variabilidad espacial esta omnipresente en cualquier investigacion epidemiologica

y/o ambiental. Su estudio es un area relativamente nueva dentro de la Estadıstica. La Es-

tadıstica Espacial fue brevemente esbozada por R.A. Fisher en su investigacion estadıstica

aplicada a la agricultura. Fisher en los anos 30 escribio:

Tras seleccionar el area, habitualmente no tenemos otra guıa que el hecho

ampliamente verificable de que las parcelas mas proximas son normalmente

mas parecidas, en terminos de produccion de la cosecha, que aquellas que estan

mas alejadas.

Este es el punto crucial: modelizar la variabilidad espacial o eliminarla. La aleator-

izacion espacial ha tenido un impacto directo sobre el desarrollo de cultivos resistentes,

productivos y adaptados al tipo de suelo y a las condiciones climatologicas.

La distribucion aleatorizada de los tratamientos en las parcelas justifica realizar un

analisis de la varianza a fin de contrastar las diferencias entre dichos tratamientos. Sin

embargo, controlar el sesgo de esta forma implica pagar un precio en terminos de la

eficiencia estadıstica del analisis.

4. Estudios Observacionales

Desafortunadamente, en los estudios medioambientales no suele ser posible realizar

un riguroso diseno del experimento. La situacion cambia cuando pasamos de estudiar

plantas a analizar organismos y fenomenos moviles. Su movilidad esta en relacion con

una mayor diversidad genetica, de forma que, como unidades experimentales, presentan

una mayor heterogeneidad. Los experimentos de toxicologıa controlados en el laboratorio

intentan evitar este problema, aunque la variabilidad entre los humanos produce enormes

dificultades en el analisis de nuevos tratamientos en las ciencias medicas.

Una segunda consecuencia de la experimentacion con unidades moviles es que la movil-

idad es parte de su naturaleza, haciendolos difıcil de encontrar, de rastrear, e incluso de

9

medir. Las componentes basicas del diseno de experimentos, es decir, agrupacion, aleator-

izacion y replicacion, no suelen estar disponibles para el investigador. Incluso cuando uno

es capaz de agrupar los sujetos por edad y sexo, puede que un factor genetico descono-

cido determine como un paciente respondera a un tratamiento determinado. En estudios

epidemiologicos, se pueden seleccionar controles equilibrados con los casos, pero los casos

no son asignados aleatoriamente a las distintas zonas. La duplicacion de ensayos quımicos

permite valorar el error de medida en un estudio sobre la contaminacion atmosferica, pero

una investigacion de sus efectos sobre la salud no admite la replicacion.

Ası pues, en vez de un cuidadoso diseno de experimentos, nos enfrentamos a problemas

planteados sobre estudios observacionales. A menudo una unica observacion constituye

toda la informacion disponible.

5. Datos Epidemiologicos y Medioambientales

Los problemas epidemiologicos y medioambientales vienen relacionados con observa-

ciones espaciales de distinta ındole. Los datos son continuos o discretos, estan agregados

espacialmente o son observaciones individuales en puntos del espacio, sus localizaciones se

encuentran dispuestas de forma regular o irregular, e incluso, estas localizaciones provienen

de una region espacial continua o de un conjunto discreto.

Los datos espaciales se pueden clasificar en tres grupos fundamentales segun el contex-

to de observacion del que provienen: observaciones de un fenomeno continuo en el espacio,

datos en una red fija de localizaciones y sucesos que ocurren en el espacio proporcionando

un conjunto aleatorio de puntos llamado patron puntual. Estos tipos de datos diferenci-

ados dan origen a formas distintas de modelizacion y, por tanto, de analisis estadıstico.

Ejemplos de cada clase de datos, destacando los elementos diferenciadores, motivan el

estudio de las tres situaciones. La modelizacion estadıstica de los problemas epidemiologi-

cos y medioambientales conlleva la adecuada incorporacion de estos fenomenos y de las

relaciones de dependencia espacial que puedan existir entre las observaciones.

6. Modelizacion Estadıstica

El analisis estadıstico puede intentar salvar las dificultades creadas por la carencia de

diseno experimental mediante el estudio de la variabilidad. El investigador puede aventu-

rar cuales son las posibles causas de esta variabilidad, pero un modelo adecuado deberıa

describir la situacion real estudiada. Ası, un estudio de un fenomeno meteorologico con-

10

creto deberıa involucrar sus relaciones fısicas con la presion atmosferica y los vientos, pero

esto requiere la incorporacion al modelo de componentes espaciales, e incluso temporales.

La presencia de la dimension espacial en los problemas epidemiologicos y medioam-

bientales exige la creacion y el desarrollo de un marco estadıstico que permita inferir

adecuadamente sobre los procesos y sus parametros de interes. Los datos espaciales son

habitualmente dependientes entre sı y requieren modelos espaciales que recojan su es-

tructura de interrelaciones. Esta modelizacion y su inferencia no son siempre faciles de

realizar, pero esto no significa que sean inviables.

Una consideracion adicional sobre el comportamiento de los modelos estadısticos espa-

ciales es la cuestion del nivel de agregacion espacial. Los vecindarios se agrupan en barrios,

municipios, comarcas, provincias y estados. Pero los datos pueden ser recogidos a un nivel

de agregacion y las covariables a otro, e incluso las decisiones polıticas pueden tomarse

a un tercer nivel distinto. El cambio de nivel de agregacion espacial puede conducir a

conclusiones completamente diferentes. Este fenomeno es denominado en la literatura

epidemiologica como falacia ecologica, y en geografıa como problema de unidad de area

modificable. En Estadıstica se conoce en el contexto del analisis de datos categoricos como

paradoja de Simpson. No es un problema facil de resolver y requiere un cuidado especial

en cualquier problema epidemiologico y medioambiental.

7. Futuro de la Estadıstica Espacial

El empleo de tecnicas estadısticas en Epidemiologıa es habitual desde sus inicios.

Recientemente se ha acunado el termino Epidemiologıa Espacial referido a diferentes

topicos sobre el estudio de la dispersion espacial de enfermedades, incluyendo la cartografıa

de enfermedades, la deteccion de agrupaciones de casos, el analisis ecologico, etc. El interes

creciente en esta materia ha motivado la publicacion de libros monograficos y la aparicion

de numeros especiales sobre esta cuestion en revistas cientıficas prestigiosas.

El campo de la Estadıstica Medioambiental es relativamente joven. El termino “envi-

ronmetrics” ha alcanzado cierto reconocimiento recientemente gracias a la existencia de

varias revistas cientıficas casi completamente dedicadas a la materia (Environmetrics pub-

licada por la International Environmetrics Society y Wiley; Ecological and Environmental

Statistics publicada por Kluwer, y Journal of Agricultural, Biological and Environmen-

tal Statistics publicada por la American Statistical Association). Tambien las principales

revistas de Estadıstica han recogido importantes contribuciones durante las ultimas dos

decadas. En estos momentos, algunas de las principales sociedades cientıficas tienen una

seccion dedicada a este campo. El desarrollo de nuevas metodologıas y aplicaciones se

11

vera fomentado por este interes manifiesto.

Conforme avanzan los anos, parecen aumentar las posibilidades para analizar estadısti-

camente problemas epidemiologicos y medioambientales de gran complejidad, con datos

multivariantes de naturaleza espacial y temporal. Los metodos de Monte Carlo por cade-

nas de Markov (MCMC) proporcionan una herramienta para analizar estas situaciones

que ha propiciado el rapido desarrollo de la Estadıstica Espacial en la ultima decada

del siglo XX. A pesar de ello, todavıa quedan muchas cuestiones pendientes. La comu-

nidad cientıfica debate sobre la complejidad de los modelos y la fiabilidad de las tecnicas

empleadas.

El tiempo es una componente importante en cualquier estudio cientıfico dinamico.

Ası, la modelizacion de aspectos meteorologicos o del desarrollo y evolucion de epidemias

requiere de modelos espacio-temporales. Gran parte de la investigacion actual se esta en-

focando en esta direccion.

Destaca la necesidad de crear una amplia baterıa de herramientas estadısticas para

describir, analizar y controlar el estado de un sistema ecologico. En particular, es impre-

scindible el desarrollo de software adecuado. En los proximos anos, tanto los organismos

publicos como las empresas privadas necesitaran un gran numero de profesionales espe-

cializados capaces de utilizar e interpretar dichas tecnicas.

Unidad II. Geoestadıstica

Tema 2. Procesos continuos estacionarios

Tema 3. Estimacion del variograma

Tema 4. Prediccion espacial

La Geoestadıstica es un termino que se acuno en los anos 50 para denominar a las

tecnicas estadısticas aplicadas al analisis geografico. Su desarrollo, en esa decada y en la

siguiente, se debe a su aplicacion a la ingenierıa de minas, para predecir las reservas de

mineral a partir de observaciones espacialmente distribuidas en una region.

Hay una gran variedad de problemas que pueden resolverse utilizando metodos geoes-

tadısticos. La caracterıstica comun a todos ellos es que los datos pueden verse como una

realizacion, habitualmente parcial, de un proceso estocastico sobre una region espacial

continua. Matheron (1963) denomina esta situacion como problema de variables regional-

izadas enfatizando la naturaleza espacial continua del conjunto de ındices.

La clave fundamental en la modelizacion de la relacion espacial en el proceso es el

variograma que sera objeto de modelizacion y estimacion para describir adecuadamente

el fenomeno observado. El segundo tema de la unidad esta dedicado a esta cuestion.

El objetivo principal en la aplicacion de la geoestadıstica es habitualmente la prediccion

en un punto o en un conjunto de puntos de la region observada. La tecnica de prediccion

espacial mas empleada es el kriging, por lo que tiene un papel principal en el ultimo tema

de la unidad.

12

13

Tema 2.- Procesos continuos estacionarios

1. Procesos estocasticos espaciales

a) Funcion de covarianza

2. Estacionariedad

a) Estacionariedad estricta

b) Estacionariedad de segundo orden

c) Correlograma

3. Estacionariedad de los incrementos

a) Estacionariedad intrınseca

b) Variograma

c) Isotropıa

4. Modelos de variograma

a) Efecto pepita, rango y alfeizar

b) Modelos isotropicos

c) Modelos anisotropicos

1. Procesos estocasticos espaciales

La formulacion basica de un proceso estocastico se concreta a la situacion espacial

tomando como conjunto de ındices una determinada region continua D del espacio.

{Z(s) : s ∈ D}

Funcion de covarianza

La principal caracterıstica de interes para el estudio espacial es la funcion de covari-

anza, que determina, para cada par de puntos, la covarianza entre las variables aleatorias

correspondientes.

Cov(Z(s1), Z(s2))

14

2. Estacionariedad

La prediccion es posible si el proceso tiene, en algun aspecto, un comportamiento

estable en toda la region de estudio.

Estacionariedad estricta

La estacionariedad estricta es una condicion muy fuerte y poco habitual, pues es-

tablece que las distribuciones de probabilidad conjunta permanezcan invariables ante una

traslacion.

Fs1+h,...,sm+h(z1, . . . , zm) ≡ Fs1,...,sm(z1, . . . , zm)

Estacionariedad de segundo orden

Una condicion menos exigente es la estacionariedad de segundo orden, o estacionar-

iedad debil, que conlleva que la esperanza sea constante y que la funcion de covarianza

sea invariante por traslacion.

E(Z(s)) = µ,∀s ∈ D

Cov(Z(s1), Z(s2)) = C(s1 − s2),∀s1, s2 ∈ D

De esta forma, la funcion de covarianza de un proceso estacionario se puede expresar

en funcion del vector de diferencia entre los puntos. A la funcion C(·) se le denomina

covariograma.

Correlograma

Igualmente, se define el correlograma, o funcion de autocorrelacion, que para cada

vector proporciona la correlacion entre las variables de dos puntos separados por ese

vector.

3. Estacionariedad de los incrementos

Una perspectiva diferente de la estacionariedad se obtiene al estudiar la variabilidad

de los incrementos del proceso.

15

Estacionariedad intrınseca

La propiedad de estacionariedad intrınseca se verifica si la varianza de las diferencias

entre las variables en dos puntos depende unicamente del vector que los separa.

V ar(Z(s1)− Z(s2)) = 2γ(s1 − s2),∀s1, s2 ∈ D

Esta condicion es mas debil que la estacionariedad de segundo orden y se emplea habit-

ualmente en la modelizacion geoestadıstica.

Variograma

Se define ası el variograma como la funcion 2γ de dicho vector s1 − s2. A la funcion γ

se le denomina semivariograma.

Isotropıa

Por otro lado, un proceso intrınsecamente estacionario es isotropico si el variograma

depende del vector a traves de su longitud h = ‖s1 − s2‖, sin importar la direccion. Se

denomina proceso homogeneo a un proceso intrınsecamente estacionario e isotropico.

4. Modelos de variograma

Para realizar una prediccion de un proceso intrınsecamente estacionario es conveniente

modelizar su variograma mediante una funcion semidefinida negativa. Habitualmente se

emplea la mitad del variograma, que se denomina semivariograma.

Efecto pepita, rango y alfeizar

Varios elementos aparecen diferenciados en el semivariograma: la pepita, el alfeizar y

el rango.

Se denomina efecto pepita, termino extraıdo de la aplicacion a la minerıa, a la

situacion en que el variograma no tiende a 0 al acercarse al origen. Esto puede ser

16

debido al error de medida o a la variacion a muy pequena escala.

lımh→0

γ(h) = c0 > 0

De forma logica, un semivariograma crece con la distancia, recogiendo el fenomeno

de que el proceso es similar en puntos proximos, hasta que se estabiliza en un valor

llamado alfeizar que expresa la variabilidad entre puntos distantes.

lımh→∞

γ(h) = cs > 0

El rango es la distancia hs a la que se alcanza el alfeizar, γ(h) = cs,∀h > hs.

Modelos isotropicos

Entre los muchos modelos isotropicos de semivariograma que se han propuesto, los

mas empleados son el lineal, esferico, exponencial, cuadratico racional, ondulado, po-

tencial y Gaussiano. Estos constituyen una amplia baterıa representativa de diferentes

comportamientos de los procesos espaciales.

Modelos anisotropicos

Los modelos anisotropicos permiten acercarse a situaciones en las que la direccion es

fundamental en el fenomeno estudiado.

17

Tema 3.- Estimacion del variograma

1. Estimacion empırica del variograma

a) Metodo de los momentos

b) Agrupacion y rango del variograma

c) Estimadores robustos

2. Estimacion parametrica de modelos de variograma

a) Maxima verosimilitud

b) Maxima verosimilitud restringida

c) Mınima norma cuadratica

d) Mınimos cuadrados

3. Validacion cruzada del variograma ajustado

1. Estimacion empırica del variograma

Metodo de los momentos

La estimacion del variograma mas sencilla puede obtenerse por el metodo de los mo-

mentos, proporcionando para cada vector su estimador mediante la varianza muestral de

la diferencia del proceso entre los pares de puntos separados por ese vector.

2γ(h) =1

|N(h)|∑N(h)

(Z(si)− Z(sj))2,

donde

N(h) = {(si, sj) : si − sj = h; i, j = 1, . . . , n}.

En la practica, la estimacion se realiza permitiendo cierta region de tolerancia alrededor

del vector. Las regiones de tolerancia deben ser tan pequenas como se pueda, pero con el

numero de pares suficiente para realizar una estimacion estable.

18

Agrupacion y rango del variograma

Algunas cuestiones de ındole practico surgen sobre el nivel de agrupacion y el rango

de estimacion posible, que pueden ser ilustradas con varios ejemplos.

Estimadores robustos

Una objecion a este estimador del variograma es su inestabilidad ante la presencia de

valores extremos, por lo que se han propuesto diferentes estimadores robustos mediante

la introduccion de un factor corrector del sesgo o el uso de la mediana.

2γ(h) =

1

|N(h)|∑N(h)

|Z(si)− Z(sj)|1/2

4

/

(0,457 +

0,494

|N(h)|

)

2γ(h) =[med

{|Z(si)− Z(sj)|1/2 : si, sj) ∈ N(h)

}]4/B(h)

donde B(h) es un factor corrector del sesgo que tiende asintoticamente a 0.457.

2. Estimacion parametrica de modelos de variograma

La estimacion obtenida del variograma no puede ser usada directamente para la predic-

cion espacial, pues no es necesariamente semidefinida negativa. Hay que buscar un modelo

valido de semivariograma que se aproxime a la dependencia espacial encontrada por el

semivariograma empırico, seleccionando, de las familias expuestas en el tema anterior,

aquella que mejor describa el comportamiento observado. La estimacion de los paramet-

ros puede realizarse por diferentes metodos como los de maxima verosimilitud, maxi-

ma verosimilitud restringida, mınima norma cuadratica, mınimos cuadrados y mınimos

cuadrados generalizados, presentando cada uno de ellos ventajas e inconvenientes.

3. Validacion cruzada del variograma ajustado

El diagnostico del variograma ajustado puede realizarse mediante validacion cruzada.

Esto permite valorar la capacidad del variograma para describir la variabilidad del prob-

lema estudiado. Tambien puede determinarse la influencia de una observacion concreta.

Para ello, el procedimiento consiste en estimar el variograma sin esa observacion, predecir

el proceso en ese punto y compararlo con lo realmente observado. La validacion cruzada

19

se emplea tambien para comparar el impacto de distintos modelos sobre los resultados de

la prediccion y para estimar el error de prediccion.

20

Tema 4.- Prediccion espacial

1. Suavizacion e interpolacion

a) Escalas de variacion

b) Superficies de tendencia

2. Kriging ordinario

a) Formulacion

b) Mejor predictor lineal insesgado

c) Efecto de los parametros del variograma y su estimacion

3. Kriging universal

a) Formulacion

b) Prediccion

c) Estimacion de los parametros de la media

d) Kriging en bloques

4. Kriging pulido por la mediana

a) Formulacion

b) Algoritmo de estimacion

c) Estimacion de la tendencia espacial

5. Cokriging

El objetivo final de los estudios medioambientales es frecuentemente la prediccion sobre

la region espacial completa. Para ello, la modelizacion y estimacion de la variabilidad del

proceso, analizada en el tema anterior, constituyen una herramienta fundamental para

valorar el error producido por la prediccion.

1. Suavizacion e interpolacion

A partir de los datos observados en diferentes puntos, varios metodos consiguen una

superficie interpolada que pasa por estas observaciones. Pero la posible presencia de error

en la medicion o de distorsion del proceso hace que la interpolacion sea poco util. En

cambio, la obtencion de una superficie suave que se aproxime a los datos proporciona un

modelo global que intenta recoger las principales caracterısticas del fenomeno estudiado.

21

Escalas de variacion

Para obtener una suavizacion, es importante distinguir entre las diferentes escalas de

variacion presentes en el problema, componiendo un modelo que contemple la incertidum-

bre espacial global, o variacion a gran escala, y el comportamiento local, o variacion a

pequena escala,

Z(s) = Y (s) + ε(s).

Superficies de tendencia

Entre las tecnicas para calcular estas superficies suavizadas cabe destacar las medias

moviles y las superficies de tendencia. Las medias moviles pueden ser empleadas como en

las series temporales y ofrecen para cada punto una ponderacion local de las observaciones

proximas. Las superficies de tendencia son una generalizacion a mayor dimension del

ajuste de curvas por mınimos cuadrados. Pueden ser consideradas como un primer filtro

que recoge la variacion a gran escala.

El ajuste de superficies de tendencia mediante regresion polinomial de las coordenadas

obtiene una forma suavizada del comportamiento global de los datos analizados. Se trata

de funciones bidimensionales de la forma

f(x, y) =∑

r+s≤p

arsxrys.

Hay varias formas de representar una superficie de tendencia o cualquier otra superficie

obtenida por suavizacion o prediccion del proceso espacial. Se puede utilizar un diagrama

de contorno con las curvas de nivel, o una imagen coloreada de las mismas, ademas de la

grafica tridimensional en perspectiva.

Ademas de su importante papel descriptivo, la eliminacion de la superficie de ten-

dencia facilita el analisis de la variabilidad a pequena escala. Los residuos obtenidos tras

eliminar la tendencia muestran las observaciones espacialmente anomalas. El estudio de la

autocorrelacion espacial de estos residuos determinara la posible necesidad de un analisis

mas detallado de la estructura espacial del problema.

22

2. Kriging ordinario

El metodo de prediccion espacial mas extendido es el kriging, termino acunado en

honor del trabajo del ingeniero de minas D.G. Krige, que consiste en la prediccion lineal

espacial optima empleando un modelo de semivariograma para recoger la estructura de

segundo orden del proceso.

Formulacion

El denominado kriging ordinario consiste en la prediccion lineal insesgada optima,

considerando que el proceso se puede descomponer en la suma de un valor medio fijo y

un proceso intrınsecamente estacionario,

Z(s) = µ + ε(s),

con semivariograma γ(h) conocido.

El predictor lineal del proceso en un punto arbitrario s0 es p(Z; s0) =∑n

i=1 λiZ(si),

donde exigiremos∑n

i=1 λi = 1 para que sea insesgado. Hay una version de kriging denom-

inado kriging simple en la que µ es conocida y los coeficientes λi no estan restringidos a

sumar 1.

El kriging consiste en la determinacion del mejor de estos predictores en el sentido de

que minimice el error cuadratico medio de prediccion,

σ2e ≡ E(Z(s0)− p(Z; s0))

2.

Mejor predictor lineal insesgado (BLUP)

Este predictor se obtiene a traves de la resolucion del sistema de ecuaciones de predic-

cion resultantes de la minimizacion del error cuadratico medio. Puede ser expresado como

pk(Z; s0) =

(γ + 1

(1− 1′Γ−1γ)

1′Γ−11

)′Γ−1Z,

donde γ = (γ(s1 − s0), . . . , γ(sn − s0))′ y Γ es la matriz n × n cuyo elemento (i, j) es

γ(si − sj).

La varianza de prediccion puede expresarse como

σ2k(s0) = γ ′Γ−1γ − (1′Γ−1γ − 1)2/(1′Γ−11).

23

A partir de las expresiones anteriores, podemos construir intervalos de prediccion al

100(1− α) % mediante

pk(Z; s0)± z1−α/2 σk(s0),

utilizando los cuantiles de la normal estandarizada.

Efecto de los parametros del variograma y su estimacion

Hay que prestar especial atencion al efecto que produce sobre el kriging una variacion

en los parametros del variograma, ası como a la necesidad de considerar el error de esti-

macion de dichos parametros como una fuente de variabilidad presente en el analisis. Esto

produce una subestimacion de la varianza del error de prediccion, al no incorporar dicho

error de estimacion.

3. Kriging universal

Formulacion

El kriging universal generaliza el kriging ordinario, permitiendo que el valor medio del

proceso no sea constante, sino una combinacion lineal de funciones conocidas o covariables

ligadas a las mismas localizaciones. De esta forma, el kriging universal incorpora terminos

de regresion y correlacion espacial.

Z(s) = β0 + β1f1(s) + . . . + βpfp(s) + ε(s),

donde las fj(·) son funciones de la localizacion espacial s o variables explicativas asociadas

a los puntos.

El vector de datos Z puede escribirse como

Z = Xβ + ε,

donde X es la matriz n× (p + 1) cuyo elemento (i, j) es fj−1(si).

Prediccion

El predictor lineal insesgado en un punto arbitrario s0 es p(Z; s0) =∑n

i=1 λiZ(si), suje-

to a las restricciones λ′X = x′ para garantizar su insesgadez, con x = (f0(s0), f1(s0), . . . , fp(s0))′.

24

La prediccion optima, que minimiza el error cuadratico medio, se realiza de forma

similar al caso anterior anadiendo tantos coeficientes como terminos de regresion aparecen

en la media. La expresion del predictor resultante es

pk(Z; s0) ={γ + X(X′Γ−1X)−1(x−X′Γ−1γ)

}′Γ−1Z,

La varianza de prediccion puede expresarse como

σ2k(s0) = γ ′Γ−1γ − (x−X′Γ−1γ)′(X′Γ−1X)−1(x−X′Γ−1γ),

y el intervalo de prediccion al 100(1− α) %

pk(Z; s0)± z1−α/2 σk(s0).

Estimacion de los parametros de la media

La estimacion de los parametros de la media se obtiene por mınimos cuadrados gener-

alizados, asumiendo que los datos Z satisfacen un modelo lineal general con E(Z) = Xβ

y V ar(Z) = Σ,

βgls = (X′Σ−1X)−1X′Σ−1Z.

Kriging en bloques

En algunas situaciones se desea predecir el proceso en una pequena zona. El kriging en

bloques realiza esa prediccion modificando las expresiones del kriging universal mediante

integrales que promedian en esa zona tanto el variograma, como las covariables.

4. Kriging pulido por la mediana

Formulacion

El kriging pulido por la mediana constituye una aproximacion diferente al problema de

prediccion espacial. En vez de intentar una identificacion optima del proceso estocastico,

este metodo esta basado en la reconstruccion robusta de una superficie irregular. La idea

basica es la consideracion de un proceso compuesto por una estructura de error y una

25

funcion media desconocida, cuya forma se asume que es la suma de sendas funciones de

las respectivas coordenadas

Z(s) = a + c(x) + r(y) + ε(s), s = (x, y)′ ∈ D.

Si ademas las localizaciones de observacion forman una red regular, podemos denotar el

proceso en terminos de los ındices de fila y columna,

Z(s) = a + cl + rk + ε(s).

Algoritmo de estimacion

La estimacion de esta superficie puede realizarse mediante el algoritmo de pulido por

la mediana basado en el analisis robusto de la varianza. Es un procedimiento iterativo

que proporciona una estimacion de los parametros anteriores, a, cl y rk.

En el caso de que las observaciones no esten dispuestas sobre una red regular, un

metodo aproximado puede aplicarse sobre un mapa de baja resolucion. Este se obtiene

superponiendo un retıculo regular y asignando cada observacion al nodo mas proximo.

El algoritmo de pulido por la mediana aplicado sobre dicho mapa de baja resolucion

proporciona una superficie aproximada del comportamiento medio del proceso.

Estimacion de la tendencia espacial

El procedimiento del kriging pulido por la mediana comprende dos etapas, la esti-

macion y eliminacion de la estructura media de tendencia espacial, y la estimacion de la

estructura de dependencia espacial aplicando kriging ordinario sobre los residuos.

5. Cokriging

Una version multivariante del kriging la proporciona el llamado cokriging. El objetivo

es predecir un vector de valores en cada localizacion de una region a partir de la obser-

vacion en varios puntos, asumiendo que esos fenomenos estan relacionados entre sı. La

construccion del variograma cruzado proporciona la herramienta necesaria para el analisis

de la variabilidad del proceso espacial multivariante.

Unidad III. Modelos de estructuracompleja

Tema 5. Modelos Lineales Generalizados

Tema 6. Modelos jerarquicos Bayesianos

Esta parte del programa esta destinada a establecer las bases formativas sobre las

que se asienta el desarrollo de los temas restantes. Los dos temas considerados pretenden

cubrir este objetivo en los ambitos de dos grandes familias de modelos de gran aplicacion

y relevancia.

Los Modelos Lineales Generalizados se introducen como extension de los Modelos

Lineales y como referencia en modelos espaciales presentados en la siguiente unidad.

Los modelos jerarquicos anaden cierta complejidad a los modelos tradicionales permi-

tiendo la construccion de estructuras flexibles mediante el encadenamiento condicional de

modelos simples. Estan suponiendo la principal herramienta de analisis en problemas en

que varios fenomenos estan interconectados o que tienen variables de muy diversa ındole.

Su auge, no solo en los problemas medioambientales, viene dado por su capacidad de

adaptarse a situaciones complejas y por el desarrollo de tecnicas inferenciales asequibles.

26

27

Tema 5.- Modelos Lineales Generalizados

1. Definicion de Modelo Lineal Generalizado (GLM)

a) Motivacion

b) Definicion

c) Componentes

d) Ejemplos

2. Estimacion de un GLM

a) Maxima verosimilitud

b) Metodo Scoring de Fisher

c) Estimacion del parametro de dispersion

3. Seleccion del mejor modelo GLM

a) Desviacion

b) Seleccion entre modelos encajados

4. Analisis de residuos

Los Modelos Lineales Generalizados (GLM) son una extension de los modelos lineales.

Los GLM comprenden aquellas distribuciones de familia exponencial uniparametrica que

recogen aditivamente los efectos fijos como una transformacion monotona de la media.

Esta amplia familia permite modelizar una gran variedad de situaciones, con observaciones

tanto continuas como discretas.

1. Definicion de Modelo Lineal Generalizado (GLM)

Motivacion

Modelo Lineal General: datos independientes, y1, y2, . . . , yn, normalmente distribuidos.

yi ∼ N(β0 + β1x1i + . . . + βpx

pi , σ

2)

predictor lineal β′xi

28

varianza constante

E[y] = Xβ, V[y] = σ2I

Modelo Lineal Generalizado: datos independientes de una distribucion de la familia expo-

nencial (binomial, Poisson, gamma, . . .).

modeliza E[y] como una funcion no lineal de Xβ.

Ejemplo: Mortalidad por cancer de prostata, Valencia 1975-1980

Y = numero de defunciones por cancer de prostata en ese perıodo.

X1 = proporcion de la poblacion de mas de 40 anos.

X2 = nivel de nitratos en el suministro de agua potable.

MUNICIPIO N◦ de

Nombre habit. Y X1 X2

Ademuz 1545 1 0.590 11

Ador 1256 5 0.494 16

Adzaneta de Albaida 1364 0 0.427 18

Agullent 2016 0 0.358 8

Alaquas 23728 5 0.324 78

Albaida 5573 3 0.387 8

Albal 8139 4 0.360 17

Albalat de la Ribera 3594 2 0.422 76

Albalat dels Sorells 567 8 0.414 60

Albalat dels Tarongers 3657 0 0.534 32

Alberique 8971 1 0.429 28

Alborache 821 0 0.439 12

Alboraya 10786 4 0.392 42

Albuixech 3005 0 0.470 66

Alcasser 6586 4 0.387 91

. . .

Definicion de GLM

Un GLM se compone con una distribucion concreta de la familia exponencial, los re-

gresores que determinan el predictor lineal y la funcion vınculo, monotona y diferenciable,

que define la relacion entre la media y el predictor lineal. Estas componentes caracterizan

el modelo y permiten una gran flexibilidad en la construccion del mismo. Ademas, la

distribucion empleada puede tener un parametro secundario, denominado parametro de

29

dispersion, que afecta a la variabilidad. Algunos ejemplos de GLM son tan importantes

como la regresion logıstica o la regresion de Poisson, ademas del propio modelo lineal

normal.

Conjunto de variables aleatorias independientes y1, y2, . . . , yn con funcion de densidad,

o funcion de probabilidad, que puede escribirse como:

p(yi | θi, φ) = exp{yiθi − b(θi)

ai(φ)+ c(yi, φ)}

donde:

θi es el parametro natural o canonico

φ es un parametro adicional de escala o dispersion

ai(·), b(·) y c(·) son funciones especıficas

Si φ es conocido este es un modelo de la familia exponencial lineal

Si φ es desconocido es un modelo de dispersion exponencial

Componentes del GLM

Queremos modelizar µi = E[yi] en terminos del predictor lineal β′xi formado con un

conjunto de p covariables

β′xi = β0 + β1x1i + . . . + βpx

pi

Las componentes que determinan un GLM son:

1 Conjunto de n variables respuesta independientes, de una distribucion de la familia

exponencial

2 Un vector de parametros β y una matriz del modelo X, determinando el predictor

lineal de cada variable β′xi

3 Una funcion vınculo monotona y diferenciable que define la relacion entre µi y su

predictor lineal

g(µi) = β′xi

30

La funcion vınculo permite modelizar distintas relaciones entre µ y el predictor lineal.

El vınculo natural o canonico es aquel que es igual a la funcion que define el parametro

natural o canonico de esa distribucion. Por tanto, θ = β′x

Los vınculos mas usuales son:

� logit log π1−π

� probit Φ−1(π)

� complementario log-log log[− log(1− π)]

� identidad µ

� inverso −1/µ

� logaritmo log µ

� raiz cuadrada√

µ

La eleccion del vınculo depende de la familia de distribuciones, del tipo de respuestas

y de la aplicacion.

Ejemplos

Distribucion N(µ, σ2) Gamma(λ, ν) Bi(n, π) Po(λ)

E[y] = µ λν

nπ λ

vınculo g(µ) = µ − 1µ

= − νλ

log µn−µ

= log π1−π

log λ

(identidad) (inverso) (logit) (logaritmo)

b(θ) = θ2/2 − log(−θ) n log(1 + eθ) eθ

a(φ) = σ2 1λ

1 1

Otros vınculos: logaritmo identidad probit identidad

raiz cuadrada logaritmo compl. log-log raiz cuadrada

Parametro de dispersion

Con frecuencia, el termino ai(φ) es de la forma φ/ωi, donde ωi es un peso.

Si los datos no son agrupados, ωi = 1

31

Si las variables respuesta expresan promedios, ωi = ni

Si son la suma de ni respuestas individuales, ωi = 1/ni

La sobredispersion es un fenomeno que ocurre en aplicaciones con distribuciones con

varianza poco flexible, como Binomial y Poisson. Al anadir un parametro de dispersion

φ, se modifica la varianza

V[y] = a(φ)b′′(θ)

Puede representar una heterogeneidad no observada o una correlacion positiva entre

respuestas individuales. Tambien se denomina extravarianza.

2. Estimacion de un GLM

La estimacion de los parametros de un GLM puede realizarse por maxima verosimili-

tud, mediante el metodo Scoring de Fisher. Equivale a resolver iterativamente un proble-

ma de mınimos cuadrados ponderados. Si el parametro de dispersion es desconocido, su

estimacion previa es necesaria para el procedimiento anterior.

Maxima verosimilitud

El logaritmo de la verosimilitud de θ para las observaciones y es

l(θ | y) =n∑

i=1

yiθi − b(θi)

ai(φ)+

n∑i=1

c(yi, φ)

Nuestro principal interes es la estimacion de β. El estimador maximo verosımil de cada

βj anula la derivada de l

∂l

∂βj

=n∑

i=1

(yi − µi)xij

V[yi]g′(µi)

En general, estas ecuaciones de estimacion no se pueden resolver directamente. Su solu-

cion puede aproximarse por procedimientos iterativos, empleando la esperanza de

las segundas derivadas

E

[∂2l

∂βj∂βk

]=

n∑i=1

xijxik

V[yi]g′(µi)2

32

Metodo Scoring de Fisher

El Algoritmo de Newton-Raphson es un procedimiento iterativo a partir de una esti-

macion inicial β0:

βr+1 = βr − [D2βl(βr)]−1Dβl(βr)

donde Dβl(βr) es el vector de primeras derivadas de l, y D2βl(βr) la matriz de segundas

derivadas, evaluadas en βr.

El Metodo Scoring de Fisher consiste en sustituir D2βl(βr) por su valor esperado.

E

[∂2l

∂βj∂βk

]=

n∑i=1

xijxik

V[yi]g′(µi)2

Equivale a resolver iterativamente un problema de mınimos cuadrados ponderados. La

sucesion {βr} converge al estimador maximo verosımil de β.

Estimacion del parametro de dispersion

Si φ no es conocido, es necesario usar una estimacion para el calculo de V[yi] en el

procedimiento anterior.

Cuando ai(φ) = φ/ωi, la expresion de la varianza

V[yi] = ai(φ)b′′(θi)

proporciona un estimador consistente de φ a partir de una estimacion de β

φ =1

n− p− 1

n∑i=1

ωi(yi − µi)2

b′′(θi)

Para la normal, el estimador de la varianza del modelo de regresion lineal es la suma de

cuadrados residual

σ2 =1

n− p− 1

n∑i=1

(yi − µi)2

3. Seleccion del mejor modelo GLM

La adecuacion de un modelo GLM a un problema se determina comparandolo con el

modelo saturado, que tiene la misma forma que el ajustado pero con tantos parametros

33

como observaciones. La desviacion del GLM es la principal medida de bondad de ajuste y

esta basada en el estadıstico de cociente de verosimilitudes de ambos modelos. La seleccion

entre modelos encajados se realiza analizando la diferencia entre sus desviaciones.

Desviacion

Determinaremos la adecuacion del modelo comparandolo con el modelo saturado. El

modelo saturado es el que tiene la misma forma que el ajustado, pero con tantos paramet-

ros como observaciones.

La Desviacion escalada es obtenida con el estadıstico cociente de verosimilitudes

S = −2[l(β | y, φ)− l(β | y, φ)]

con β el EMV del modelo saturado.

En terminos del parametro natural es

S = 2n∑

i=1

yi(θi − θi)− b(θi) + b(θi)

ai(φ)

Cuando φ es conocido, la desviacion escalada mide cuanto se desvıa el modelo de los

datos. :]

Si el modelo se ajusta bien a los datos, la distribucion aproximada de la desviacion escalada

es

S ∼ χ2(n− p− 1)

La Desviacion (no escalada) se define por

D(y, µ) = φS

Si ai(φ) = φ/ωi, equivale a

2n∑

i=1

ωi[yi(θi − θi)− b(θi) + b(θi)]

La desviacion es la suma de las discrepancias para cada uno de los datos

D(y, µ) =n∑

i=1

di(yi, µi)

34

La desviacion de un modelo razonable con q parametros permite estimar φ mediante

φ = D/(n− q)

debido a que la esperanza aproximada de S es igual a n− q, los grados de libertad de la

distribucion χ2

Seleccion entre modelos encajados

La desviacion es util para comparar el ajuste de dos modelos encajados.

Un modelo M1 con q1 parametros esta encajado en otro M2 con q2 parametros (q1 < q2)

si son de la misma forma y las covariables de M1 estan contenidas en las de M2.

La necesidad de los q2 − q1 parametros adicionales se contrasta con un test χ2. Si D1

y D2 son las desviaciones de dos modelos encajados con buen ajuste,

(D1 −D2)/φ ∼ χ2(q2 − q1)

Si φ tiene que ser estimado, puede hacerse el contraste con un test F, usando

(D1 −D2)(n− q2)

(q2 − q1)D2

∼ F(q2 − q1, n− q2)

4. Analisis de residuos

El analisis de los residuos obtenidos con el modelo ajustado proporciona una valoracion

de las discrepancias con los datos observados. Estos residuos son claves en la determinacion

de la necesidad de incorporar elementos espaciales en el modelo.

El residuo de cada dato mide la discrepancia entre el valor observado y el pronosticado

por el modelo.

Residuos de Pearson: Generalizacion inmediata de los residuos habituales para datos

normales

rPi =

yi − µi√b′′(θi)

35

Residuos de desviacion: Es la contribucion de esa observacion a la desviacion escal-

ada

rDi = signo(yi − µi)

√di/φ

Residuos por exclusion: Es el residuo de ese punto para el modelo ajustado al excluir

esa observacion. Pueden calcularse residuos por exclusion de Pearson y de desviacion.

Estimacion del modelo para la mortalidad por cancer de prostata en Valencia.

Parametros estimados

MODELO β0 β1 β2

tasas const. -7.172

edad -9.925 5.208

nitratos -7.876 1.23e-3

edad y nit. -10.152 5.539 2.09e-3

Diferencias entre las desviaciones de los modelos encajados.

const. edad nit. comp.

tasas const. 849.8

edad 488* 361.8

nitratos 443* — 406.8

edad y nit. 495.9* 7.9* 52.9* 353.9

Todas significativas con α = 0,01.

36

Tema 6.- Modelos jerarquicos Bayesianos

1. Introduccion.

a) Combinacion de informacion

b) Modelo lineal con efectos aleatorios

c) Extra-varianza de Poisson

2. Definicion de modelo jerarquico

a) Enfoque frecuentista

b) Enfoque Bayesiano

3. Ejemplos de modelos jerarquicos

a) Modelo lineal jerarquico

b) Datos de conteo

4. Procesos espaciales

a) Modelo Gaussiano espacial jerarquico

b) Modelos espaciales para datos de conteo

5. Inferencia Bayesiana en modelos jerarquicos

a) Inferencia Bayesiana

b) Simulacion MCMC

c) Seleccion del modelo

Los modelos jerarquicos son modelos probabilısticos para colecciones de variables formu-

lados como combinaciones de diversas componentes denominadas niveles, capas o eta-

pas. Esta estrategia es especialmente util en la construccion de modelos complejos como

los que surgen en las ciencias ambientales. El desarrollo de modelos como secuencia de

distribuciones condicionales permite enlazar modelos provenientes de diferentes ciencias,

combinando las fuentes de informacion y empleando las relaciones entre las variables.

El modelo lineal con efectos aleatorios ilustra intuitivamente la nocion de jerarquıa en

el modelo, permitiendo introducir los diferentes elementos, las relaciones entre los terminos

y el analisis en los diferentes niveles. Ası mismo, varios ejemplos concretos pueden clarificar

la aparicion de fuentes de variabilidad habituales en los problemas medioambientales,

37

como los errores en las mediciones, la falacia ecologica y la agrupacion espacial o temporal,

entre otras. De forma similar, puede ilustrarse la necesidad de incorporar efectos aleatorios

en la regresion de Poisson para anadir variabilidad al modelo. Esta situacion es conocida

como sobredispersion o extra-varianza de Poisson.

La construccion de un modelo jerarquico como encadenamiento de dependencias a

traves de las distribuciones condicionales presenta un gran atractivo para la modelizacion

por su flexibilidad. La terminologıa para designar los elementos de un modelo jerarquico di-

fiere segun el enfoque empleado, frecuentista o Bayesiano. Desde una perspectiva Bayesiana,

se consideran variables aleatorias tanto las observaciones como los parametros. Para el

enfoque frecuentista solo las observaciones provienen de variables aleatorias, considerando

variables latentes desconocidas, pero potencialmente observables, en las etapas interme-

dias.

Varias familias de modelos jerarquicos permiten concretar las posibles especificaciones

de las componentes y establecer una amplia baterıa de modelos. Obviamente, el modelo

lineal jerarquico constituye el primer caso a destacar. Su generalizacion al considerar ob-

servaciones de distribuciones de familia exponencial conduce al modelo lineal generalizado

jerarquico. Su aplicacion a un problema con datos de conteo puede ejemplificarse mediante

el modelo Poisson-Gamma para introducir la extra-varianza.

La incorporacion de asociacion espacial en alguna de las capas conduce a un proceso

espacial jerarquico. Dicha asociacion espacial puede venir modelizada mediante un proceso

espacial continuo, un campo aleatorio markoviano o un proceso puntual. La inclusion de

un modelo autonormal genera un modelo Gaussiano espacial jerarquico, que esta siendo

ampliamente utilizado tanto con observaciones continuas como discretas. En concreto,

destaca el problema de suavizacion de mapas de riesgo de enfermedad, que puede ser

empleado para estudiar las complicaciones que conlleva el analisis de estos modelos con

estructura compleja.

La inferencia en modelos jerarquicos puede realizarse mediante maxima verosimili-

tud, pero con frecuencia dicha verosimilitud no es totalmente conocida. La metodologıa

Bayesiana ha extendido el uso de los modelos jerarquicos gracias a que la distribucion final

puede ser muestreada por metodos MCMC. No obstante, diversas dificultades practicas

deben tenerse en cuenta para llegar a conclusiones adecuadas. La seleccion entre modelos

jerarquicos alternativos tambien es una cuestion difıcil, ya que habitualmente no son mod-

elos encajados, teniendo capas con diferente numero de parametros ocultos. El criterio de

informacion de desviacion (DIC) pretende compararlos atendiendo a su bondad de ajuste

y a su complejidad.

Unidad IV. Geoestadıstica basada enmodelos

Tema 7. Inferencia Bayesiana para el modelo lineal Gaussiano

Tema 8. Modelos Lineales Generalizados con estructura espacial

El termino Geoestadıstica basada en modelos se acuno por Diggle, Tawn y Moyeed

(1998) para denominar la aplicacion de modelos estocasticos parametricos explıcitos y

metodos formales de inferencia en problemas geoestadısticos.

El principal interes por formalizar estadısticamente la teorıa del kriging esta en la

adaptacion a situaciones inadecuadas para los metodos clasicos, tanto la generalizacion

a problemas con respuesta no Gaussiana, como la incorporacion de fuentes de variacion

que eran ignoradas o difıcilmente incorporadas (variograma, efectos aleatorios, errores en

covariables, ...).

La complejidad de las estructuras estocasticas que se derivan a partir de esta formu-

lacion general dificulta la realizacion de la inferencia del modelo. El planteamiento como

modelos jerarquicos permite la Inferencia Bayesiana gracias a los metodos MCMC.

38

39

Tema 7.- Inferencia Bayesiana para el modelo linealGaussiano

1. Formulacion

a) Formulacion estadıstica del kriging

b) Formulacion como modelo jerarquico

2. Parametros de correlacion fijos

a) Distribucion previa

b) Distribucion posterior

c) Distribucion predictiva

3. Incertidumbre en los parametros de correlacion

a) Distribucion previa

b) Distribuciones posterior y predictiva

El analisis geoestadıstico mas sencillo consiste en la estimacion de los parametros del

modelo y la sustitucion de dichas estimaciones en las ecuaciones del predictor como si

fueran los verdaderos valores. Esto tiende a ser optimista en el sentido en que conduce a

una subestimacion de la incertidumbre de prediccion, ignorando la variabilidad entre las

estimaciones de los parametros y los verdaderos valores desconocidos. No obstante, esta

es la aproximacion mas ampliamente utilizada denominada habitualmente como kriging,

y es defendible en situaciones en las que la variacion de los parametros del modelo en

unos rangos razonables produzca cambios pequenos en las varianzas de prediccion.

La inferencia Bayesiana trata los parametros del modelo como variables aleatorias,

sin hacer distinciones formales entre la estimacion y la prediccion. Esto proporciona una

forma natural de incorporar la incertidumbre en los parametros en el analisis predictivo.

40

1. Formulacion

Formulacion estadıstica del kriging

Una formulacion estadıstica basica del proceso estocastico espacial empleado para

realizar el kriging universal puede ser:

Z ∼ N(µ, σ2H(φ) + τ 2I)

donde µ = Xβ recoge la variabilidad a gran escala, H es una matriz de correlaciones

indexada por el parametro φ, τ 2 es la pepita y σ2 es el alfeizar parcial (valor del alfeizar

menos la pepita).

Recopilando los parametros del modelo en el vector θ = (β, σ2, τ 2, φ), el analisis

Bayesiano requiere la asignacion de una distribucion previa p(θ). La estimacion de los

parametros se obtiene a partir de la distribucion posterior

p(θ | z) ∝ f(z | θ)p(θ).

Formulacion como modelo jerarquico

Utilizaremos una formulacion jerarquica del modelo escribiendo como primer nivel la

distribucion condicional de la respuesta Z dados los parametros θ y un vector de efectos

espaciales W :

Z | θ,W ∼ N(µ + W, τ 2I)

donde µ = Xβ recoge la variabilidad a gran escala.

En el segundo nivel, la especificacion de W es la de una distribucion normal multivari-

ante con matriz de covarianzas expresada como funcion parametrica de la distancia entre

pares de puntos

W | σ2, φ ∼ N(0, σ2H(φ))

donde H es una matriz de correlaciones indexada por el parametro φ.

El modelo es equivalente al anterior, pero ofrece ventajas computacionales al realizar

la simulacion.

41

2. Parametros de correlacion fijos

Inicialmente hay que considerar la situacion simplificada con τ 2 = 0 y φ fijo.

Distribucion previa

Para un valor de φ fijo, la familia conjugada para (β, σ2) es la Normal-χ2-escalada-

inversa:

[β | σ2, φ] ∼ N(mb, σ2Vb)

[σ2 | φ] ∼ χ2ScI(nσ, S

2σ)

donde una χ2-escalada-inversa tiene una densidad de la forma

f(z) ∝ z−(nσ/2+1)exp(−nσS2σ/(2z)), z > 0.

Una previa no informativa empleada a menudo en el analisis Bayesiano de modelos

lineales es π(β, σ2) ∝ 1/σ2.

Distribucion posterior

Para una previa Nχ2ScI la distribucion posterior es de nuevo una Normal-χ2-escalada-

inversa, combinando la informacion previa con la proporcionada por los datos a traves de

su estructura de correlaciones.

Para la previa no informativa 1/σ2, se obtiene la distribucion posterior a partir de la

expresion de la Nχ2ScI simplificando algunos terminos por 0.

Distribucion predictiva

La distribucion predictiva en puntos no observados es una t multivariante, para ambos

tipos de distribucion previa. La diferencia con la prediccion clasica en forma de Normal

multivariante se debe a la incertidumbre sobre la varianza representada por el alfeizar.

42

3. Incertidumbre en los parametros de correlacion

La presencia de incertidumbre en el rango y en la pepita, conlleva dificultades com-

putacionales mayores. La evaluacion de la matriz H(φ) para cualquier valor posible de φ

conlleva un enorme esfuerzo de calculo.

Distribucion previa

En la practica puede paliarse el problema computacional eligiendo distribuciones pre-

vias discretas para el rango y la pepita relativa τ 2rel = τ 2/σ2. En concreto, el uso de

discretas uniformes para φ y τ 2rel representa la situacion no informativa.

Distribuciones posterior y predictiva

Estas previas discretas conllevan la simplificacion de las integrales intratables en sumas

de expresiones presentadas en la seccion anterior, ponderadas por la distribucion posterior

de φ y τ 2rel.

Para simular muestras de la distribucion posterior del vector de parametros θ basta

con muestrear de los valores posibles de φ y τ 2rel y, condicionado a estos valores, muestrear

de la Nχ2ScI para β y σ2.

En el caso de la predictiva, pueden calcularse los momentos de la t multivariante para

cada valor de φ y τ 2rel, y calcular la suma ponderada con la posterior simulada de estos

parametros.

A pesar de la simplificacion mediante el empleo de las previas discretas, el tiempo

computacional debido a la simulacion de las distribuciones posterior y predictiva puede

ser considerable.

43

Tema 8.- Modelos Lineales Generalizados con estruc-tura espacial

1. Fundamentos teoricos

2. Prediccion

3. Inferencia Bayesiana

4. Aplicacion con datos discretos

a) GLSM Binomial

b) GLSM Poisson

1. Fundamentos teoricos

En algunas situaciones se obtienen mediciones que no pueden ser modelizadas de for-

ma natural empleando una distribucion normal. Esto ocurre cuando las observaciones

son dicotomicas, o un conteo de casos, o incluso tratandose de variables continuas pero

asimetricas. Para estas ultimas, en ocasiones una transformacion adecuada puede propor-

cionar respuestas aproximadamente normales, pero sera necesario verificar la condicion

de estacionariedad sobre el proceso transformado.

Los Modelos Lineales Generalizados (GLM) se definen por un conjunto de respuestas

independientes de una distribucion de una familia exponencial, dotando de forma lineal a

una funcion enlace de la esperanza. Una importante extension es el Modelo Mixto Lineal

Generalizado (GLMM), que incorpora en el predictor lineal un conjunto de variables

latentes. Cuando estas variables latentes provienen de un proceso espacial se obtiene un

Modelo Espacial Lineal Generalizado (GLSM)

Asumiremos que el proceso espacial latente es Gaussiano. De esta forma el modelo

de kriging habitual es un GLSM con respuesta normal. Ademas esta estructura de mod-

elizacion encaja con la construccion del modelo jerarquico descrito en el tema anterior.

44

2. Prediccion

La expresion de la verosimilitud en forma cerrada solo es posible como integral multi-

dimensional. Los metodos de calculo numerico para aproximar dicha integral y evaluar

las ecuaciones de prediccion pueden dar resultados imprecisos en este contexto. Pero los

metodos MCMC proporcionan una solucion posible.

Asumiendo conocidos los parametros del modelo, el algoritmo de Langevin-Hastings

truncado ha sido propuesto para realizar de forma eficiente la simulacion del modelo.

3. Inferencia Bayesiana

Para realizar inferencia sobre los parametros del modelo, es necesario establecer dis-

tribuciones previas adecuadas. Tomando τ 2 y φ como fijos, la eleccion inicial para la

previa de β y σ2 es la Normal-χ2-escalada-inversa. De esta forma las posteriores para

estos parametros son del mismo tipo, y la marginal del proceso es una distribucion t mul-

tivariante. Para realizar la prediccion sera necesario emplear un procedimiento MCMC

como en el caso anterior.

No es ahora una buena eleccion de la previa para σ2 utilizar la inversa 1/σ2, ya que el

resultado es una distribucion posterior impropia.

La incorporacion de la incertidumbre en el rango presenta una enorme dificultad com-

putacionalal tener que evaluar H(φ) dentro del algoritmo de simulacion. Este altısimo

consumo de tiempo se puede paliar empleando una distribucion previa discreta para φ.

La inclusion de la pepita requiere una atencion especial. Para hacerlo de forma co-

herente, independientemente de la distribucion de respuesta, se incluye en el predictor

lineal un efecto aleatorio con normales independientes de media 0 y varianza τ 2. Aquı, en

contraste con el caso Gaussiano, puede diferenciarse entre la variabilidad a microescala

proporcionada por este termino y la variabilidad del error inducida por el mecanismo de

muestreo segun el tipo de respuesta.

El procedimiento inferencial no es alterado, pero se deben emplear distribuciones pre-

vias discretas para τ 2 y φ.

45

4. Aplicacion con datos discretos

El contexto de aplicacion de los GLSM mas interesante es la modelizacion de obser-

vaciones discretas, tales como respuestas binarias o conteos. Ambas situaciones pueden

analizarse empleando en el primer nivel las distribuciones Binomial y Poisson respectiva-

mente.

GLSM Binomial

El GLSM para datos binomiales se construye de forma jerarquica a partir de un con-

junto de localizaciones, tamanos experimentales y respuestas (si, ni, zi), escribiendo como

primer nivel la distribucion condicional de la respuesta Zi dados los parametros θ y los

efectos aleatorios espaciales Wi y no espaciales Ui:

Zi | θ,Wi, Ui ∼ Binomial(ni, pi)

donde logit(pi) = Xβ + Ui + Wi.

En el segundo nivel, la especificacion de W es la de una distribucion normal multi-

variante

W | σ2, φ ∼ N(0, σ2H(φ))

y las variables Ui son normales independientes

Ui | τ 2 ∼ N(0, τ 2)

modelizando la forma del variograma y la pepita respectivamente.

GLSM Poisson

Para datos de conteos es habitual emplear una distribucion de Poisson. El GLSM con

respuesta de Poisson se caracteriza por un primer nivel con distribucion condicional de la

respuesta Zi dados los parametros θ y los efectos aleatorios espaciales Wi y no espaciales

Ui:

Zi | θ,Wi, Ui ∼ Poisson(tiλi)

donde ti es una medida del espacio en el que se realiza el conteo, que puede ser tiempo, area

o poblacion de referencia. La modelizacion mediante el logaritmo de λi permite introducir

en el predictor lineal los elementos necesarios log(λi) = Xβ + Ui + Wi. Estos terminos

son definidos en el segundo nivel de forma similar al caso binomial.

estad´ıstica espacial en epidemiolog´ıa y medio ambiente · pdf...

Documents