estad´ıstica espacial en epidemiolog´ıa y medio ambiente · pdf...
TRANSCRIPT
Estadıstica Espacial en
Epidemiologıa y Medio Ambiente
Antonio Lopez Quılez
Primavera, 2006
Estadıstica Espacial en
Epidemiologıa y Medio Ambiente
Curso de Doctorado
Programa: Estadıstica y Optimizacion
Creditos: 3
Curso: 2005-2006
Profesor: Antonio Lopez Quılez
Dept. d’Estadıstica i Investigacio Operativa
Universitat de Valencia
Objetivos
Establecer la problematica del analisis estadıstico de la variabilidad espacial inherente
a los problemas con datos epidemiologicos y medioambientales. Introducir al estudiante
en los rudimentos de la Estadıstica Espacial de modo que entienda sus objetivos, asimile
sus lıneas argumentales basicas y sea capaz de aplicar algunos de los modelos de uso mas
frecuente. Analizar la aplicacion de la Geoestadıstica en el ambito de la Epidemiologıa
y en el del Medio Ambiente. Presentar la metodologıa aplicable al contexto, tanto desde
una perspectiva frecuentista como Bayesiana.
Programa
Unidad I. Introduccion ( Duracion: 0.3 creditos)
Tema 1.- Estadıstica, Epidemiologıa y Medio Ambiente.
Epidemiologıa. Ciencias Ambientales. Variabilidad espacial. Estudios observacionales.
Datos epidemiologicos y medioambientales. Modelizacion estadıstica. Futuro de la
Estadıstica Espacial.
Unidad II. Geoestadıstica (Duracion: 1.2 creditos)
Tema 2.- Procesos continuos estacionarios.
Procesos estocasticos espaciales. Estacionariedad. Estacionariedad de los incremen-
tos. Modelos de variograma.
3
Tema 3.- Estimacion del variograma.
Estimacion empırica del variograma. Estimacion parametrica de modelos de vari-
ograma. Validacion cruzada del variograma ajustado.
Tema 4.- Prediccion espacial.
Suavizacion e interpolacion. Kriging ordinario. Kriging universal. Kriging pulido por
la mediana. Cokriging.
Unidad III. Modelos de estructura compleja (Duracion: 0.6 creditos)
Tema 5.- Modelos Lineales Generalizados.
Definicion de Modelo Lineal Generalizado (GLM). Estimacion de un GLM. Seleccion
del mejor modelo GLM. Analisis de residuos.
Tema 6.- Modelos jerarquicos Bayesianos.
Introduccion. Definicion de modelo jerarquico. Ejemplos de modelos jerarquicos. Pro-
cesos espaciales. Inferencia Bayesiana en modelos jerarquicos.
Unidad IV. Geoestadıstica basada en modelos (Duracion: 0.9 creditos)
Tema 7.- Inferencia Bayesiana para el modelo lineal Gaussiano.
Formulacion. Parametros de correlacion fijos. Incertidumbre en los parametros de
correlacion.
Tema 8.- Modelos Lineales Generalizados con estructura espacial.
Fundamentos teoricos. Prediccion. Inferencia Bayesiana. Aplicacion con datos dis-
cretos.
Metodo de evaluacion
La evaluacion se compone de la resolucion de ejercicios propuestos en las clases practi-
cas y la elaboracion de un trabajo aplicado con datos de un problema concreto, que
se propondra a la vista de los intereses concretos de los estudiantes en la materia y su
formacion anterior.
4
Bibliografıa
Banerjee, S., Carlin, B.P. y Gelfand, A.E. (2004). Hierarchical Modeling and Analysis
for Spatial Data. Chapman & Hall, Boca Raton.
Christensen, O.F. y Ribeiro Jr., P.J. (2002) geoRglm: A package for Generalised Linear
Spatial Models. R-NEWS Vol 2, No 2.
http://cran.r-project.org/doc/Rnews
Cressie, N. (1993). Statistics for spatial data, segunda edicion. John Wiley and Sons,
New York.
Diggle, P.J., Tawn, J.A. y Moyeed, R.A. (1998). Model-based Geostatistics (con dis-
cusion). Applied Statistics, 47:299-350.
Diggle, P.J., Ribeiro, P.J. y Christensen, O.F. (2003). An introduction to Model-based
Geostatistics. En Spatial Statistics and Computational Methods, ed. J. Moller, Springer
Verlag, New York.
Goovaerts, P. (1997). Geostatistics for Natural Resources Evaluation. Oxford University
Press, New York.
Ripley, B. D. (1981). Spatial Statistics. John Wiley and Sons, New York.
R Development Core Team (2000). An introduction to R.
http://cran.r-project.org.
Ribeiro, P. J. y Diggle, P. J. (2000). geoR/geoS: functions for geostatistical analysis
using R or S-PLUS. Technical Report ST-99-09, version revisada. Department of
Mathematics and Statistics, Lancaster University.
http://www.maths.lancs.ac.uk/∼ribeiro/geoS.html.
Ribeiro Jr., P. J. y Diggle, P. J. (2001) geoR: A package for geostatistical analysis. R-
NEWS Vol 1, No 2.
http://cran.r-project.org/doc/Rnews
Venables, W. N. y Ripley, B. D. (1999). Modern Applied Statistics with S-PLUS, tercera
edicion. Springer, New York.
http://www.stats.ox.ac.uk/pub/MASS3.
Waller, L. A. y Gotway, C. A. (2004). Applied Spatial Statistics for Public Health Data.
John Wiley and Sons, Hoboken, New Jersey.
Unidad I. Introduccion
Tema 1. Estadıstica, Epidemiologıa y Medio Ambiente
La primera parte del programa esta destinada a introducir la materia, justificar su
importancia y motivar la estructura del programa. El tema considerado pretende cubrir
este objetivo, planteando la conexion obligada entre la Estadıstica Espacial y los estudios
epidemiologicos y medioambientales.
5
6
Tema 1.- Estadıstica, Epidemiologıa y Medio Ambi-ente
1. Epidemiologıa
2. Ciencias Ambientales
3. Variabilidad espacial
4. Estudios observacionales
5. Datos epidemiologicos y medioambientales
6. Modelizacion estadıstica
7. Futuro de la Estadıstica Espacial
Vivimos en un mundo cambiante y lleno de contrastes. La salud, la riqueza y el bi-
enestar han aumentado en muchas regiones del planeta. La esperanza de vida ha crecido
de forma espectacular. La condicion social de muchas personas ha mejorado gracias al
acceso a servicios sociales y de salud, medios de comunicacion y de entretenimiento. Sin
embargo, todo esto ocurre en medio de los daninos efectos de las emisiones toxicas y
los vertidos contaminantes con los que estropeamos nuestro entorno. Es preocupante la
contaminacion del suelo, del aire y del agua, los riesgos que conllevan las emisiones ra-
dioactivas, el calentamiento global del planeta y el efecto invernadero, la contaminacion
de la cadena alimenticia y el agotamiento de los recursos naturales. La aparicion de nuevas
enfermedades o el crecimiento de la incidencia de algunas de ellas son consecuencia di-
recta de los cambios tecnologicos y socioeconomicos de nuestra sociedad. Es evidente la
necesidad de comprometerse seriamente con la salud de las personas y de nuestro Medio
Ambiente.
Los problemas relacionados con el Medio Ambiente surgen de las ciencias naturales y
de la vida de forma mas complicada y mas urgente cada dıa. Conforme crece la poblacion
humana, debemos entender mejor el entorno en que vivimos y nuestro efecto sobre el.
Las agresiones medioambientales no respetan fronteras polıticas artificiales, aunque son
generalmente los gobiernos los que fijan las polıticas ambientales. Los cientıficos de todos
los contextos, incluyendo los estadısticos, tienen que jugar un papel importante para
proporcionar a los gobiernos una adecuada descripcion del equilibrio medioambiental,
mediante un analisis imparcial de nuestra salud ecologica.
7
Tambien los problemas de Salud Publica transcienden, gracias al movimiento de per-
sonas y mercancıas, hasta situaciones globalizadas. Problemas como los generados por la
gripe asiatica o el ”mal de las vacas locas”han puesto en alerta los sistemas de preven-
cion y vigilancia de todo el mundo. Los paıses europeos unen esfuerzos y criterios para
establecer sistemas de analisis de la salud publica y detectar problemas epidemiologicos.
En esta preocupacion estan inmersas la administracion nacional, la autonomica y la local,
con competencias repartidas.
1. Epidemiologıa
La Epidemiologıa se interesa por la distribucion y las causas de salud y enfermedad
en las poblaciones. Su campo de interes inicial fue el de las enfermedades contagiosas,
pero actualmente se extiende a las enfermedades cronicas, a la biologıa humana, a los
metodos de diagnostico y tratamiento, a los ensayos terapeuticos de medicamentos, a los
metodos pronosticos e incluso a la administracion de los servicios de salud. Los princi-
pios, las tecnicas y las aplicaciones de la epidemiologıa contemporanea se basan en el
concepto que entiende la salud como el producto de las interacciones entre el hombre y
su medio. La demografıa, la diversidad geografica, las caracterısticas socioeconomicas, los
habitos de vida y las intervenciones sanitarias, entre otros factores, determinan el riesgo
de enfermedad.
2. Ciencias Ambientales
El Medio Ambiente es el conjunto de circunstancias fısicas que rodean a un organismo,
y la Ecologıa es la ciencia que estudia la relacion de un organismo con su entorno, es decir,
con su medio ambiente. Ası pues, la nocion de proximidad en el espacio esta implıcita o
explıcitamente presente en todas las Ciencias Ambientales. La proximidad es una nocion
relativa, dependiente de la escala espacial de la investigacion cientıfica. La ubicacion de un
almacen de residuos toxicos puede afectar a un vecindario de varios kilometros cuadrados;
una planta termica puede alterar toda una extensa region, a menudo altamente poblada;
y un incremento del efecto invernadero puede tener un impacto global sobre el clima.
Pero dicho impacto global se experimenta a nivel local, modificando aspectos concretos.
Una cantidad como la temperatura media global es un resumen poco informativo de como
puede afectar en nuestras vidas diarias el calentamiento del planeta.
El campo de trabajo en un estudio medioambiental es interdisciplinario, por cuan-
to pueden intervenir diferentes ciencias: ecologıa, epidemiologıa, agricultura, toxicologıa,
8
geologıa, oceanografıa o meteorologıa, entre otras. La colaboracion entre ellas esta con-
siguiendo entender y describir las complejas interacciones existentes entre los seres vivos
y el medio en que vivimos.
3. Variabilidad Espacial
La variabilidad espacial esta omnipresente en cualquier investigacion epidemiologica
y/o ambiental. Su estudio es un area relativamente nueva dentro de la Estadıstica. La Es-
tadıstica Espacial fue brevemente esbozada por R.A. Fisher en su investigacion estadıstica
aplicada a la agricultura. Fisher en los anos 30 escribio:
Tras seleccionar el area, habitualmente no tenemos otra guıa que el hecho
ampliamente verificable de que las parcelas mas proximas son normalmente
mas parecidas, en terminos de produccion de la cosecha, que aquellas que estan
mas alejadas.
Este es el punto crucial: modelizar la variabilidad espacial o eliminarla. La aleator-
izacion espacial ha tenido un impacto directo sobre el desarrollo de cultivos resistentes,
productivos y adaptados al tipo de suelo y a las condiciones climatologicas.
La distribucion aleatorizada de los tratamientos en las parcelas justifica realizar un
analisis de la varianza a fin de contrastar las diferencias entre dichos tratamientos. Sin
embargo, controlar el sesgo de esta forma implica pagar un precio en terminos de la
eficiencia estadıstica del analisis.
4. Estudios Observacionales
Desafortunadamente, en los estudios medioambientales no suele ser posible realizar
un riguroso diseno del experimento. La situacion cambia cuando pasamos de estudiar
plantas a analizar organismos y fenomenos moviles. Su movilidad esta en relacion con
una mayor diversidad genetica, de forma que, como unidades experimentales, presentan
una mayor heterogeneidad. Los experimentos de toxicologıa controlados en el laboratorio
intentan evitar este problema, aunque la variabilidad entre los humanos produce enormes
dificultades en el analisis de nuevos tratamientos en las ciencias medicas.
Una segunda consecuencia de la experimentacion con unidades moviles es que la movil-
idad es parte de su naturaleza, haciendolos difıcil de encontrar, de rastrear, e incluso de
9
medir. Las componentes basicas del diseno de experimentos, es decir, agrupacion, aleator-
izacion y replicacion, no suelen estar disponibles para el investigador. Incluso cuando uno
es capaz de agrupar los sujetos por edad y sexo, puede que un factor genetico descono-
cido determine como un paciente respondera a un tratamiento determinado. En estudios
epidemiologicos, se pueden seleccionar controles equilibrados con los casos, pero los casos
no son asignados aleatoriamente a las distintas zonas. La duplicacion de ensayos quımicos
permite valorar el error de medida en un estudio sobre la contaminacion atmosferica, pero
una investigacion de sus efectos sobre la salud no admite la replicacion.
Ası pues, en vez de un cuidadoso diseno de experimentos, nos enfrentamos a problemas
planteados sobre estudios observacionales. A menudo una unica observacion constituye
toda la informacion disponible.
5. Datos Epidemiologicos y Medioambientales
Los problemas epidemiologicos y medioambientales vienen relacionados con observa-
ciones espaciales de distinta ındole. Los datos son continuos o discretos, estan agregados
espacialmente o son observaciones individuales en puntos del espacio, sus localizaciones se
encuentran dispuestas de forma regular o irregular, e incluso, estas localizaciones provienen
de una region espacial continua o de un conjunto discreto.
Los datos espaciales se pueden clasificar en tres grupos fundamentales segun el contex-
to de observacion del que provienen: observaciones de un fenomeno continuo en el espacio,
datos en una red fija de localizaciones y sucesos que ocurren en el espacio proporcionando
un conjunto aleatorio de puntos llamado patron puntual. Estos tipos de datos diferenci-
ados dan origen a formas distintas de modelizacion y, por tanto, de analisis estadıstico.
Ejemplos de cada clase de datos, destacando los elementos diferenciadores, motivan el
estudio de las tres situaciones. La modelizacion estadıstica de los problemas epidemiologi-
cos y medioambientales conlleva la adecuada incorporacion de estos fenomenos y de las
relaciones de dependencia espacial que puedan existir entre las observaciones.
6. Modelizacion Estadıstica
El analisis estadıstico puede intentar salvar las dificultades creadas por la carencia de
diseno experimental mediante el estudio de la variabilidad. El investigador puede aventu-
rar cuales son las posibles causas de esta variabilidad, pero un modelo adecuado deberıa
describir la situacion real estudiada. Ası, un estudio de un fenomeno meteorologico con-
10
creto deberıa involucrar sus relaciones fısicas con la presion atmosferica y los vientos, pero
esto requiere la incorporacion al modelo de componentes espaciales, e incluso temporales.
La presencia de la dimension espacial en los problemas epidemiologicos y medioam-
bientales exige la creacion y el desarrollo de un marco estadıstico que permita inferir
adecuadamente sobre los procesos y sus parametros de interes. Los datos espaciales son
habitualmente dependientes entre sı y requieren modelos espaciales que recojan su es-
tructura de interrelaciones. Esta modelizacion y su inferencia no son siempre faciles de
realizar, pero esto no significa que sean inviables.
Una consideracion adicional sobre el comportamiento de los modelos estadısticos espa-
ciales es la cuestion del nivel de agregacion espacial. Los vecindarios se agrupan en barrios,
municipios, comarcas, provincias y estados. Pero los datos pueden ser recogidos a un nivel
de agregacion y las covariables a otro, e incluso las decisiones polıticas pueden tomarse
a un tercer nivel distinto. El cambio de nivel de agregacion espacial puede conducir a
conclusiones completamente diferentes. Este fenomeno es denominado en la literatura
epidemiologica como falacia ecologica, y en geografıa como problema de unidad de area
modificable. En Estadıstica se conoce en el contexto del analisis de datos categoricos como
paradoja de Simpson. No es un problema facil de resolver y requiere un cuidado especial
en cualquier problema epidemiologico y medioambiental.
7. Futuro de la Estadıstica Espacial
El empleo de tecnicas estadısticas en Epidemiologıa es habitual desde sus inicios.
Recientemente se ha acunado el termino Epidemiologıa Espacial referido a diferentes
topicos sobre el estudio de la dispersion espacial de enfermedades, incluyendo la cartografıa
de enfermedades, la deteccion de agrupaciones de casos, el analisis ecologico, etc. El interes
creciente en esta materia ha motivado la publicacion de libros monograficos y la aparicion
de numeros especiales sobre esta cuestion en revistas cientıficas prestigiosas.
El campo de la Estadıstica Medioambiental es relativamente joven. El termino “envi-
ronmetrics” ha alcanzado cierto reconocimiento recientemente gracias a la existencia de
varias revistas cientıficas casi completamente dedicadas a la materia (Environmetrics pub-
licada por la International Environmetrics Society y Wiley; Ecological and Environmental
Statistics publicada por Kluwer, y Journal of Agricultural, Biological and Environmen-
tal Statistics publicada por la American Statistical Association). Tambien las principales
revistas de Estadıstica han recogido importantes contribuciones durante las ultimas dos
decadas. En estos momentos, algunas de las principales sociedades cientıficas tienen una
seccion dedicada a este campo. El desarrollo de nuevas metodologıas y aplicaciones se
11
vera fomentado por este interes manifiesto.
Conforme avanzan los anos, parecen aumentar las posibilidades para analizar estadısti-
camente problemas epidemiologicos y medioambientales de gran complejidad, con datos
multivariantes de naturaleza espacial y temporal. Los metodos de Monte Carlo por cade-
nas de Markov (MCMC) proporcionan una herramienta para analizar estas situaciones
que ha propiciado el rapido desarrollo de la Estadıstica Espacial en la ultima decada
del siglo XX. A pesar de ello, todavıa quedan muchas cuestiones pendientes. La comu-
nidad cientıfica debate sobre la complejidad de los modelos y la fiabilidad de las tecnicas
empleadas.
El tiempo es una componente importante en cualquier estudio cientıfico dinamico.
Ası, la modelizacion de aspectos meteorologicos o del desarrollo y evolucion de epidemias
requiere de modelos espacio-temporales. Gran parte de la investigacion actual se esta en-
focando en esta direccion.
Destaca la necesidad de crear una amplia baterıa de herramientas estadısticas para
describir, analizar y controlar el estado de un sistema ecologico. En particular, es impre-
scindible el desarrollo de software adecuado. En los proximos anos, tanto los organismos
publicos como las empresas privadas necesitaran un gran numero de profesionales espe-
cializados capaces de utilizar e interpretar dichas tecnicas.
Unidad II. Geoestadıstica
Tema 2. Procesos continuos estacionarios
Tema 3. Estimacion del variograma
Tema 4. Prediccion espacial
La Geoestadıstica es un termino que se acuno en los anos 50 para denominar a las
tecnicas estadısticas aplicadas al analisis geografico. Su desarrollo, en esa decada y en la
siguiente, se debe a su aplicacion a la ingenierıa de minas, para predecir las reservas de
mineral a partir de observaciones espacialmente distribuidas en una region.
Hay una gran variedad de problemas que pueden resolverse utilizando metodos geoes-
tadısticos. La caracterıstica comun a todos ellos es que los datos pueden verse como una
realizacion, habitualmente parcial, de un proceso estocastico sobre una region espacial
continua. Matheron (1963) denomina esta situacion como problema de variables regional-
izadas enfatizando la naturaleza espacial continua del conjunto de ındices.
La clave fundamental en la modelizacion de la relacion espacial en el proceso es el
variograma que sera objeto de modelizacion y estimacion para describir adecuadamente
el fenomeno observado. El segundo tema de la unidad esta dedicado a esta cuestion.
El objetivo principal en la aplicacion de la geoestadıstica es habitualmente la prediccion
en un punto o en un conjunto de puntos de la region observada. La tecnica de prediccion
espacial mas empleada es el kriging, por lo que tiene un papel principal en el ultimo tema
de la unidad.
12
13
Tema 2.- Procesos continuos estacionarios
1. Procesos estocasticos espaciales
a) Funcion de covarianza
2. Estacionariedad
a) Estacionariedad estricta
b) Estacionariedad de segundo orden
c) Correlograma
3. Estacionariedad de los incrementos
a) Estacionariedad intrınseca
b) Variograma
c) Isotropıa
4. Modelos de variograma
a) Efecto pepita, rango y alfeizar
b) Modelos isotropicos
c) Modelos anisotropicos
1. Procesos estocasticos espaciales
La formulacion basica de un proceso estocastico se concreta a la situacion espacial
tomando como conjunto de ındices una determinada region continua D del espacio.
{Z(s) : s ∈ D}
Funcion de covarianza
La principal caracterıstica de interes para el estudio espacial es la funcion de covari-
anza, que determina, para cada par de puntos, la covarianza entre las variables aleatorias
correspondientes.
Cov(Z(s1), Z(s2))
14
2. Estacionariedad
La prediccion es posible si el proceso tiene, en algun aspecto, un comportamiento
estable en toda la region de estudio.
Estacionariedad estricta
La estacionariedad estricta es una condicion muy fuerte y poco habitual, pues es-
tablece que las distribuciones de probabilidad conjunta permanezcan invariables ante una
traslacion.
Fs1+h,...,sm+h(z1, . . . , zm) ≡ Fs1,...,sm(z1, . . . , zm)
Estacionariedad de segundo orden
Una condicion menos exigente es la estacionariedad de segundo orden, o estacionar-
iedad debil, que conlleva que la esperanza sea constante y que la funcion de covarianza
sea invariante por traslacion.
E(Z(s)) = µ,∀s ∈ D
Cov(Z(s1), Z(s2)) = C(s1 − s2),∀s1, s2 ∈ D
De esta forma, la funcion de covarianza de un proceso estacionario se puede expresar
en funcion del vector de diferencia entre los puntos. A la funcion C(·) se le denomina
covariograma.
Correlograma
Igualmente, se define el correlograma, o funcion de autocorrelacion, que para cada
vector proporciona la correlacion entre las variables de dos puntos separados por ese
vector.
3. Estacionariedad de los incrementos
Una perspectiva diferente de la estacionariedad se obtiene al estudiar la variabilidad
de los incrementos del proceso.
15
Estacionariedad intrınseca
La propiedad de estacionariedad intrınseca se verifica si la varianza de las diferencias
entre las variables en dos puntos depende unicamente del vector que los separa.
V ar(Z(s1)− Z(s2)) = 2γ(s1 − s2),∀s1, s2 ∈ D
Esta condicion es mas debil que la estacionariedad de segundo orden y se emplea habit-
ualmente en la modelizacion geoestadıstica.
Variograma
Se define ası el variograma como la funcion 2γ de dicho vector s1 − s2. A la funcion γ
se le denomina semivariograma.
Isotropıa
Por otro lado, un proceso intrınsecamente estacionario es isotropico si el variograma
depende del vector a traves de su longitud h = ‖s1 − s2‖, sin importar la direccion. Se
denomina proceso homogeneo a un proceso intrınsecamente estacionario e isotropico.
4. Modelos de variograma
Para realizar una prediccion de un proceso intrınsecamente estacionario es conveniente
modelizar su variograma mediante una funcion semidefinida negativa. Habitualmente se
emplea la mitad del variograma, que se denomina semivariograma.
Efecto pepita, rango y alfeizar
Varios elementos aparecen diferenciados en el semivariograma: la pepita, el alfeizar y
el rango.
Se denomina efecto pepita, termino extraıdo de la aplicacion a la minerıa, a la
situacion en que el variograma no tiende a 0 al acercarse al origen. Esto puede ser
16
debido al error de medida o a la variacion a muy pequena escala.
lımh→0
γ(h) = c0 > 0
De forma logica, un semivariograma crece con la distancia, recogiendo el fenomeno
de que el proceso es similar en puntos proximos, hasta que se estabiliza en un valor
llamado alfeizar que expresa la variabilidad entre puntos distantes.
lımh→∞
γ(h) = cs > 0
El rango es la distancia hs a la que se alcanza el alfeizar, γ(h) = cs,∀h > hs.
Modelos isotropicos
Entre los muchos modelos isotropicos de semivariograma que se han propuesto, los
mas empleados son el lineal, esferico, exponencial, cuadratico racional, ondulado, po-
tencial y Gaussiano. Estos constituyen una amplia baterıa representativa de diferentes
comportamientos de los procesos espaciales.
Modelos anisotropicos
Los modelos anisotropicos permiten acercarse a situaciones en las que la direccion es
fundamental en el fenomeno estudiado.
17
Tema 3.- Estimacion del variograma
1. Estimacion empırica del variograma
a) Metodo de los momentos
b) Agrupacion y rango del variograma
c) Estimadores robustos
2. Estimacion parametrica de modelos de variograma
a) Maxima verosimilitud
b) Maxima verosimilitud restringida
c) Mınima norma cuadratica
d) Mınimos cuadrados
3. Validacion cruzada del variograma ajustado
1. Estimacion empırica del variograma
Metodo de los momentos
La estimacion del variograma mas sencilla puede obtenerse por el metodo de los mo-
mentos, proporcionando para cada vector su estimador mediante la varianza muestral de
la diferencia del proceso entre los pares de puntos separados por ese vector.
2γ(h) =1
|N(h)|∑N(h)
(Z(si)− Z(sj))2,
donde
N(h) = {(si, sj) : si − sj = h; i, j = 1, . . . , n}.
En la practica, la estimacion se realiza permitiendo cierta region de tolerancia alrededor
del vector. Las regiones de tolerancia deben ser tan pequenas como se pueda, pero con el
numero de pares suficiente para realizar una estimacion estable.
18
Agrupacion y rango del variograma
Algunas cuestiones de ındole practico surgen sobre el nivel de agrupacion y el rango
de estimacion posible, que pueden ser ilustradas con varios ejemplos.
Estimadores robustos
Una objecion a este estimador del variograma es su inestabilidad ante la presencia de
valores extremos, por lo que se han propuesto diferentes estimadores robustos mediante
la introduccion de un factor corrector del sesgo o el uso de la mediana.
2γ(h) =
1
|N(h)|∑N(h)
|Z(si)− Z(sj)|1/2
4
/
(0,457 +
0,494
|N(h)|
)
2γ(h) =[med
{|Z(si)− Z(sj)|1/2 : si, sj) ∈ N(h)
}]4/B(h)
donde B(h) es un factor corrector del sesgo que tiende asintoticamente a 0.457.
2. Estimacion parametrica de modelos de variograma
La estimacion obtenida del variograma no puede ser usada directamente para la predic-
cion espacial, pues no es necesariamente semidefinida negativa. Hay que buscar un modelo
valido de semivariograma que se aproxime a la dependencia espacial encontrada por el
semivariograma empırico, seleccionando, de las familias expuestas en el tema anterior,
aquella que mejor describa el comportamiento observado. La estimacion de los paramet-
ros puede realizarse por diferentes metodos como los de maxima verosimilitud, maxi-
ma verosimilitud restringida, mınima norma cuadratica, mınimos cuadrados y mınimos
cuadrados generalizados, presentando cada uno de ellos ventajas e inconvenientes.
3. Validacion cruzada del variograma ajustado
El diagnostico del variograma ajustado puede realizarse mediante validacion cruzada.
Esto permite valorar la capacidad del variograma para describir la variabilidad del prob-
lema estudiado. Tambien puede determinarse la influencia de una observacion concreta.
Para ello, el procedimiento consiste en estimar el variograma sin esa observacion, predecir
el proceso en ese punto y compararlo con lo realmente observado. La validacion cruzada
19
se emplea tambien para comparar el impacto de distintos modelos sobre los resultados de
la prediccion y para estimar el error de prediccion.
20
Tema 4.- Prediccion espacial
1. Suavizacion e interpolacion
a) Escalas de variacion
b) Superficies de tendencia
2. Kriging ordinario
a) Formulacion
b) Mejor predictor lineal insesgado
c) Efecto de los parametros del variograma y su estimacion
3. Kriging universal
a) Formulacion
b) Prediccion
c) Estimacion de los parametros de la media
d) Kriging en bloques
4. Kriging pulido por la mediana
a) Formulacion
b) Algoritmo de estimacion
c) Estimacion de la tendencia espacial
5. Cokriging
El objetivo final de los estudios medioambientales es frecuentemente la prediccion sobre
la region espacial completa. Para ello, la modelizacion y estimacion de la variabilidad del
proceso, analizada en el tema anterior, constituyen una herramienta fundamental para
valorar el error producido por la prediccion.
1. Suavizacion e interpolacion
A partir de los datos observados en diferentes puntos, varios metodos consiguen una
superficie interpolada que pasa por estas observaciones. Pero la posible presencia de error
en la medicion o de distorsion del proceso hace que la interpolacion sea poco util. En
cambio, la obtencion de una superficie suave que se aproxime a los datos proporciona un
modelo global que intenta recoger las principales caracterısticas del fenomeno estudiado.
21
Escalas de variacion
Para obtener una suavizacion, es importante distinguir entre las diferentes escalas de
variacion presentes en el problema, componiendo un modelo que contemple la incertidum-
bre espacial global, o variacion a gran escala, y el comportamiento local, o variacion a
pequena escala,
Z(s) = Y (s) + ε(s).
Superficies de tendencia
Entre las tecnicas para calcular estas superficies suavizadas cabe destacar las medias
moviles y las superficies de tendencia. Las medias moviles pueden ser empleadas como en
las series temporales y ofrecen para cada punto una ponderacion local de las observaciones
proximas. Las superficies de tendencia son una generalizacion a mayor dimension del
ajuste de curvas por mınimos cuadrados. Pueden ser consideradas como un primer filtro
que recoge la variacion a gran escala.
El ajuste de superficies de tendencia mediante regresion polinomial de las coordenadas
obtiene una forma suavizada del comportamiento global de los datos analizados. Se trata
de funciones bidimensionales de la forma
f(x, y) =∑
r+s≤p
arsxrys.
Hay varias formas de representar una superficie de tendencia o cualquier otra superficie
obtenida por suavizacion o prediccion del proceso espacial. Se puede utilizar un diagrama
de contorno con las curvas de nivel, o una imagen coloreada de las mismas, ademas de la
grafica tridimensional en perspectiva.
Ademas de su importante papel descriptivo, la eliminacion de la superficie de ten-
dencia facilita el analisis de la variabilidad a pequena escala. Los residuos obtenidos tras
eliminar la tendencia muestran las observaciones espacialmente anomalas. El estudio de la
autocorrelacion espacial de estos residuos determinara la posible necesidad de un analisis
mas detallado de la estructura espacial del problema.
22
2. Kriging ordinario
El metodo de prediccion espacial mas extendido es el kriging, termino acunado en
honor del trabajo del ingeniero de minas D.G. Krige, que consiste en la prediccion lineal
espacial optima empleando un modelo de semivariograma para recoger la estructura de
segundo orden del proceso.
Formulacion
El denominado kriging ordinario consiste en la prediccion lineal insesgada optima,
considerando que el proceso se puede descomponer en la suma de un valor medio fijo y
un proceso intrınsecamente estacionario,
Z(s) = µ + ε(s),
con semivariograma γ(h) conocido.
El predictor lineal del proceso en un punto arbitrario s0 es p(Z; s0) =∑n
i=1 λiZ(si),
donde exigiremos∑n
i=1 λi = 1 para que sea insesgado. Hay una version de kriging denom-
inado kriging simple en la que µ es conocida y los coeficientes λi no estan restringidos a
sumar 1.
El kriging consiste en la determinacion del mejor de estos predictores en el sentido de
que minimice el error cuadratico medio de prediccion,
σ2e ≡ E(Z(s0)− p(Z; s0))
2.
Mejor predictor lineal insesgado (BLUP)
Este predictor se obtiene a traves de la resolucion del sistema de ecuaciones de predic-
cion resultantes de la minimizacion del error cuadratico medio. Puede ser expresado como
pk(Z; s0) =
(γ + 1
(1− 1′Γ−1γ)
1′Γ−11
)′Γ−1Z,
donde γ = (γ(s1 − s0), . . . , γ(sn − s0))′ y Γ es la matriz n × n cuyo elemento (i, j) es
γ(si − sj).
La varianza de prediccion puede expresarse como
σ2k(s0) = γ ′Γ−1γ − (1′Γ−1γ − 1)2/(1′Γ−11).
23
A partir de las expresiones anteriores, podemos construir intervalos de prediccion al
100(1− α) % mediante
pk(Z; s0)± z1−α/2 σk(s0),
utilizando los cuantiles de la normal estandarizada.
Efecto de los parametros del variograma y su estimacion
Hay que prestar especial atencion al efecto que produce sobre el kriging una variacion
en los parametros del variograma, ası como a la necesidad de considerar el error de esti-
macion de dichos parametros como una fuente de variabilidad presente en el analisis. Esto
produce una subestimacion de la varianza del error de prediccion, al no incorporar dicho
error de estimacion.
3. Kriging universal
Formulacion
El kriging universal generaliza el kriging ordinario, permitiendo que el valor medio del
proceso no sea constante, sino una combinacion lineal de funciones conocidas o covariables
ligadas a las mismas localizaciones. De esta forma, el kriging universal incorpora terminos
de regresion y correlacion espacial.
Z(s) = β0 + β1f1(s) + . . . + βpfp(s) + ε(s),
donde las fj(·) son funciones de la localizacion espacial s o variables explicativas asociadas
a los puntos.
El vector de datos Z puede escribirse como
Z = Xβ + ε,
donde X es la matriz n× (p + 1) cuyo elemento (i, j) es fj−1(si).
Prediccion
El predictor lineal insesgado en un punto arbitrario s0 es p(Z; s0) =∑n
i=1 λiZ(si), suje-
to a las restricciones λ′X = x′ para garantizar su insesgadez, con x = (f0(s0), f1(s0), . . . , fp(s0))′.
24
La prediccion optima, que minimiza el error cuadratico medio, se realiza de forma
similar al caso anterior anadiendo tantos coeficientes como terminos de regresion aparecen
en la media. La expresion del predictor resultante es
pk(Z; s0) ={γ + X(X′Γ−1X)−1(x−X′Γ−1γ)
}′Γ−1Z,
La varianza de prediccion puede expresarse como
σ2k(s0) = γ ′Γ−1γ − (x−X′Γ−1γ)′(X′Γ−1X)−1(x−X′Γ−1γ),
y el intervalo de prediccion al 100(1− α) %
pk(Z; s0)± z1−α/2 σk(s0).
Estimacion de los parametros de la media
La estimacion de los parametros de la media se obtiene por mınimos cuadrados gener-
alizados, asumiendo que los datos Z satisfacen un modelo lineal general con E(Z) = Xβ
y V ar(Z) = Σ,
βgls = (X′Σ−1X)−1X′Σ−1Z.
Kriging en bloques
En algunas situaciones se desea predecir el proceso en una pequena zona. El kriging en
bloques realiza esa prediccion modificando las expresiones del kriging universal mediante
integrales que promedian en esa zona tanto el variograma, como las covariables.
4. Kriging pulido por la mediana
Formulacion
El kriging pulido por la mediana constituye una aproximacion diferente al problema de
prediccion espacial. En vez de intentar una identificacion optima del proceso estocastico,
este metodo esta basado en la reconstruccion robusta de una superficie irregular. La idea
basica es la consideracion de un proceso compuesto por una estructura de error y una
25
funcion media desconocida, cuya forma se asume que es la suma de sendas funciones de
las respectivas coordenadas
Z(s) = a + c(x) + r(y) + ε(s), s = (x, y)′ ∈ D.
Si ademas las localizaciones de observacion forman una red regular, podemos denotar el
proceso en terminos de los ındices de fila y columna,
Z(s) = a + cl + rk + ε(s).
Algoritmo de estimacion
La estimacion de esta superficie puede realizarse mediante el algoritmo de pulido por
la mediana basado en el analisis robusto de la varianza. Es un procedimiento iterativo
que proporciona una estimacion de los parametros anteriores, a, cl y rk.
En el caso de que las observaciones no esten dispuestas sobre una red regular, un
metodo aproximado puede aplicarse sobre un mapa de baja resolucion. Este se obtiene
superponiendo un retıculo regular y asignando cada observacion al nodo mas proximo.
El algoritmo de pulido por la mediana aplicado sobre dicho mapa de baja resolucion
proporciona una superficie aproximada del comportamiento medio del proceso.
Estimacion de la tendencia espacial
El procedimiento del kriging pulido por la mediana comprende dos etapas, la esti-
macion y eliminacion de la estructura media de tendencia espacial, y la estimacion de la
estructura de dependencia espacial aplicando kriging ordinario sobre los residuos.
5. Cokriging
Una version multivariante del kriging la proporciona el llamado cokriging. El objetivo
es predecir un vector de valores en cada localizacion de una region a partir de la obser-
vacion en varios puntos, asumiendo que esos fenomenos estan relacionados entre sı. La
construccion del variograma cruzado proporciona la herramienta necesaria para el analisis
de la variabilidad del proceso espacial multivariante.
Unidad III. Modelos de estructuracompleja
Tema 5. Modelos Lineales Generalizados
Tema 6. Modelos jerarquicos Bayesianos
Esta parte del programa esta destinada a establecer las bases formativas sobre las
que se asienta el desarrollo de los temas restantes. Los dos temas considerados pretenden
cubrir este objetivo en los ambitos de dos grandes familias de modelos de gran aplicacion
y relevancia.
Los Modelos Lineales Generalizados se introducen como extension de los Modelos
Lineales y como referencia en modelos espaciales presentados en la siguiente unidad.
Los modelos jerarquicos anaden cierta complejidad a los modelos tradicionales permi-
tiendo la construccion de estructuras flexibles mediante el encadenamiento condicional de
modelos simples. Estan suponiendo la principal herramienta de analisis en problemas en
que varios fenomenos estan interconectados o que tienen variables de muy diversa ındole.
Su auge, no solo en los problemas medioambientales, viene dado por su capacidad de
adaptarse a situaciones complejas y por el desarrollo de tecnicas inferenciales asequibles.
26
27
Tema 5.- Modelos Lineales Generalizados
1. Definicion de Modelo Lineal Generalizado (GLM)
a) Motivacion
b) Definicion
c) Componentes
d) Ejemplos
2. Estimacion de un GLM
a) Maxima verosimilitud
b) Metodo Scoring de Fisher
c) Estimacion del parametro de dispersion
3. Seleccion del mejor modelo GLM
a) Desviacion
b) Seleccion entre modelos encajados
4. Analisis de residuos
Los Modelos Lineales Generalizados (GLM) son una extension de los modelos lineales.
Los GLM comprenden aquellas distribuciones de familia exponencial uniparametrica que
recogen aditivamente los efectos fijos como una transformacion monotona de la media.
Esta amplia familia permite modelizar una gran variedad de situaciones, con observaciones
tanto continuas como discretas.
1. Definicion de Modelo Lineal Generalizado (GLM)
Motivacion
Modelo Lineal General: datos independientes, y1, y2, . . . , yn, normalmente distribuidos.
yi ∼ N(β0 + β1x1i + . . . + βpx
pi , σ
2)
predictor lineal β′xi
28
varianza constante
E[y] = Xβ, V[y] = σ2I
Modelo Lineal Generalizado: datos independientes de una distribucion de la familia expo-
nencial (binomial, Poisson, gamma, . . .).
modeliza E[y] como una funcion no lineal de Xβ.
Ejemplo: Mortalidad por cancer de prostata, Valencia 1975-1980
Y = numero de defunciones por cancer de prostata en ese perıodo.
X1 = proporcion de la poblacion de mas de 40 anos.
X2 = nivel de nitratos en el suministro de agua potable.
MUNICIPIO N◦ de
Nombre habit. Y X1 X2
Ademuz 1545 1 0.590 11
Ador 1256 5 0.494 16
Adzaneta de Albaida 1364 0 0.427 18
Agullent 2016 0 0.358 8
Alaquas 23728 5 0.324 78
Albaida 5573 3 0.387 8
Albal 8139 4 0.360 17
Albalat de la Ribera 3594 2 0.422 76
Albalat dels Sorells 567 8 0.414 60
Albalat dels Tarongers 3657 0 0.534 32
Alberique 8971 1 0.429 28
Alborache 821 0 0.439 12
Alboraya 10786 4 0.392 42
Albuixech 3005 0 0.470 66
Alcasser 6586 4 0.387 91
. . .
Definicion de GLM
Un GLM se compone con una distribucion concreta de la familia exponencial, los re-
gresores que determinan el predictor lineal y la funcion vınculo, monotona y diferenciable,
que define la relacion entre la media y el predictor lineal. Estas componentes caracterizan
el modelo y permiten una gran flexibilidad en la construccion del mismo. Ademas, la
distribucion empleada puede tener un parametro secundario, denominado parametro de
29
dispersion, que afecta a la variabilidad. Algunos ejemplos de GLM son tan importantes
como la regresion logıstica o la regresion de Poisson, ademas del propio modelo lineal
normal.
Conjunto de variables aleatorias independientes y1, y2, . . . , yn con funcion de densidad,
o funcion de probabilidad, que puede escribirse como:
p(yi | θi, φ) = exp{yiθi − b(θi)
ai(φ)+ c(yi, φ)}
donde:
θi es el parametro natural o canonico
φ es un parametro adicional de escala o dispersion
ai(·), b(·) y c(·) son funciones especıficas
Si φ es conocido este es un modelo de la familia exponencial lineal
Si φ es desconocido es un modelo de dispersion exponencial
Componentes del GLM
Queremos modelizar µi = E[yi] en terminos del predictor lineal β′xi formado con un
conjunto de p covariables
β′xi = β0 + β1x1i + . . . + βpx
pi
Las componentes que determinan un GLM son:
1 Conjunto de n variables respuesta independientes, de una distribucion de la familia
exponencial
2 Un vector de parametros β y una matriz del modelo X, determinando el predictor
lineal de cada variable β′xi
3 Una funcion vınculo monotona y diferenciable que define la relacion entre µi y su
predictor lineal
g(µi) = β′xi
30
La funcion vınculo permite modelizar distintas relaciones entre µ y el predictor lineal.
El vınculo natural o canonico es aquel que es igual a la funcion que define el parametro
natural o canonico de esa distribucion. Por tanto, θ = β′x
Los vınculos mas usuales son:
� logit log π1−π
� probit Φ−1(π)
� complementario log-log log[− log(1− π)]
� identidad µ
� inverso −1/µ
� logaritmo log µ
� raiz cuadrada√
µ
La eleccion del vınculo depende de la familia de distribuciones, del tipo de respuestas
y de la aplicacion.
Ejemplos
Distribucion N(µ, σ2) Gamma(λ, ν) Bi(n, π) Po(λ)
E[y] = µ λν
nπ λ
vınculo g(µ) = µ − 1µ
= − νλ
log µn−µ
= log π1−π
log λ
(identidad) (inverso) (logit) (logaritmo)
b(θ) = θ2/2 − log(−θ) n log(1 + eθ) eθ
a(φ) = σ2 1λ
1 1
Otros vınculos: logaritmo identidad probit identidad
raiz cuadrada logaritmo compl. log-log raiz cuadrada
Parametro de dispersion
Con frecuencia, el termino ai(φ) es de la forma φ/ωi, donde ωi es un peso.
Si los datos no son agrupados, ωi = 1
31
Si las variables respuesta expresan promedios, ωi = ni
Si son la suma de ni respuestas individuales, ωi = 1/ni
La sobredispersion es un fenomeno que ocurre en aplicaciones con distribuciones con
varianza poco flexible, como Binomial y Poisson. Al anadir un parametro de dispersion
φ, se modifica la varianza
V[y] = a(φ)b′′(θ)
Puede representar una heterogeneidad no observada o una correlacion positiva entre
respuestas individuales. Tambien se denomina extravarianza.
2. Estimacion de un GLM
La estimacion de los parametros de un GLM puede realizarse por maxima verosimili-
tud, mediante el metodo Scoring de Fisher. Equivale a resolver iterativamente un proble-
ma de mınimos cuadrados ponderados. Si el parametro de dispersion es desconocido, su
estimacion previa es necesaria para el procedimiento anterior.
Maxima verosimilitud
El logaritmo de la verosimilitud de θ para las observaciones y es
l(θ | y) =n∑
i=1
yiθi − b(θi)
ai(φ)+
n∑i=1
c(yi, φ)
Nuestro principal interes es la estimacion de β. El estimador maximo verosımil de cada
βj anula la derivada de l
∂l
∂βj
=n∑
i=1
(yi − µi)xij
V[yi]g′(µi)
En general, estas ecuaciones de estimacion no se pueden resolver directamente. Su solu-
cion puede aproximarse por procedimientos iterativos, empleando la esperanza de
las segundas derivadas
E
[∂2l
∂βj∂βk
]=
n∑i=1
xijxik
V[yi]g′(µi)2
32
Metodo Scoring de Fisher
El Algoritmo de Newton-Raphson es un procedimiento iterativo a partir de una esti-
macion inicial β0:
βr+1 = βr − [D2βl(βr)]−1Dβl(βr)
donde Dβl(βr) es el vector de primeras derivadas de l, y D2βl(βr) la matriz de segundas
derivadas, evaluadas en βr.
El Metodo Scoring de Fisher consiste en sustituir D2βl(βr) por su valor esperado.
E
[∂2l
∂βj∂βk
]=
n∑i=1
xijxik
V[yi]g′(µi)2
Equivale a resolver iterativamente un problema de mınimos cuadrados ponderados. La
sucesion {βr} converge al estimador maximo verosımil de β.
Estimacion del parametro de dispersion
Si φ no es conocido, es necesario usar una estimacion para el calculo de V[yi] en el
procedimiento anterior.
Cuando ai(φ) = φ/ωi, la expresion de la varianza
V[yi] = ai(φ)b′′(θi)
proporciona un estimador consistente de φ a partir de una estimacion de β
φ =1
n− p− 1
n∑i=1
ωi(yi − µi)2
b′′(θi)
Para la normal, el estimador de la varianza del modelo de regresion lineal es la suma de
cuadrados residual
σ2 =1
n− p− 1
n∑i=1
(yi − µi)2
3. Seleccion del mejor modelo GLM
La adecuacion de un modelo GLM a un problema se determina comparandolo con el
modelo saturado, que tiene la misma forma que el ajustado pero con tantos parametros
33
como observaciones. La desviacion del GLM es la principal medida de bondad de ajuste y
esta basada en el estadıstico de cociente de verosimilitudes de ambos modelos. La seleccion
entre modelos encajados se realiza analizando la diferencia entre sus desviaciones.
Desviacion
Determinaremos la adecuacion del modelo comparandolo con el modelo saturado. El
modelo saturado es el que tiene la misma forma que el ajustado, pero con tantos paramet-
ros como observaciones.
La Desviacion escalada es obtenida con el estadıstico cociente de verosimilitudes
S = −2[l(β | y, φ)− l(β | y, φ)]
con β el EMV del modelo saturado.
En terminos del parametro natural es
S = 2n∑
i=1
yi(θi − θi)− b(θi) + b(θi)
ai(φ)
Cuando φ es conocido, la desviacion escalada mide cuanto se desvıa el modelo de los
datos. :]
Si el modelo se ajusta bien a los datos, la distribucion aproximada de la desviacion escalada
es
S ∼ χ2(n− p− 1)
La Desviacion (no escalada) se define por
D(y, µ) = φS
Si ai(φ) = φ/ωi, equivale a
2n∑
i=1
ωi[yi(θi − θi)− b(θi) + b(θi)]
La desviacion es la suma de las discrepancias para cada uno de los datos
D(y, µ) =n∑
i=1
di(yi, µi)
34
La desviacion de un modelo razonable con q parametros permite estimar φ mediante
φ = D/(n− q)
debido a que la esperanza aproximada de S es igual a n− q, los grados de libertad de la
distribucion χ2
Seleccion entre modelos encajados
La desviacion es util para comparar el ajuste de dos modelos encajados.
Un modelo M1 con q1 parametros esta encajado en otro M2 con q2 parametros (q1 < q2)
si son de la misma forma y las covariables de M1 estan contenidas en las de M2.
La necesidad de los q2 − q1 parametros adicionales se contrasta con un test χ2. Si D1
y D2 son las desviaciones de dos modelos encajados con buen ajuste,
(D1 −D2)/φ ∼ χ2(q2 − q1)
Si φ tiene que ser estimado, puede hacerse el contraste con un test F, usando
(D1 −D2)(n− q2)
(q2 − q1)D2
∼ F(q2 − q1, n− q2)
4. Analisis de residuos
El analisis de los residuos obtenidos con el modelo ajustado proporciona una valoracion
de las discrepancias con los datos observados. Estos residuos son claves en la determinacion
de la necesidad de incorporar elementos espaciales en el modelo.
El residuo de cada dato mide la discrepancia entre el valor observado y el pronosticado
por el modelo.
Residuos de Pearson: Generalizacion inmediata de los residuos habituales para datos
normales
rPi =
yi − µi√b′′(θi)
35
Residuos de desviacion: Es la contribucion de esa observacion a la desviacion escal-
ada
rDi = signo(yi − µi)
√di/φ
Residuos por exclusion: Es el residuo de ese punto para el modelo ajustado al excluir
esa observacion. Pueden calcularse residuos por exclusion de Pearson y de desviacion.
Estimacion del modelo para la mortalidad por cancer de prostata en Valencia.
Parametros estimados
MODELO β0 β1 β2
tasas const. -7.172
edad -9.925 5.208
nitratos -7.876 1.23e-3
edad y nit. -10.152 5.539 2.09e-3
Diferencias entre las desviaciones de los modelos encajados.
const. edad nit. comp.
tasas const. 849.8
edad 488* 361.8
nitratos 443* — 406.8
edad y nit. 495.9* 7.9* 52.9* 353.9
Todas significativas con α = 0,01.
36
Tema 6.- Modelos jerarquicos Bayesianos
1. Introduccion.
a) Combinacion de informacion
b) Modelo lineal con efectos aleatorios
c) Extra-varianza de Poisson
2. Definicion de modelo jerarquico
a) Enfoque frecuentista
b) Enfoque Bayesiano
3. Ejemplos de modelos jerarquicos
a) Modelo lineal jerarquico
b) Datos de conteo
4. Procesos espaciales
a) Modelo Gaussiano espacial jerarquico
b) Modelos espaciales para datos de conteo
5. Inferencia Bayesiana en modelos jerarquicos
a) Inferencia Bayesiana
b) Simulacion MCMC
c) Seleccion del modelo
Los modelos jerarquicos son modelos probabilısticos para colecciones de variables formu-
lados como combinaciones de diversas componentes denominadas niveles, capas o eta-
pas. Esta estrategia es especialmente util en la construccion de modelos complejos como
los que surgen en las ciencias ambientales. El desarrollo de modelos como secuencia de
distribuciones condicionales permite enlazar modelos provenientes de diferentes ciencias,
combinando las fuentes de informacion y empleando las relaciones entre las variables.
El modelo lineal con efectos aleatorios ilustra intuitivamente la nocion de jerarquıa en
el modelo, permitiendo introducir los diferentes elementos, las relaciones entre los terminos
y el analisis en los diferentes niveles. Ası mismo, varios ejemplos concretos pueden clarificar
la aparicion de fuentes de variabilidad habituales en los problemas medioambientales,
37
como los errores en las mediciones, la falacia ecologica y la agrupacion espacial o temporal,
entre otras. De forma similar, puede ilustrarse la necesidad de incorporar efectos aleatorios
en la regresion de Poisson para anadir variabilidad al modelo. Esta situacion es conocida
como sobredispersion o extra-varianza de Poisson.
La construccion de un modelo jerarquico como encadenamiento de dependencias a
traves de las distribuciones condicionales presenta un gran atractivo para la modelizacion
por su flexibilidad. La terminologıa para designar los elementos de un modelo jerarquico di-
fiere segun el enfoque empleado, frecuentista o Bayesiano. Desde una perspectiva Bayesiana,
se consideran variables aleatorias tanto las observaciones como los parametros. Para el
enfoque frecuentista solo las observaciones provienen de variables aleatorias, considerando
variables latentes desconocidas, pero potencialmente observables, en las etapas interme-
dias.
Varias familias de modelos jerarquicos permiten concretar las posibles especificaciones
de las componentes y establecer una amplia baterıa de modelos. Obviamente, el modelo
lineal jerarquico constituye el primer caso a destacar. Su generalizacion al considerar ob-
servaciones de distribuciones de familia exponencial conduce al modelo lineal generalizado
jerarquico. Su aplicacion a un problema con datos de conteo puede ejemplificarse mediante
el modelo Poisson-Gamma para introducir la extra-varianza.
La incorporacion de asociacion espacial en alguna de las capas conduce a un proceso
espacial jerarquico. Dicha asociacion espacial puede venir modelizada mediante un proceso
espacial continuo, un campo aleatorio markoviano o un proceso puntual. La inclusion de
un modelo autonormal genera un modelo Gaussiano espacial jerarquico, que esta siendo
ampliamente utilizado tanto con observaciones continuas como discretas. En concreto,
destaca el problema de suavizacion de mapas de riesgo de enfermedad, que puede ser
empleado para estudiar las complicaciones que conlleva el analisis de estos modelos con
estructura compleja.
La inferencia en modelos jerarquicos puede realizarse mediante maxima verosimili-
tud, pero con frecuencia dicha verosimilitud no es totalmente conocida. La metodologıa
Bayesiana ha extendido el uso de los modelos jerarquicos gracias a que la distribucion final
puede ser muestreada por metodos MCMC. No obstante, diversas dificultades practicas
deben tenerse en cuenta para llegar a conclusiones adecuadas. La seleccion entre modelos
jerarquicos alternativos tambien es una cuestion difıcil, ya que habitualmente no son mod-
elos encajados, teniendo capas con diferente numero de parametros ocultos. El criterio de
informacion de desviacion (DIC) pretende compararlos atendiendo a su bondad de ajuste
y a su complejidad.
Unidad IV. Geoestadıstica basada enmodelos
Tema 7. Inferencia Bayesiana para el modelo lineal Gaussiano
Tema 8. Modelos Lineales Generalizados con estructura espacial
El termino Geoestadıstica basada en modelos se acuno por Diggle, Tawn y Moyeed
(1998) para denominar la aplicacion de modelos estocasticos parametricos explıcitos y
metodos formales de inferencia en problemas geoestadısticos.
El principal interes por formalizar estadısticamente la teorıa del kriging esta en la
adaptacion a situaciones inadecuadas para los metodos clasicos, tanto la generalizacion
a problemas con respuesta no Gaussiana, como la incorporacion de fuentes de variacion
que eran ignoradas o difıcilmente incorporadas (variograma, efectos aleatorios, errores en
covariables, ...).
La complejidad de las estructuras estocasticas que se derivan a partir de esta formu-
lacion general dificulta la realizacion de la inferencia del modelo. El planteamiento como
modelos jerarquicos permite la Inferencia Bayesiana gracias a los metodos MCMC.
38
39
Tema 7.- Inferencia Bayesiana para el modelo linealGaussiano
1. Formulacion
a) Formulacion estadıstica del kriging
b) Formulacion como modelo jerarquico
2. Parametros de correlacion fijos
a) Distribucion previa
b) Distribucion posterior
c) Distribucion predictiva
3. Incertidumbre en los parametros de correlacion
a) Distribucion previa
b) Distribuciones posterior y predictiva
El analisis geoestadıstico mas sencillo consiste en la estimacion de los parametros del
modelo y la sustitucion de dichas estimaciones en las ecuaciones del predictor como si
fueran los verdaderos valores. Esto tiende a ser optimista en el sentido en que conduce a
una subestimacion de la incertidumbre de prediccion, ignorando la variabilidad entre las
estimaciones de los parametros y los verdaderos valores desconocidos. No obstante, esta
es la aproximacion mas ampliamente utilizada denominada habitualmente como kriging,
y es defendible en situaciones en las que la variacion de los parametros del modelo en
unos rangos razonables produzca cambios pequenos en las varianzas de prediccion.
La inferencia Bayesiana trata los parametros del modelo como variables aleatorias,
sin hacer distinciones formales entre la estimacion y la prediccion. Esto proporciona una
forma natural de incorporar la incertidumbre en los parametros en el analisis predictivo.
40
1. Formulacion
Formulacion estadıstica del kriging
Una formulacion estadıstica basica del proceso estocastico espacial empleado para
realizar el kriging universal puede ser:
Z ∼ N(µ, σ2H(φ) + τ 2I)
donde µ = Xβ recoge la variabilidad a gran escala, H es una matriz de correlaciones
indexada por el parametro φ, τ 2 es la pepita y σ2 es el alfeizar parcial (valor del alfeizar
menos la pepita).
Recopilando los parametros del modelo en el vector θ = (β, σ2, τ 2, φ), el analisis
Bayesiano requiere la asignacion de una distribucion previa p(θ). La estimacion de los
parametros se obtiene a partir de la distribucion posterior
p(θ | z) ∝ f(z | θ)p(θ).
Formulacion como modelo jerarquico
Utilizaremos una formulacion jerarquica del modelo escribiendo como primer nivel la
distribucion condicional de la respuesta Z dados los parametros θ y un vector de efectos
espaciales W :
Z | θ,W ∼ N(µ + W, τ 2I)
donde µ = Xβ recoge la variabilidad a gran escala.
En el segundo nivel, la especificacion de W es la de una distribucion normal multivari-
ante con matriz de covarianzas expresada como funcion parametrica de la distancia entre
pares de puntos
W | σ2, φ ∼ N(0, σ2H(φ))
donde H es una matriz de correlaciones indexada por el parametro φ.
El modelo es equivalente al anterior, pero ofrece ventajas computacionales al realizar
la simulacion.
41
2. Parametros de correlacion fijos
Inicialmente hay que considerar la situacion simplificada con τ 2 = 0 y φ fijo.
Distribucion previa
Para un valor de φ fijo, la familia conjugada para (β, σ2) es la Normal-χ2-escalada-
inversa:
[β | σ2, φ] ∼ N(mb, σ2Vb)
[σ2 | φ] ∼ χ2ScI(nσ, S
2σ)
donde una χ2-escalada-inversa tiene una densidad de la forma
f(z) ∝ z−(nσ/2+1)exp(−nσS2σ/(2z)), z > 0.
Una previa no informativa empleada a menudo en el analisis Bayesiano de modelos
lineales es π(β, σ2) ∝ 1/σ2.
Distribucion posterior
Para una previa Nχ2ScI la distribucion posterior es de nuevo una Normal-χ2-escalada-
inversa, combinando la informacion previa con la proporcionada por los datos a traves de
su estructura de correlaciones.
Para la previa no informativa 1/σ2, se obtiene la distribucion posterior a partir de la
expresion de la Nχ2ScI simplificando algunos terminos por 0.
Distribucion predictiva
La distribucion predictiva en puntos no observados es una t multivariante, para ambos
tipos de distribucion previa. La diferencia con la prediccion clasica en forma de Normal
multivariante se debe a la incertidumbre sobre la varianza representada por el alfeizar.
42
3. Incertidumbre en los parametros de correlacion
La presencia de incertidumbre en el rango y en la pepita, conlleva dificultades com-
putacionales mayores. La evaluacion de la matriz H(φ) para cualquier valor posible de φ
conlleva un enorme esfuerzo de calculo.
Distribucion previa
En la practica puede paliarse el problema computacional eligiendo distribuciones pre-
vias discretas para el rango y la pepita relativa τ 2rel = τ 2/σ2. En concreto, el uso de
discretas uniformes para φ y τ 2rel representa la situacion no informativa.
Distribuciones posterior y predictiva
Estas previas discretas conllevan la simplificacion de las integrales intratables en sumas
de expresiones presentadas en la seccion anterior, ponderadas por la distribucion posterior
de φ y τ 2rel.
Para simular muestras de la distribucion posterior del vector de parametros θ basta
con muestrear de los valores posibles de φ y τ 2rel y, condicionado a estos valores, muestrear
de la Nχ2ScI para β y σ2.
En el caso de la predictiva, pueden calcularse los momentos de la t multivariante para
cada valor de φ y τ 2rel, y calcular la suma ponderada con la posterior simulada de estos
parametros.
A pesar de la simplificacion mediante el empleo de las previas discretas, el tiempo
computacional debido a la simulacion de las distribuciones posterior y predictiva puede
ser considerable.
43
Tema 8.- Modelos Lineales Generalizados con estruc-tura espacial
1. Fundamentos teoricos
2. Prediccion
3. Inferencia Bayesiana
4. Aplicacion con datos discretos
a) GLSM Binomial
b) GLSM Poisson
1. Fundamentos teoricos
En algunas situaciones se obtienen mediciones que no pueden ser modelizadas de for-
ma natural empleando una distribucion normal. Esto ocurre cuando las observaciones
son dicotomicas, o un conteo de casos, o incluso tratandose de variables continuas pero
asimetricas. Para estas ultimas, en ocasiones una transformacion adecuada puede propor-
cionar respuestas aproximadamente normales, pero sera necesario verificar la condicion
de estacionariedad sobre el proceso transformado.
Los Modelos Lineales Generalizados (GLM) se definen por un conjunto de respuestas
independientes de una distribucion de una familia exponencial, dotando de forma lineal a
una funcion enlace de la esperanza. Una importante extension es el Modelo Mixto Lineal
Generalizado (GLMM), que incorpora en el predictor lineal un conjunto de variables
latentes. Cuando estas variables latentes provienen de un proceso espacial se obtiene un
Modelo Espacial Lineal Generalizado (GLSM)
Asumiremos que el proceso espacial latente es Gaussiano. De esta forma el modelo
de kriging habitual es un GLSM con respuesta normal. Ademas esta estructura de mod-
elizacion encaja con la construccion del modelo jerarquico descrito en el tema anterior.
44
2. Prediccion
La expresion de la verosimilitud en forma cerrada solo es posible como integral multi-
dimensional. Los metodos de calculo numerico para aproximar dicha integral y evaluar
las ecuaciones de prediccion pueden dar resultados imprecisos en este contexto. Pero los
metodos MCMC proporcionan una solucion posible.
Asumiendo conocidos los parametros del modelo, el algoritmo de Langevin-Hastings
truncado ha sido propuesto para realizar de forma eficiente la simulacion del modelo.
3. Inferencia Bayesiana
Para realizar inferencia sobre los parametros del modelo, es necesario establecer dis-
tribuciones previas adecuadas. Tomando τ 2 y φ como fijos, la eleccion inicial para la
previa de β y σ2 es la Normal-χ2-escalada-inversa. De esta forma las posteriores para
estos parametros son del mismo tipo, y la marginal del proceso es una distribucion t mul-
tivariante. Para realizar la prediccion sera necesario emplear un procedimiento MCMC
como en el caso anterior.
No es ahora una buena eleccion de la previa para σ2 utilizar la inversa 1/σ2, ya que el
resultado es una distribucion posterior impropia.
La incorporacion de la incertidumbre en el rango presenta una enorme dificultad com-
putacionalal tener que evaluar H(φ) dentro del algoritmo de simulacion. Este altısimo
consumo de tiempo se puede paliar empleando una distribucion previa discreta para φ.
La inclusion de la pepita requiere una atencion especial. Para hacerlo de forma co-
herente, independientemente de la distribucion de respuesta, se incluye en el predictor
lineal un efecto aleatorio con normales independientes de media 0 y varianza τ 2. Aquı, en
contraste con el caso Gaussiano, puede diferenciarse entre la variabilidad a microescala
proporcionada por este termino y la variabilidad del error inducida por el mecanismo de
muestreo segun el tipo de respuesta.
El procedimiento inferencial no es alterado, pero se deben emplear distribuciones pre-
vias discretas para τ 2 y φ.
45
4. Aplicacion con datos discretos
El contexto de aplicacion de los GLSM mas interesante es la modelizacion de obser-
vaciones discretas, tales como respuestas binarias o conteos. Ambas situaciones pueden
analizarse empleando en el primer nivel las distribuciones Binomial y Poisson respectiva-
mente.
GLSM Binomial
El GLSM para datos binomiales se construye de forma jerarquica a partir de un con-
junto de localizaciones, tamanos experimentales y respuestas (si, ni, zi), escribiendo como
primer nivel la distribucion condicional de la respuesta Zi dados los parametros θ y los
efectos aleatorios espaciales Wi y no espaciales Ui:
Zi | θ,Wi, Ui ∼ Binomial(ni, pi)
donde logit(pi) = Xβ + Ui + Wi.
En el segundo nivel, la especificacion de W es la de una distribucion normal multi-
variante
W | σ2, φ ∼ N(0, σ2H(φ))
y las variables Ui son normales independientes
Ui | τ 2 ∼ N(0, τ 2)
modelizando la forma del variograma y la pepita respectivamente.
GLSM Poisson
Para datos de conteos es habitual emplear una distribucion de Poisson. El GLSM con
respuesta de Poisson se caracteriza por un primer nivel con distribucion condicional de la
respuesta Zi dados los parametros θ y los efectos aleatorios espaciales Wi y no espaciales
Ui:
Zi | θ,Wi, Ui ∼ Poisson(tiλi)
donde ti es una medida del espacio en el que se realiza el conteo, que puede ser tiempo, area
o poblacion de referencia. La modelizacion mediante el logaritmo de λi permite introducir
en el predictor lineal los elementos necesarios log(λi) = Xβ + Ui + Wi. Estos terminos
son definidos en el segundo nivel de forma similar al caso binomial.