evaluacion de resultados clinicos i

Upload: 290971

Post on 07-Jan-2016

221 views

Category:

Documents


0 download

DESCRIPTION

Evaluación de investigaciones clínica

TRANSCRIPT

  • 105

    Evaluacin de resultados clnicos (y III):ndices de Cambio Fiable (ICF) como estimadores del cambio clnicamente significativo

    Clinical outcomes evaluation (III): Reliable ChangeIndex (RCI) as estimator of clinically significant change

    Ioseba Iraurgi Castillo. DeustoSalud. I+D+i en Psicologa Clnica y de la Salud. Universidad de Deusto, Bilbao.

    Resumen: Como hemos visto en artculos previos (Iraurgi, 2009a, 2009b), la significacinestadstica muestra limitaciones para su uso en la investigacin de resultados psicotera-puticos porque se basa en las medias grupales, no proporcionando informacin sobre lavariabilidad individual de los resultados, ni tampoco abordando la significacin clnica. Lasignificacin clnica se refiere a la importancia prctica de cambio del paciente que se pro-duce como consecuencia de la intervencin psicoteraputica. Jacobson y su grupo de tra-bajo (Jacobson, Follette y Revenstorf, 1984; Jacobson y Truax, 1991) han propuesto un mto-do para evaluar la significacin clnica que se basa en la validacin normativa. El ndice deCambio Fiable (ICF) de Jacobson y Truax es un procedimiento para la determinacin de cam-bios clnicamente significativos que proporciona un medio adicional de anlisis a las com-paraciones de medias grupales en la investigacin de resultados teraputicos. Este artcu-lo ofrece una visin general de este procedimiento y la metodologa de validacin clnica.Tambin examina las crticas propuestas al mtodo y las extensiones resultantes que haninspirado. Por ltimo, se ofrece un ejemplo de la aplicacin de los diferentes ICF revisados.

    Palabras clave: Cambio teraputico, ndices de Cambio Fiable, Significacin estadstica,Significacin clnica.

    Summary: As we have seen in previous papers (Iraurgi, 2009a, 2009b), the statistical sig-nificance is seen as limited for use in psychotherapy outcome research because it isbased on group means and does not provide information on individual variability of out-come, nor does it address clinical significance. Clinical significance refers to the practicalimportance of patient change that occurs through psychotherapy. Jacobson and his wor-king group (Jacobson, Follette and Revenstorf, 1984; Jacobson and Truax, 1991) have pro-posed a method for assessing clinical significance that is based on normative validation.The Reliable Change Index (RCI) of Jacobson and Truax is a procedure for determining cli-nically significant change that provides a supplemental means of analysis to group meancomparisons in outcomes research with clinical interventions. This paper provides anoverview of this procedure and its underlying clinical validation methodology. It will alsoexamine criticisms of the method and the resulting extensions these have inspired.Finally, an example of clinical application of the different ICF will be given.

    Key Words: Therapeutic change, Reliable Change Index, Statistical significance, clinicsignificance.

    Norte de salud mental, 2010, vol. VIII, n 36: 105-122.

    170 x 240 pg 103-122 5/3/10 12:14 Pgina 105

  • Con el presente trabajo se completa la triloga deartculos destinados a la evaluacin de resulta-dos teraputicos. Hasta aqu se ha examinado elpapel de la estadstica para delimitar si una pun-tuacin de cambio puede ser atribuida a un efec-to real del factor de estudio o intervencin, ennuestro caso un determinado tratamiento tera-putico, o ha de ser considerada como un posibledesenlace debido al azar (Iraurgi, 2009a).Tambin se ha valorado si el cambio observadoes lo suficientemente importante en magnitudcmo para poder aceptar que tiene importanciaemprica y supone un logro considerable (Iraurgi,2009b). En el mbito teraputico, plantemos quetal logro -de magnitud aceptable y con pocas pro-babilidades de haberse producido por azar- es uncambio importante para la toma de decisiones;pero, es clnicamente significativo?

    Por otra parte, la mayor parte de los procedi-mientos que se han revisado se centran en lavaloracin de los cambios cuando se toma comoreferencia todo un grupo (Iraurgi, 2000; 2009a;2009b). Un grupo de sujetos que recibe un trata-miento, o no, se compara consigo mismo paravalorar si hay un cambio asociado al tratamien-to; o, por el contrario, se produce un cambioespontneo en el caso de que no lo reciban. Obien, dos grupos con tratamientos diferencialesse comparan entre s para valorar cul de ellos esms eficaz o efectivo en el logr de los objetivosteraputicos. No obstante, en la prctica clnicahabitual raramente se comparan grandes gru-pos, o al menos grupos con los suficientes efec-tivos como para lograr las condiciones ptimasde tratamiento estadstico, siendo ms frecuen-te la valoracin de casos individuales. Optamospor los tratamientos que han mostrado su efica-cia y efectividad a travs de estudios controla-dos (ensayos clnicos, estudios naturalsticos deintervencin, etc.) y que, por tanto, se muestrande utilidad en la reduccin de determinada sinto-matologa o logro de un mejor estado de salud.Pero no nos basta con saber que la intervencines eficaz, lo que interesa saber es si dicha inter-vencin funciona en el caso particular de quinse est aplicando, si el receptor de la interven-cin logra mejorar su dolencia o estado de saludde una forma clnicamente relevante. Las pre-guntas que surgen a este respecto son delsiguiente tipo: Cuntos participantes modificansus puntuaciones de forma relevante o clnica-

    mente importante?, cuntos mejoran de formafiable hacia puntuaciones de no severidad?,cul es la diferencia de puntuaciones realmenteaceptable? (Iraurgi, Trujols, Lozano y Gonzlez,2010; Christensen y Mendoza, 1986).

    Para dar respuesta a estas cuestiones se han pro-puesto una serie de criterios y metodologa espe-cfica basada en lo que se ha venido a llamar ndi-ce de Cambio Fiable (ICF, o en su acepcin eningls RCI: Reliable Change Index) o como -en unade sus primeras aproximaciones en castellano-Puntuacin Precisa de Cambio (Pez, Echeburuay Borda, 1993). Se han propuesto varias alternati-vas de esta metodologa (Jacobson y Truax, 1991;Speer, 1992; Speer y Greenbaum, 1995; Hsu,1999; Hageman y Arrindell, 1999), a las cuales nosaproximaremos en la presente seccin. Todasellas tienen como fundamento la propuesta inicialdesarrollada por Jacobson y colaboradores(Jacobson, Follette y Reventorf, 1984, 1986;Jacobson y Truax, 1991; Jacobson, Robers, Berns yMcGlinchey, 1999), el cual ha sido propuesto porSpeer y Grennbaum (1995) como un buen mtodopara calcular el nmero de puntos de cambionecesario que permitiran al clnico decidir conconfianza qu sujetos han experimentado uncambio clnico relevante.

    ndice de Cambio Fiable de Jacobson y Truax (ICFJT)

    La primera aproximacin a una medida del cam-bio clnicamente significativo fue propuesta porJacobson, Follette y Reventorf en 1984, y poste-riormente revisada por Jacobson y Truax (1991)en el ya clebre artculo Clinical significance: Astatistical approach to defining meaningfulchange in psychotherapy research. La descrip-cin del mtodo que se realiza en este epgrafesigue las indicaciones de estos autores en estaltima obra, si bien nos permitiremos la licenciade adaptar algunas cuestiones a los intereses dela presente tesis.

    El mtodo propuesto por Jacobson y Truax, (enadelante nos referiremos a l como ICFJT) con-siste en dos partes diferenciadas: la primeraconsiste en la definicin de los criterios queexpresan qu ha de considerarse como cambioclnico, y la segunda la propuesta de un ndiceestadstico que valor el grado de significacin

    Ioseba Iraurgi Castillo

    106

    170 x 240 pg 103-122 5/3/10 12:14 Pgina 106

  • en la precisin del cambio obtenido. El propsitode esta propuesta era: a) establecer un consensosobre la definicin de cambio clnicamente signi-ficativo que sirviera para ser aplicado a cual-quier trastorno clnico, b. determinar un punto deencuentro entre los profesionales y los usuariosrespecto a lo que supone un cambio clnico enlas expectativas de resultado en psicoterapia, yc. ofrecer un mtodo preciso para la clasificacindel resultado teraputico alcanzado por losreceptores de la intervencin (mejora, sin cam-bios, empeoramiento, etc.) en base a los criteriosdefinidos como clnicamente significativos.

    1.Criterios para la definicin del cambio clnico

    En una entrega anterior (Iraurgi, 2009a) hemoshecho alusin al concepto de significacin clni-ca planteando que es un fenmeno que va msall de clculos aritmticos y est determinadapor el juicio de valor de los distintos protagonis-tas del escenario sanitario, quienes puedeninterpretar la relevancia clnica de forma diferen-te en tanto que cada uno de ellos pueden ponersu(s) objetivo(s) de resultado(s) en opcionesdiversas (p.ej.: el tamao de efecto, el alivio dela dolencia, los costes, la duracin del tratamien-to, la comodidad de la implementacin, el man-tenimiento de la mejora de salud y aceptacindel tratamiento por el paciente, etc.).

    De manera general, se puede plantear que la sig-nificacin clnica de un tratamiento o interven-cin viene determinada por su capacidad paracumplir ciertas normas sobre su eficacia-efectivi-dad establecidas por dichos protagonistas(pacientes, sanitarios, investigadores). No exis-te un consenso al respecto, dado que las vocesson mltiples; pero para su utilizacin prctica, ycon aceptable aprobacin por las distintas par-tes, se han aceptado algunas como las siguien-tes: a) un alto porcentaje de personas tratadasque hayan mejorado con el tratamiento; b) uncambio en el estado de salud que sea reconociblepor las personas que estn alrededor de la perso-na tratada (Kazdin, 1977; Wolf, 1978); c) la elimi-nacin de los signos y sntomas que definen elproblema de salud (Kazdin y Wilson, 1978); d)alcanzar un estado de salud normativo al finalizarla terapia (Kendall, Butcher y Holmbeck, 1999;Nietzel y Trull, 1988); o e) cambios que reduzcan

    significativamente el riesgo de presentar proble-mas de salud (Mavissakalian, 1986).

    Para Jacobson y Truax, el punto de partida en lacontextualizacin de la significacin clnica trasuna intervencin teraputica radica en el cambiohacia los valores de normalidad dentro del reaclnica sometida a intervencin. Es decir, el cam-bio clnicamente significativo se produce cuandose evidencia la recuperacin de un funciona-miento normal de salud, entendiendo normaldesde una conceptualizacin de distribucinpoblacional del fenmeno.

    Tomemos como ejemplo el caso de la valoracinde la calidad de vida como medida de resultadode una determinada intervencin, donde se hautilizado como instrumento de aproximacin adicho concepto el SF-36 (Ware y Sherbourne,1992; Alonso et al, 1998). El SF-36 valora ochodimensiones de calidad de vida relacionada conla salud con una puntuacin terica que oscilaentre 0 (peor salud posible) y 100 (mejor estadode salud posible). De entre ellas, tomaremos ladimensin que hace referencia a la percepcin deSalud General (SG - General Health) como marcode referencia para las explicaciones del procedi-miento del ICFJT. La Figura 1 presenta algunos grfi-cos de distribucin poblacional que nos ayudarnen la descripcin de los criterios propuestos porJacobson y Truax en su modelo.

    El grfico F1A de la Figura 1 representa tres cur-vas de distribucin poblacional. La curva en lneacontinua (en azul) representa el universo pobla-cional: todos los posibles elementos de un con-junto definido. Representara el total de perso-nas de una ciudad, una comunidad o un pas, porejemplo, en el caso de que estuviramos reali-zando una evaluacin sobre la salud percibidaen ese universo. Esta es una distribucin hipot-tica, dado que raramente se llega a poder captu-rar la valoracin de todos los elementos de eseuniverso. A lo sumo se llega a una aproximacina travs de selecciones muestrales -a las cualesllamaremos poblacin general-, que con unmnimo error de estimacin asumible, llegan aser una representacin significativa de lo queocurre en ese universo. Por la ley de los grandesnmeros, se asume que la distribucin de undeterminado fenmeno, en nuestro caso la saludpercibida, se aproxima a una curva normal;

    Evaluacin de resultados clnicos III: ndices de Cambio Fiable (ICF)

    107

    170 x 240 pg 103-122 5/3/10 12:14 Pgina 107

  • habr un porcentaje no muy grande de personasque referirn tener una salud psima, una mayorproporcin que tendrn una salud normal, ade-cuada, y de nuevo un pequeo porcentaje depersonas que manifestarn un estado de saludexcelente. Atendiendo a las puntuaciones en elSF-36, un porcentaje pequeo de personas pre-sentara muy bajas o muy altas puntuaciones, yla gran mayora del universo mostrara puntua-ciones en torno a un valor promedio ms omenos centrado.

    Si la extraccin muestral se obtiene del colectivode personas sanas, es decir, aquellas que no pre-sentan ningn trastorno o enfermedad -al menosen lo que respecta al trastorno de valoracin-,hablaramos de una poblacin funcional, repre-sentada en la Figura 1 por la curva de lnea dis-continua (en verde). Si por el contrario, el estu-dio se realizase exclusivamente con personasque presentan el trastorno o enfermedad deinters nos hallaramos con una poblacin dis-funcional, representada en la Figura 1 por lacurva de lnea punteada (en rojo). En los estu-dios clnicos, como es obvio, se cuenta conmuestras de enfermos -poblaciones disfuncio-nales- ms o menos amplias y, en algunoscasos, se cuenta con datos normativos (Iraurgi,Poo y Markez, 2004). Lo que resulta menos habi-

    Ioseba Iraurgi Castillo

    108

    tual es disponer de poblaciones funcionales, yen ese caso el recurso es acudir a muestras nor-mativas de poblacin general -como se hacomentado previamente obtenidas a travs deencuestas de salud o estudios comunitarios-, lascuales incluyen a personas que pueden presen-tar el trastorno o enfermedad de inters a nivelclnico o subclnico.

    Jacobson y Truax (1991) plantean que el cambioclnicamente significativo se produce cuando elenfermo retorna a un funcionamiento normal, esdecir, cuando puede ser considerado como partede la poblacin funcional. De este modo, tenien-do en cuenta los distintos tipos de poblacionesdescritas y las caractersticas de su distribucinterica, estos autores propusieron tres criterios,y sus correspondientes puntos de corte -repre-sentados por las letras a, b y c en la Figura 1-,para determinar lo que hubiera de considerarsenivel funcional:

    a. El nivel funcional tras el tratamiento, opuntuacin post-test, debe situarse fuerade la amplitud de la poblacin disfuncionalen la direccin de la funcionalidad (reasombreada en rojo, ms a la derecha, delgrfico F1B), entendindose por amplitud ladistancia de dos desviaciones estndar (DE)desde la media (M) de la distribucin. En el

    Figura 1. Estimacin del Punto de Corte en el Modelo de Jacobson y Truax (1991).

    170 x 240 pg 103-122 5/3/10 12:14 Pgina 108

  • caso que estamos tomando como ejemplo,la caracterstica o variable valorada es posi-tiva (calidad de vida, a mayor puntuacinmejor estado) y, por tanto, para estimar elpunto de corte a -a partir del cual ha deconsiderarse alcanzado el nivel funcional-ha de sumarse dos desviaciones estndar ala media (a = MD+2DED). En el caso de que lacaracterstica a valorar fuera negativa, porejemplo, sintomatologa depresiva (a mayorpuntuacin mayor expresin sintomtica),la funcionalidad vendra expresada por pun-tuaciones bajas y, por tanto, el punto decorte se hallara dos desviaciones estndarpor debajo de la media (a = MD2DED).

    b. El nivel funcional tras el tratamiento se sitadentro de la amplitud de la poblacin normal(general) o funcional en la direccin de la dis-funcionalidad, es decir, ha de situarse fueradel rea sombreada en verde, ms a laizquierda, del grfico F1B. En nuestro ejem-plo, al ser la calidad de vida una caractersti-ca positiva, el punto de corte b se logra comoresultado de restar dos DE a la media de lapoblacin funcional (b = MF2DEF), de modoque la puntuacin a alcanzar por una personatras el tratamiento para considerar que sehalla en el nivel funcional ha de ser igual osuperior a b. Contrariamente, si la caracters-tica valorada fuera negativa (depresin) -lasreas funcional y disfuncional de la Figura 1 sehallaran intercambiadas de posicin-, elpunto de corte se calculara mediante la suma(b = MF+2DEF), y, por tanto, la puntuacin delsujeto para ser considerada como funcionalhubiera de ser igual o inferior a b.

    Se ha comentado que la disponibilidad dedatos de distribucin de poblaciones funcio-nales es poco usual y que en su defecto sue-len utilizarse datos de poblacin general.Como tambin ha sido expuesto, en laspoblaciones generales podemos encontrarcasos clnicos y/o subclnicos, por lo que elcriterio de calcular la amplitud a partir dedos DE puede llegar a ser muy riguroso. Aeste respecto, se ha propuesto utilizar el cri-terio de calcular dicha amplitud a partir dela suma o la resta de una desviacin estn-dar (Ware y Kosisnski, 2005), de modo quese obtuviera una mayor probabilidad de

    seleccionar el nivel de funcionalidad de laspersonas sin el problema o trastorno deinters, o, al menos, con puntuacionesmenos disfuncionales.

    c. El nivel funcional tras el tratamiento, o pun-tuacin post-test, ha de ser ms cercano ala media de la distribucin de la poblacinfuncional que a la disfuncional. Este criteriode nivel funcional es el menos arbitrario delos tres y se basa en una probabilidad rela-tiva, que se calcula, bajo el supuesto de queambas distribuciones siguen una ley nor-mal, a partir de la frmula c de la Figura 1,que en el caso de que las DE de ambas dis-tribuciones fueran iguales se calculara deforma ms abreviada mediante la expre-sin: c= (MF+MD)/2. Atendiendo a este cri-terio, una persona que en su puntuacinpost-test vaya ms all que el valor obteni-do de c en la direccin de la funcionalidad,ser ms probable que pertenezca a lapoblacin funcional que a la disfuncional (elrea a la derecha del punto c en el grficoF1B es mayor en la curva de lnea disconti-nua -funcional- que en la curva de lneapunteada -disfuncional-). De este modo,como venimos especificando para los crite-rios previos, si el resultado valorado es detipo positivo (calidad de vida), la personaen su post-test debe alcanzar puntuacionesiguales o superiores al valor c obtenido; enel caso de variables que valoren caracters-ticas negativas (depresin), la personadebe puntuar por debajo del valor obtenidoen el punto de corte c.

    Como puede apreciarse, esta propuesta requierede datos normativos de la poblacin funcional ydisfuncional, las cuales pueden solaparse enmayor (grfico F1B) o menor medida (grficoF1C), pudindose llegar a producir distintos pun-tos de corte para cada uno de los tres criterios.Entonces, cul utilizar?. Jacobson y Truax (1991)hacen las siguientes recomendaciones:

    1. Cuando se dispone de datos normativos deambos tipos de poblacin, funcional y dis-funcional, los criterios b y c son preferi-bles al a, ya que permiten localizar a la per-sona evaluada dentro de la poblacin fun-cional, lo cual corresponde con los objetivos

    Evaluacin de resultados clnicos III: ndices de Cambio Fiable (ICF)

    109

    170 x 240 pg 103-122 5/3/10 12:14 Pgina 109

  • teraputicos a alcanzar: el cambio clnica-mente significativo se produce cuando elenfermo retorna a un funcionamiento nor-mal (Jacobson y Truax, 1991; pp.13), esdecir, cuando puede ser considerado comoparte de la poblacin funcional.

    2. El criterio a es aplicable cuando se carecede normas de poblacin general o funcio-nal. Por lo general, en las evaluaciones clni-cas realizadas respecto a los resultados deuna determinada intervencin contamoscon una acumulacin de casos sometidos ala misma. Este grupo de casos, evaluadosen el pre-test, constituyen una muestra quesi resulta lo suficientemente amplia permiteobtener datos de su distribucin respecto alos cuales se podr localizar el resultado deun sujeto en el post-test, adoptando el cri-terio de nivel funcional si su puntuacin sedesplaza dos desviaciones estndar respec-to de la media del pre-test. No obstante,este criterio resulta muy estricto cuando laspoblaciones se solapan y, adems, puedeofrecer puntuaciones de corte fuera derango cuando la desviacin estndar resul-ta ser mayor que la puntuacin media.

    3. Por su parte, el criterio b resultara el deeleccin cuando no hay solapamiento conla poblacin disfuncional (grfico F1C de laFigura 1), como podra ocurrir con proble-mas de salud muy raros o muy graves. Enel caso de solapamiento entre las distribu-ciones de la poblacin funcional y disfun-

    cional, resultara ser el criterio ms tole-rante, pero en el caso de distribuciones nosolapadas puede llegar a ser demasiadoestricto, de ah que algunos autores hayansugerido que el punto de corte se situ auna desviacin estndar de la media enlugar de a dos (Ware y Kosisnski, 2005).

    4. Por ltimo, el criterio c sera el de eleccincuando las distribuciones de la poblacinfuncional y disfuncional se solapan, situa-cin que ocurre en la mayora de fenmenossociales y problemas de salud. En el caso dela valoracin de la calidad de vida, las per-sonas pertenecientes a la poblacin funcio-nal que puntan ms bajo (hacia la disfun-cionalidad) presentan puntuaciones simila-res a las personas de la poblacin disfuncio-nal que puntan ms alto. Esto es debido aque la poblacin funcional en ocasionesresulta ser una extraccin de la poblacingeneral, y las personas que puntan deforma coincidente con las de la poblacindisfuncional probablemente presentenniveles subclnicos del problema de inters.

    Retomando el ejemplo propuesto al inicio sobrela valoracin de la percepcin de la salud general,consideraremos los datos de poblacin funcionalofrecidos por Anaitua y Quintana (1999) para lapoblacin general de la Comunidad AutnomaVasca (MF= 67,6; DEF= 19,6; nF= 3.949) y losdatos normativos ofrecidos por Iraurgi, Poo yMarkez (2004) sobre una muestra de personascon adiccin a opiceos en tratamiento con meta-dona de la misma comunidad como representa-

    Ioseba Iraurgi Castillo

    110

    Figura 2. Distribucin de poblaciones funcionales y disfuncionales y estimacin de los Puntos de Corte para el caso de valoracinde pacientes con adiccin a opiceos en tratamiento con metadona.

    170 x 240 pg 103-122 5/3/10 12:14 Pgina 110

  • cin de la poblacin disfuncional (MD= 43,9;DED= 26,6; nD= 726). Como se aprecia, las mediasde ambas distribuciones se separan 23,4 puntos,presentando una peor salud general la poblacindisfuncional -pacientes de metadona- que la fun-cional, siendo esta diferencia estadsticamentesignificativa (t= 23,9; p
  • Veamos como es el desarrollo del cmputo, apartir de los datos de nuestro ejemplo, valorandoel caso particular de una persona que en su pre-test obtuvo una puntuacin de 43,9 en la escalade Salud General (SG) del SF-36, y de 67,6 en elpost-test, lo que supone una mejora de 23,7 pun-tos. El primer paso consiste en calcular el ErrorEstndar de Medida, para lo cual es necesariocontar con el coeficiente de fiabilidad de la esca-la (= 0,83) y su desviacin estndar (DE= 26,6),habindose tomado para este ejemplo los valo-res correspondientes a la poblacin disfuncional.Por lo dems, el procedimiento slo requierehacer los cmputos a partir de las frmulas (1) a(3), obtenindose que EEM= 10,9; EED= 15,4 yICFJT= 1,539. Si el ICFJT, en valor absoluto, es igualo superior a 1,96 (valor de las puntuaciones Zque equivale a dos desviaciones estndar),entonces podremos asegurar que el cambio en lapuntuacin en SG lograda por ese sujeto resultafiable. Ntese que los valores pre y post-testasignados al sujeto del ejemplo correspondencon la media de la poblacin disfuncional y la dela poblacin funcional, respectivamente. La dife-rencia de medias entre ambos grupos haba resul-tado estadsticamente significativa (t= 23,9;p
  • Evaluacin de resultados clnicos III: ndices de Cambio Fiable (ICF)

    113

    ocupe la puntuacin del post-test en la distri-bucin poblacional funcional o disfuncional.

    d. Se catalogar como Deteriorado aquelloscasos en los que el cambio sea significativosegn el ICFJT y se produzca en el sentidocontrario al esperado tras la intervencin,de modo que sus puntuaciones tornenhacia valores de mayor disfuncionalidad.

    e. Cabra una quinta posibilidad, aunque cons-tituira un subtipo de la clasificacin dedeterioro, y hara referencia a un cambiodesde una situacin funcional -una vezlograda tras el tratamiento- a una posicinde disfuncionalidad, en cuyo caso estara-mos ante una Recada (aparicin de sinto-matologa durante la fase de remisin orecuperacin) y/o de una Recurrencia (rea-paricin del problema de salud despus dela recuperacin).

    En la Tabla 1 se presentan de modo prototpicouna serie de circunstancias que especificaransituaciones posibles de cambio atendiendo a loscriterios propuestos por Jacobson y Truax (1991).En la segunda y tercera columnas se presentanlas puntuaciones de partida (pre) y finales(post), y en la cuarta columna la diferencia entreambas (postpre). Las puntuaciones positivasindican que la puntuacin final es mayor que lainicial y, por tanto, ha habido una progresin dela funcionalidad, indicativo de una mejora clni-ca; el valor cero revela que ambas puntuacionesson la misma y, por tanto, no ha habido cambio

    alguno siendo indicativo de estabilidad; por lti-mo, puntuaciones negativas son reflejo de unamenor puntuacin final respecto a la inicial y, portanto, expresin de un empeoramiento de lasituacin clnica. La simple sustraccin de laspuntuaciones nos orienta en la decisin del sen-tido del cambio. En la sexta columna se presentael punto de corte, ya calculado previamente,para delimitar el nivel funcional a partir del cualse considerar el logro alcanzado como clnica-mente relevante. El valor c se sita en 57,4 pun-tos en la escala SG del SF-36. Puntuaciones igua-les o superiores a este valor clasificar el estadodel individuo como funcional, puntuaciones infe-riores como disfuncional. En la stima columnaaparecen los valores del ICFJT y en la octavacolumna su interpretacin: valores superiores a1,96 sern consideradas como estadsticamentesignificativos. Por ltimo, la novena columnaofrece la clasificacin de cada caso en funcin dela combinacin de los criterios de Jacobson yTruax (1991). Se plantean hasta un total de 15situaciones, nueve de las cuales representan unresultado de No cambio, si bien se especificandiferentes contextos en los que se evidenciaofreciendo una mayor riqueza descriptiva.Tambin se recogen las posibles situaciones decambio fiable, entre las que se produce un cam-bio clnicamente significativo (una respuesta deRecuperacin -caso10-), o bien de cambio sinalcanzar la funcionalidad (dos situaciones deMejora -casos 11 y 12- y tres de Deterioro -casos 1 a 3-).

    Figura 3. Modelo de Kupler (1991) sobre las fases del tratamiento. (Tomado de Echeburua y Corral, 2001)

    170 x 240 pg 103-122 5/3/10 12:14 Pgina 113

  • Ioseba Iraurgi Castillo

    114

    Tabla 1. Toma de decisiones en la valoracin del cambio clnico a partir de las puntuaciones obtenidas endimensin de Salud General (SG) del SF-36 (datos ficticios). Combinacin de los mtodosbasados en el Sentido del Cambio (SC), la Puntuacin de Corte (PC) y el ndice de Cambio Fiable(ICFJT) caso Puntuacin HG del SF-36 Puntuacin de Cambio Sentido Cambio Punto de Corte

    1 55,2 25,0 -30,2 Empeora Disfuncional 1,96 Cambio Fiable Deterioro dentro de la severidad

    2 64,2 28,2 -36,0 Empeora Disfuncional 2,33 Cambio Fiable Recaida hacia la disfuncionalidad

    3 89,9 57,6 -32,3 Empeora Funcional 2,09 Cambio Fiable Empeora dentro de la funcionalidad

    4 43,5 39,8 -3,7 Empeora Disfuncional 0,24 No Cambio Sin cambio dentro de la disfuncionalidad

    5 60,2 50,1 -10,1 Empeora Disfuncional 0,65 No Cambio Sin cambio, hacia la disfuncionalidad

    6 67,5 63,2 -4,3 Empeora Funcional 0,28 No Cambio Sin cambio dentro de la funcionalidad

    7 39,2 39,2 0,0 Estable Disfuncional 0,00 No Cambio Sin cambio dentro de la disfuncionalidad

    8 57,3 57,3 0,0 Estable Disfuncional 0,00 No Cambio Sin cambio dentro de la disfuncionalidad

    9 67,2 67,2 0,0 Estable Funcional 0,00 No Cambio Sin cambio dentro de la funcionalidad

    10 26,1 59,1 +33,0 Mejora Funcional 2,14 Cambio Fiable Recuperado

    11 14,3 44,9 +30,6 Mejora Disfuncional 1,98 Cambio Fiable Mejora dentro de la disfuncionalidad

    12 57,4 87,6 +30,2 Mejora Funcional 1,96 Cambio Fiable Mejora dentro de la funcionalidad

    13 34,5 48,1 +13,6 Mejora Disfuncional 0,88 No Cambio Sin cambio dentro de la disfuncionalidad

    14 50,2 58,9 +8,7 Mejora Funcional 0,56 No Cambio Sin cambio hacia la funcionalidad

    15 60,1 73,1 +13,0 Mejora Funcional 0,84 No Cambio Sin cambio dentro de la funcionalidad

    Resulta apreciable que este tipo de metodologapermite una clasificacin ms especfica y ajusta-da a los logros individualizados obtenidos por laspersonas que han recibido tratamiento por unproblema de salud, ms all de la respuesta pro-medio que ofrecera un grupo tratado con dichateraputica. Esta caracterstica presenta especialinters para el clnico, que tiene que tomar deci-siones cotidianas en relacin a la respuesta al tra-tamiento de sus pacientes, y si bien la estadsticano es una de las herramientas habituales de estecolectivo, los clculos para clasificar a una perso-na en su respuesta al tratamiento no son compli-cados una vez establecida la medida de resultadoy los estndares poblacionales. En el caso denuestro ejemplo, bastara con que el clnico resta-se la puntuaciones obtenidas en la escala SG delSF-36 antes y despus de la intervencin y lo divi-diese por el valor del error estndar de las diferen-cias (EED= 15,4); si el resultado fuera mayor de1,96 y la puntuacin post-test superase el valor de57,4, entonces se encontrara ante un cambio fia-ble clnicamente significativo.

    No obstante, el ICFJT presenta algunas limitacio-nes. Por una parte, es un estimador basado en el

    error estndar de medida y, por lo tanto, depen-de de forma directa de la fiabilidad y dispersinde la distribucin, de modo que una baja fiabili-dad o una alta variabilidad convierten el ndiceen muy estricto. Asimismo, el ndice puede verseafectado en la designacin de un cambio fiablecuando las puntuaciones del pre-test son mode-radamente funcionales o prximas al lmite de lafuncionalidad, pues aun cuando puede producir-se un cambio quiz no sea de la magnitud quepermita considerarlo como fiable al alcanzar elefecto techo o suelo segn la caracterstica delfenmeno valorado. Algunos autores (Maassen,2004) han criticado el mtodo utilizado por elICFJT para la estimacin del error estndar de lasdiferencias, y otros han advertido la posibleinfluencia del sesgo de regresin a la media en elresultado del ndice (Hsu, 1989, 1995, 1999;Speer, 1992; Speer y Greenbaum, 1995).

    Mtodos alternativos y desarrollosa partir del ICFJT

    El inters por la evaluacin de los resultados tera-puticos y las limitaciones atribuidas al ICFJT, hansuscitado un especial inters por la evaluacin del

    170 x 240 pg 103-122 5/3/10 12:15 Pgina 114

  • Evaluacin de resultados clnicos III: ndices de Cambio Fiable (ICF)

    115

    de la puntuacin post-test en relacin a dichointervalo. Su mtodo, y el ndice correspondien-te (ICFEN) se conoce como Edwards-Nunnally,debido a que Speer basa su propuesta en los tra-bajos de estos dos metodlogos.

    Speer (1992) desarrolla su propio mtodo parahacer frente al efecto de la regresin de la media y,como decimos, le incorpora la estimacin de un IC-95%, planteando el siguiente algoritmo de clculo:

    cambio clnicamente significativo y motivado unaprolfica bsqueda del mtodo ms apropiadopara su estimacin. A este respecto, han surgidovarias propuestas alternativas de ICF de las queexpondremos cuatro, las ms representativas.

    1. El ICFGLN: Propuesta de Hsu (1989, 1995)

    Hsu es el primer investigador que propone un ICFalternativo al del grupo de Jacobson (1984, 1991)basado en los trabajos sobre metodologa esta-dstica de Gulliksen en 1950, y los de Lord yNovick en 1969, de ah las siglas que definen sumtodo (GLN). Hsu, junto a Speer (1992), fueronlos primeros autores que hicieron notar cmo elICFJT podra verse afectado por el fenmeno deregresin a la media, de modo que la interpreta-cin de las puntuaciones del post-test se veraafecta por este efecto. De modo general, la regre-sin a la media hace alusin a la tendencia deuna medicin extrema a presentarse ms cercanaa valores medios en subsiguientes mediciones.

    El mtodo GLM implica el control de este poten-cial efecto de confusin introduciendo en la fr-mula de clculo (4) los valores hipotticos(media y desviacin estndar) de la poblacin dereferencia sobre las cuales regresaran las pun-tuaciones del sujeto o grupo. En el caso de nopoder disponer de datos de la poblacin de refe-rencia, Hsu (1999) sugiere utilizar las puntuacio-nes medias pre-tratamiento del conjunto de par-ticipantes en la evaluacin teraputica.

    El algoritmo de clculo propuesto por Hsu parala estimacin del ICFGLM es el siguiente:

    (4)

    Siendo Xpost la puntuacin Post-tratamiento, pob la media de lapoblacin, rxx el coeficiente de fiabilidad del instrumento demedida, Xpre la puntuacin Pre-tratamiento, y DEpob la desvia-cin estndar de la poblacin.

    2. El ICFEN: Propuesta de Speer (1992)

    Speer, adems de advertir que el ICFJT podraverse afectado por la regresin a la media, en suprimera propuesta de modificacin del ICF sugi-ri la posibilidad de calcular el intervalo de con-fianza del 95% (IC-95) del ndice y la valoracin

    Siendo rxx el cociente de fiabilidad del instrumento de medida,Xpre la puntuacin Pre-tratamiento, pre la media del pre-test yDEpre la desviacin estndar del pre-test.

    El clculo ofrece un intervalo de confianza del95% que indica que en dicho intervalo se halla laposible variacin de las puntuaciones del pre-test debidas a la variabilidad causada por el ins-trumento de medida. La puntuacin post-testalcanzada se pone en relacin con los valores deeste intervalo para tomar la decisin: si la pun-tuacin post tratamiento se halla dentro delintervalo ha de concluirse que no se ha logradoun cambio significativo ya que dicha puntuacinest en el rango de posibles puntuaciones quese hallaban en el pre-test; si por el contrario, lapuntuacin post-test se halla fuera de los mrge-nes del IC-95%, entonces el cambio alcanzadoser estadsticamente fiable.

    3. El ICFHA: Propuesta de Hagerman y Arrindell(1999a, 1999b)

    Hagerman y Arrindell (1999a, 199b) plantean laconveniencia de revisar el ICFJT por dos motivos: 1)la necesidad de diferenciar entre el cambio que seproduce a nivel individual y el que se ocasiona anivel grupal, que a su juicio requieren diferentesprocedimientos de clculo, y 2) al igual que Hsu ySpeer, la necesidad de controlar el efecto de laregresin a la media. Basndose en los trabajos deCronbach y Gleser de 1959, el mtodo de H-A pre-senta dos nuevos ndices para evaluar la significa-cin clnica del cambio -denominado por elloscomo CSINDIV- y el cambio fiable -RCINVID-. El ndiceCSINDIV supone un intento de proporcionar un puntode corte ms preciso a travs de una serie demodificaciones como el uso de la puntuacinmedia del pre-test y post-test y los coeficientes de

    (5)

    170 x 240 pg 103-122 5/3/10 12:15 Pgina 115

  • Ioseba Iraurgi Castillo

    116

    siendo Xpost y Xpre las puntuaciones post y pre-tratamiento, post y premedias post y pre-tratamiento, EEM es el error estndar demedida (formula 3); y donde aparece un nuevo estadstico, rddque es el coeficiente de fiabilidad de la diferencia de puntuacio-nes postest-pretest, cuyo algoritmo de clculo viene dado por:

    (6)

    fiabilidad mostrados por el instrumento de medidaen ambos momentos de valoracin.

    Hagerman y Arrindell (1999b) proponen un sofis-ticado sistema de algoritmos para el clculo desus ndices, que se plantean del modo siguiente.El ndice de cambio fiable individual viene dadopor la expresin:

    siendo DEpre y DEpost las desviaciones estndar pre y post-test,rxx-pre y rxx-post los coeficientes de fiabilidad pre-test y post-test, yrpre-post el coeficiente de fiabilidad test-retest. Y donde Hagermany Arrindell proponen los siguientes algoritmos para el clculode los coeficientes de fiabilidad en el pre-test y post-test:

    (7)

    Por otra parte, el segundo ndice propuesto porHagerman y Arrindell, la significacin del cam-bio, vendra dada por la siguiente expresin:

    (8)

    y

    (9)

    donde TRC (True Cutoff ) es el Punto de Corte quedelimita el nivel funcional y se calcula a partir delsiguiente algoritmo:

    (10)

    Para la interpretacin de RCINDIV, Hagerman yArrindell (1999a, 1999b) proponen localizar lapuntuacin obtenida en el ndice respecto alvalor 1,65 (puntuacin z que deja por debajo opor encima de si el 5% de las puntuaciones de la

    distribucin), de modo que en el caso de estarvalorndose una caracterstica positiva (calidadde vida), puntuaciones inferiores a -1,65 indicar-an un Deterioro significativo, valores RCINDIV entre-1,65 y 1,65 expresaran una situacin de Nocambio fiable, y valores por encima de 1,65 har-an referencia a una mejora relevante. La interpre-tacin inversa se realizara si la caracterstica devaloracin fuera de tipo negativo (por ejemplo,sintomatologa depresiva). El CSINDIV proporcionalos puntos de corte fiables, de modo que su com-binacin con los valores del RCINDIV permite clasifi-car a los individuos evaluados en cuatro grupos:a) Deteriorado, b) sin cambio fiable, c) Mejoradopero no recuperado, y d) Recuperado.

    Este conjunto de algoritmos son los especifica-dos por Hagerman y Arrindell para la estimacinde las puntuaciones individuales, existiendotodo un desarrollo de clculo para el caso delnivel grupal que permite, anlogamente, laobtencin de dos ndices: el RCGrup y el CSGrup(Hagerman y Arrindell (1999a, 1999b).

    4. El ICFHLM: Propuesta de Speer y Greenbaun (1995)

    Esta propuesta, planteada inicialmente por Speery Greenbaun (1995), constituye una variante meto-dolgica muy distinta a la planteada en lossupuestos previos. El mtodo se fundamenta enmodelos de curva de crecimiento, basados enmodelos jerrquicos lineales, donde se precisan almenos tres medidas temporales de cada partici-pante. La determinacin de los cambios de un indi-viduo se estima mediante un procedimiento baye-siano y permite hacer estimaciones incluso encasos donde existen datos ausentes al tener encuenta para dicha estimacin toda la informacincontenida (individual y grupal). Los detalles deestos clculos exceden los propsitos de esta tesisy en la prctica son estimados mediante progra-mas especficos de clculo. Los defensores de estemtodo consideran que permiten una mayor flexi-bilidad que los ICF clsicos de la informacin ofre-cida resulta ms valiosa.

    5. Evidencias sobre la comparacin de los ICF

    Los cinco mtodos descritos para la valoracindel cambio clnicamente significativos han sidoutilizados de forma variable por distintos auto-res. En algunos estudios, se han puesto a prue-

    170 x 240 pg 103-122 5/3/10 12:15 Pgina 116

  • ba simultneamente tratando de diferenciar suspotencialidades y determinar cul sera el msptimo en su utilizacin.

    El primer intento de examinar las caractersticasde estas propuestas de ICF se debe a uno de losgrupos mencionados (Speer y Greenbaum,1995). Estos autores comparan los mtodos deJacobson y Truax (JT), Hsu (GLN), Speer (EN),Hagerman y Arrindell (HA) y el suyo propio plan-teado en ese trabajo (HLM). En tanto que estosautores configuran el artculo como la presenta-cin de un nuevo mtodo alternativo a los ya exis-tentes, sus conclusiones derivan en la recomen-dacin del mtodo HLM como el ms especfico yaltamente sensible para clasificar los sujetoscomo recuperados o mejorados sin recupera-cin. No obstante, el mtodo HLM no resulta tanrecomendable para detectar los casos que pre-sentan un deterioro de la respuesta de salud(Speer y Greenbaum, 1995).

    En un trabajo posterior, McGlinchey, Atkins yJacobson (2002) replican la estructura de estudiode Speer y Greenbaum con una muestra de sujetoscon depresin mayor sometidos a psicoterapia.Especficamente, este grupo valor los mtodos JT,GLN, EN y HA; no as el HLM. Los resultados mues-tran como los diferentes mtodos difieren en sucapacidad para clasificar los casos cuyos sntomasdepresivos remiten, mejoran o empeoran.

    No obstante, estos autores concluyen que a pesarde que los mtodos difieren en su capacidad paradetectar los cambios, las diferencias no son rele-vantes mostrando todos ellos su potencial parapredecir las recadas dos aos despus de con-cluirse la terapia. En definitiva, McGlinchey y cola-boradores (2002) concluyen que, a pasar de lasmejoras que supuestamente realizaron los mto-dos GLN, EN y HA a la evaluacin del cambio clni-camente significativo, no hubo pruebas de quecualquiera de estos mtodos fuera mejor que elpropuesto originariamente por Jacobson.

    En un estudio de simulacin, Atkins, Bedics,McGlinchey y Beauchaine (2005) comparan denuevo los cuatro tipos de mtodos (JT, GLM, EN yHA). Los resultados mostraron que JT y GLN erancasi idnticos, mientras que HA fue significativa-mente ms conservador. El mtodo EN era el quepresentaba un mayor nmero de casos clasifica-

    dos como recuperados o deteriorados, ymenos como no cambio. De forma coincidentecon el estudio previo, los resultados no mostra-ban evidencias claras que desaconsejasen el usodel mtodo de Jacobson y Truax, si bien los auto-res insisten en la conveniencia de seguir investi-gando sobre las ventajas diferenciales de cadauno de estos mtodos en la valoracin de loscambios durante el tratamiento.

    Ejemplo de la aplicacin de las diferentesalternativas de clculo del ICF

    En la Tabla 2 se presenta un resumen de los algo-ritmos de clculo de los ndices de Cambio Fiablecorrespondientes a cada una de los mtodospropuestos. Asimismo, se acompaa de unejemplo de un caso particular para ejemplificarel procedimiento de cmputo y la interpretacindel valor de los ndices. En la parte inferior de laTabla se presentan los datos necesarios para laestimacin; por una parte, los que correspondenal grupo, al cual puede pertenecer el sujeto devaloracin, o bien pueden ser obtenidos a partirde muestras normativas si las hubiera; por otraparte, los que corresponden al instrumento algu-nos de los cuales han sido calculados mediantelas frmulas 2, 3, 7 y 8; y, finalmente, los datosobtenidos por el sujeto respecto al cual se pre-tende valorar el cambio producido.

    La persona de muestro ejemplo ha pasado deuna puntuacin inicial de 43,9 puntos en la esca-la de percepcin general de salud del SF-36 auna puntuacin tras el tratamiento de 67,6 pun-tos, lo cual supone un incremento de 23,7 pun-tos en la direccin de un cambio funcional. Siatendiramos a la magnitud del efecto logrado(Iraurgi, 2009b) observamos que el valor d deCohen es de 0,89 lo cual supone alcanzar untamao del efecto alto, que es interpretado porTesta (1987) como un cambio clnico sustancial.Como se ha propuesto en un epgrafe anteriorlas puntuaciones individuales de este sujetocorrespondan con los valores medios de dosgrupos -uno funcional y otro disfuncional- cuyaprueba de significacin estadstica resultaba sig-nificativa (t= 23,9; p

  • Ioseba Iraurgi Castillo

    118

    Media pre-tratamiento de la muestra Xpre = 58,3

    Desviacin Estndar pre-tratamiento de la muestra DEpre = 26,6

    Media post-tratamiento de la muestra / Media normativa Xpost =Xnorm = 67,3

    Desviacin Estndar post-tratamiento de la muestra / DE normativa DEpost = DEnorm = 19,6

    Fiabilidad poblacin normativa rxx = 0,83

    Fiabilidad test-retest rpre-post = 0,64

    Fiabilidad pre-tratamiento rxx(pre) = 0,83

    Fiabilidad post-tratamiento rxx(post) = 0,69

    Fiabilidad de las diferencias rdd = 0,56

    Error Estndar de Medida EEM = 10,96

    Puntuacin individual pre-tratamiento Xpre = 43,9

    Puntuacin individual post-tratamiento Xpost = 67,6

    Diferencia Post-Pre Tto Dif = 23,7

    Puntuaciones del Grupo Puntuaciones del Instrumento

    Puntuaciones del Individuo

    Tabla 2. Alternativas de clculo del ndice de Cambio Fiable (ICF) y aplicacin prctica a partir de los datos de un caso

    Mtodo Algoritmo Ejemplo

    ICFJT

    JT - Jacobson y Truax (1991)

    Punto de Corte

    ICFGLN

    Gulliksen-Lord-Novick(GLN), (Hsu, 1998, 1999)

    ICFEN

    Edwards-Nunnally (EN) -(Speer, 1992)

    RCINDIV y CSINDIV

    HA - Hageman y Arrindell (1999)

    170 x 240 pg 103-122 5/3/10 12:15 Pgina 118

  • Evaluacin de resultados clnicos III: ndices de Cambio Fiable (ICF)

    119

    Acudiremos, en primer lugar, a los resultadosobtenidos a partir del mtodo de Jacobson yTruax (1991): un punto de corte (PC) fijado en57,37 puntos y un ICFJT= 1,54. La puntuacinobtenida en el post-test por nuestro sujeto hasido de 67,6 lo que supone localizarse 10,23puntos por encima del PC y, por tanto, se halladentro del rea de funcionalidad. Ahora bien, elvalor logrado por el ICFJT no alcanza el valor mni-mo de 1,96 representativo de un cambio fiable,lo cual implica que el sujeto sera clasificadocomo No cambio, aunque s le sita en unaorientacin hacia la funcionalidad (Mejora sincambio). Dos razones pueden dar respuesta aesta falta de precisin: la fiabilidad del instru-mento o bien la amplitud de la dispersin de laspuntuaciones del grupo en el instrumento. Uncoeficiente de fiabilidad de 0,83 puede ser con-siderado como adecuado, si bien para las esti-maciones individuales suele requerirse coefi-cientes con valores superiores a 0,90 (Nunnally yBeristan, 1995). Por ello, en este caso, estara-mos ms acordes en aceptar que la limitacin enla precisin se debe a la alta dispersin, lo cualpodra redundar en una falta de sensibilidad alcambio por parte del instrumento.

    El mtodo de Hsu (1998, 1999), el cual introduceuna correccin para controlar el efecto de regre-sin a la media, alcanza un valor de ICFGLN= 1,43.Como puede apreciarse resulta ligeramente infe-rior al valor del ICFJT (1,43

  • Ioseba Iraurgi Castillo

    120

    Conclusiones

    Ms all de los mtodos de contraste de lashiptesis estadsticas y del logro de los valoresde significacin estadstica (Iraurgi y Markez,2009; Iraurgi, 2009a), en la valoracin de losresultados teraputicos se hace pertinente ynecesario obtener el valor de los efectos alcan-zados (Iraurgi, 2009b) en tanto que stos repre-sentan una mayor aproximacin a la relevanciaclnica obtenida. La sntesis de ambos procedi-mientos se alcanza mediante las tcnicas deestimacin del cambio clnicamente significati-vo, llamadas ndices de cambio fiable (ICF, o RCIen ingls -Reliable Change Index-), las cualesaaden informacin ms precisa sobre los cam-bio teraputicos observados. Adems de infor-mar sobre el cambio alcanzado por un grupointervenido, ayudan a determinar el cambio en el

    nivel individual: si un sujeto dado ha variado deforma relevante su situacin de salud tras el tra-tamiento y si ese cambio tiene implicaciones enel reajuste del diagnstico.

    Aadir informacin sobre la significacin clnicaen la investigacin de resultados teraputicossera del todo deseable. Deseable para los inves-tigadores, que obtendran informacin ms cer-tera sobre el alcance de los tratamientos; y dese-able tambin, y sobre todo, para los clnicos queles ayudara en la toma de decisiones sobre losprocesos diagnsticos y teraputicos de las per-sonas atendidas. Desde nuestro punto de vista,la utilizacin de las metodologas de valoracindel cambio clnicamente significativo debieranser consideradas como una forma prometedorade interpretar los datos en la investigacin de losresultados de salud.

    Correspondencia:

    Ioseba Iraurgi

    DeustoSalud. Universidad de Deusto Avda. de las Universidades, 24 48007 Bilbao.

    correo electrnico: [email protected]

    Alonso, J., Prieto, L. y Ant, J.M. (1995). La versinespaola del SF-36 Health Survey (Cuestionariode Salud SF-36): un instrumento para la medidade los resultados clnicos. Medicina Clnica(Barcelona), 104, 771-776.

    Alonso, J., Regidor, E., Barrio, G., Prieto, L.,Rodrguez, C. y de-la-Fuente, L. (1998). Valorespoblacionales de referencia de la versin espao-la del Cuestionario de Salud SF-36. MedicinaClnica (Barcelona), 111, 410-416.

    Anaitua, C., Quintana, J.M. (1999). Valores poblacio-nales del ndice de salud SF-36 en el Pas Vasco:importancia y aplicacin en la prctica clnica.Osasunkaria, 17, 10-17.

    Anastasi, A. y Urbina, S. (1997). Psychological tes-ting. 7 Ed. Upper Saddle River, New Jersey;Prentice Hall.

    Atkins, D.C., Bedics, J.D., McGlinchey, J.B. y Beau-chaine, T.P. (2005). Assessing Clinical Significance:Does It Matter Which Method We Use? Journal ofConsulting and Clinical Psychology, 73, 5, 982-989.

    Christensen, L. y Mendoza, J.L. (1986). A methodof assessing change in a single subject: An alte-ration of the RC Index. Behavior Therapy, 17,305-308.

    Echeburua, E y Corral, P. (2001). Eficacia de las tera-pias psicolgicas: de la investigacin a la prcti-ca clnica. Revista Internacional de PsicologaClnica y de la Salud, 1, 1, 181-204.

    Hageman, W.J. y Arrindell, W.A. (1999a). Establis-hing clinically significant change: increment ofprecision and the distinction between individualand group level of analysis. Behaviour Researchand Therapy, 37, 1169-1193.

    Referencias bibliogrficas

    170 x 240 pg 103-122 5/3/10 12:15 Pgina 120

  • Hageman, W.J. y Arrindell, W.A. (1999b). Clinicallysignificant and practical! Enhancing precisiondoes make a difference. Reply to McGlinchey andJacobson, Hsu, and Speer. Behavior Researchand Therapy, 37, 1219-1233.

    Hsu, L.M. (1989). Reliable change in psychotherapy:Taking into account regression toward the mean.Behavioural Assessment, 11, 459-467.

    Hsu, L.M. (1995). Regression toward the mean asso-ciated with measurement error and identificationof improvement and deterioration in psychothe-rapy. Journal of Consulting and ClinicalPsychology, 63, 141-144.

    Hsu, L.M. (1999). A comparison of three methods ofidentifying reliable and clinically significant clientchanges: commentary on Hageman and Arrindell.Behaviour Research and Therapy, 37, 1195-1202.

    Iraurgi, I. (2000). Cuestiones metodolgicas en laevaluacin de programas teraputicos. TrastornosAdictivos, 2, 2, 99-113.

    Iraurgi, I. (2009a). Evaluacin de resultados clnicosI: Entre la significacin estadstica y la relevanciaclnica. NORTE de Salud Mental, 33, 94-108

    Iraurgi, I. (2009b). Evaluacin de resultados clnicosII: Las medidas de la significacin clnica o lostamaos del efecto. NORTE de Salud Mental, 34,94-110.

    Iraurgi I. (2010). Reduccin de Daos y Riesgos:Lecciones aprendidas y retos futuros. En T.Laespada y I. Iraurgi (Eds). El Modelo de laReduccin de Daos: Lo aprendido de la herona.Bilbao; Publicaciones de la Univ. de Deusto.

    Iraurgi, I. y Markez, I. (2009). La investigacin, laestadstica y la tirana de los valores-p. NORTE deSalud Mental, 33, 6-8.

    Iraurgi, I., Po, M. y Markez, I. (2004). Valoracin delndice de salud SF-36 en usuarios de Programasde Metadona. Valores de referencia para laComunidad Autnoma Vasca. Revista Espaolade Salud Pblica, 78, 609-621.

    Iraurgi, I., Trujols J., Lozano-Rojas, O. y Gonzlez-Saiz, F. (2010). Valoracin del cambio clnicamen-te significativo en el tratamiento de trastornosadictivos: Una aplicacin con la Escala deSeveridad de la Dependencia (SDS). TrastornosAdictivos, en valoracin.

    Jacobson, N.S., Follette, W.C. y Revenstorf, D. (1984).Psychotherapy outcome research: Methods forreporting variability and evaluating clinical signifi-cance. Behavior Therapy, 15, 336-352.

    Jacobson, N.S., Follette, W.C. y Revenstorf, D. (1986).Toward a standard definition of clinically significantchange. Behavior Therapy, 17, 308-311.

    Jacobson, N.S. y Revenstorf, D. (1988). Statistics forassessing the clinical significance of psychothe-rapy techniques: Issues, problems, and new deve-lopments. Behavioral Assessment, 10, 133-145.

    Jacobson, N.S., Roberts, L.J., Berns, S.B. yMcGlinchey, J.B. (1999). Methods for definingand determining the clinical significance of tre-atment effects: description, application, andalternatives. Journal of Consulting and ClinicalPsichology, 67, 300-307.

    Jacobson, N.S. y Truax, P. (1991). Clinical significan-ce: a statistical approach to defining meaningfulchange in psychotherapy research. Journal ofConsulting and Clinical Psichology, 59, 12-19.

    Kazdin, A.E. (1977). Assessing the clinical or appliedimportance of behavior change through socialvalidation. Behavior Modification, 1, 427-452.

    Kazdin, A.E. (1999). The meanings and measurementof clinical significance. Journal of Consulting andClinical Psychology, 67, 332-339.

    Kazdin, A. E., y Wilson, G. T. (1978). Evaluation ofbehavior therapy: Issues, evidence, and researchstrategies. Cambridge, MA: Ballinger.

    Kendall, P.C., Butcher, J.N, y Holmbeck, G.N. (1999).Handbook of research methods in clinicalpsychology. New York; Wiley.

    Kendall, P.C., Marrs-Garca, A., Nath, S.R. y Sheldrick,R.C. (1999). Normative comparisons for the evalua-tion of clinical significance. Journal of Consultingand Clinical Psichology, 67, 3, 285-299.

    Kupler, D.J. (1991). Long-term of treatment ofdepression. Journal of Clinical Psychiatry, 52,(suppl.5), 28-34.

    Lord, F.M. y Novick, M.R. (1968). Statistical theoriesof mental test scores. Reading, MA: Addison-Wesley.

    Maassen, G.H. (2004). The standard error in theJacobson and Truax reliable change index: Theclassic approach to the assessment of reliablechange. Journal of International Neuropsycho-logical Society, 10, 6, 888-893.

    Mavissakalian, M. (1986). Clinically significant im-provement in agoraphobia research. BehaviourResearch and Therapy, 24, 369-370.

    McGlinchey, J.B., Atkins, D.C. y Jacobson, N.S. (2002).Clinical Significance Methods: Which One to Use

    Evaluacin de resultados clnicos III: ndices de Cambio Fiable (ICF)

    121

    170 x 240 pg 103-122 5/3/10 12:15 Pgina 121

  • Ioseba Iraurgi Castillo

    122

    and How Useful Are They? Behavior Therapy, 33,529-550.

    Nietzel, M.T, y Trull, T.J. (1988). Meta-analytic approa-ches to social comparisons: A method for measu-ring clinical significance. Behavioral Assessment,10, 146-159.

    Pez, D., Echeburua, E. y Borda, M. (1993).Evaluacin de La eficacia de los tratamientos psi-colgicos: una propuesta metodolgica. Revistade Psicologa General y Aplicada, 46, 2, 187-198.

    Speer, D.C. (1992). Clinically significant change:Jacobson and Truax (1991) revisited. Journal ofConsulting and Clinical Psychology, 60, 402-408.

    Speer, D.C. y Greenbaum, P. (1995). Five methodsfor computing significant individual client changeand improvement rates: Support for an individualgrowth curve approach. Journal of Consultingand Clinical Psychology, 63, 1044-1048.

    Testa, M. (1987). Interpreting quality of life clinicaltrial data for use in the clinical practice of antihy-pertensive therapy. Journal of Hypertension, 5,S9-S13.

    Ware, J.E. y Kosinski, M. (1997). SF-36 Physical andMental Health summary scales: A Manual for Usersof Version 1. 2nd ed. Lincoln, RI; QualityMetric Inc.

    Ware, J.E., Kosinski, M., Bayliss, M.S., et al. (1995).Comparison of methods for scoring and statisti-cal analysis of SF-36 health profile and summarymeasures: summary of results from the MedicalOutcomes Study. Medical Care, 33, AS264-AS279.

    Ware, J.E. y Sherbourne, C.D. (1992). The MOS 36-item short form health survey (SF-36):1Conceptual framework and item selection.Medical Care, 30, 6, 473-483.

    Wolf, M.M. (1978). Social validity: The case for sub-jective measurement or how applied behavioranalysis is finding its heart. Journal of AppliedBehavior Analysis. 11, 203-214.

    Recibido: 28-11-2009.

    170 x 240 pg 103-122 5/3/10 12:15 Pgina 122

    1-4.pdf5-89-2324-3435-4445-5455-6869-8384-8990-102103-122123-128129-142143-152153-156157-final