domingo, 13 de enero de 2008

La evaluación con diseño experimental y la salud pública basada en evidencias


Por Anibal Velásquez[1]


Recientes iniciativas en las agencias federales de los Estados Unidos, tales como el Departamento de Educación (2005), promueven y patrocinan los diseños experimentales (de asignación aleatoria y cuasi-experimentales) en la evaluación de la efectividad de programas y proyectos porque sostienen que evaluaciones con diseños no experimentales han proveído poca confianza y garantía para guiar las decisiones políticas.

Esta situación ha generado controversias en la comunidad de evaluadores porque esta decisión política supone que el experimentalismo es el mejor modelo para alcanzar la confiabilidad y validez de la investigación y es el que permitiría obtener conocimiento objetivo de la vida social.

Esta posición ha tenido sustento en varias revisiones realizadas (Cook & Payne, 2002; Vinovskis, 2002; Cook, 2003; Cook, 2002) en la que indican que las reformas educativas en los Estados Unidos, recientemente hechas, han estado basadas en ideas que nunca han sido evaluadas seriamente para aprender cómo han afectado el desempeño de los estudiantes.

Del mismo modo, se podría afirmar que en el Perú las políticas y reformas de los programas sociales se han realizado y se realizan con base en ideas que no han probado su efectividad y/o eficiencia. Las consecuencias de estas decisiones conducirían al uso de los escasos recursos en intervenciones que no tendrían los resultados esperados.

Ejemplos de intervenciones basadas en ideas que no fueron evaluadas rigurosamente

Por ejemplo, en el campo de la salud pública, tanto en el Perú como en otros países pobres, la persistencia de la muerte materna se explica porque muchas estrategias han fracasado. Así, en los inicios de los años 50, la Organización Mundial de la Salud (OMS) puso la atención en la atención prenatal y en la educación de las madres (OMS, 1952). Sin embargo ya existían evidencias en el Oeste industrializado (Brown & Aberd 1932) que la detección de las gestantes en riesgo de muerte materna no era muy efectiva, por que la mayoría de muertes no son detectables durante el embarazo (sepsis, hemorragia, shock). A pesar de ello, durante 1970 al 80, la doctrina de la OMS incluyó el concepto de riesgo, es decir que con el control prenatal se podría prevenir las muertes maternas por identificar a las madres con signos de alarma o en riesgo. Luego se pudo probar que las muertes maternas se producían mayormente en el momento del parto. Así, a comienzos de los 80s las primeras evidencias cuestionaron el costo-efectividad del control prenatal en los países en desarrollo (Van Lebergue & Van Balen, 1984) y actualmente ya no se considera una intervención para reducir la mortalidad materna.

La reducción de la muerte materna requiere inevitablemente de la participación de niveles más complejos de establecimientos de salud, debido a que todas las mujeres embarazadas corren el riesgo de sufrir complicaciones graves en el momento del parto (Maine 1992 ), tal es así que se ha estimado que el 15% de las gestantes desarrollan complicaciones que requieren atención de emergencia (OMS, 1994).

Con este fin se ha promovido la atención del parto por profesionales sin embargo es poco viable en muchos países de bajos recursos. Primero, porque son altas las inversiones que se tienen que hacer en tiempo y dinero para mejorar la capacidad resolutiva de los servicios y entrenar profesionales de cuidados intermedios. Además, es necesario tomar en cuenta las otras barreras de acceso a los servicios de salud como son las económicas, culturales y psicosociales.

Por este motivo, en Malasia en 1970, la OMS, lanzó el entrenamiento y promoción de parteras tradicionales como eje estratégico para reducir la mortalidad materna. Una década más tarde el entusiasmo inicial aún persistía, pero gradualmente el escepticismo fue creciendo. Hasta que no se pudo probar que tenga algún efecto positivo para reducir las muertes maternas y ahora es considerada una estrategia inefectiva.

Ejemplo de intervenciones basadas en evaluaciones sin diseño experimental

En una localidad pobre (Matlab) de Bangladesh (Ronsmans S, Vanneste A, Chakraborty J, Van Ginneken J., 1997) se implementó la estrategia de la “Maternidad Saludable y Segura”. En el área de intervención, se entrenaron parteras tradicionales y trabajadores de salud comunitarios para la provisión de anticonceptivos. Luego se añadió un programa de atención y cuidados maternos basado en la comunidad. Este nuevo programa incluía la implementación de una Clínica de Cuidados maternos y dos centros de salud con 4 obstetrices y la provisión de acceso durante las 24 horas del día.

Después de 3 años de la implementación del Programa de Atención y Cuidados Maternos basados en la comunidad, se observó una disminución de la mortalidad materna en un 50%, y esto condujo a una expansión del programa Además, las obstetrices y los paramédicos fueron entrenados y equipados para el manejo de complicaciones obstétricas severas, los servicios de atención prenatal fueron ampliados con la provisión de herramientas básicas para la detección de los embarazos de alto riesgo por los trabajadores de salud comunitarios y los embarazos de alto riesgo eran referidos a las obstetrices o paramédicos. El impacto de la intervención se muestra en la Fig.1.

Fig. 1: Tendencia de la Razón de Mortalidad Materna (RMM) por causa obstétrica directa en el área de intervención de Matlab (Bangladesh): 1976-1993 (*)


(*) La línea con puntos representa la RMM anual, la línea oscura continua corresponde al promedio móvil para cada 3 años.


Sin embargo, cuando se comparó con un grupo control se encontraron los siguientes resultados (Fig. 2). El análisis se basó en una comparación de series de tiempo de la mortalidad materna del área de intervención con el área control mediante un análisis de regresión de Poisson.

Fig. 2: Comparación de las tendencias promedio por cada 3 años de la RMM por causa obstétrica directa en ambas áreas de Matlab (Bangladesh): 1976-1993 (*)

(*) La línea gruesa, continua es la tendencia del área de intervención, la línea tenue discontinua
es la tendencia del área de comparación (No intervenida)


Como se puede ver en la Fig. 2 no se encontraron diferencias significativas entre el área de intervención y el área de comparación. Aunque la introducción del programa materno coincide con una disminución de la tendencia de la mortalidad materna en las áreas de influencia del programa, tal declive también se observa en áreas que no recibieron la intervención. Metodológicamente, no se identificaron sesgos de selección ni subregistros de las muertes maternas en ambas áreas porque la identificación de las muertes maternas fue exhaustiva. Pero, la asignación de las áreas de intervención no fue aleatorizada.

Lo que llama la atención es que en el área de control no existió inversión especial en programas de atención basados en la comunidad, referencias o transporte en comparación con el área intervenida. De tal forma, no se ha podido determinar porqué la mortalidad materna ha caído en Matlab. Este es un ejemplo de cómo la falta de un diseño experimental aleatorio no permite demostrar efectos causales de un programa y sin embargo, se tomó la decisión de expandir la estrategia.

Algunas respuestas a las objeciones que se hacen a los experimentos aleatorizados

Cook (2003) es uno de los autores que ha sustentado la decisión de las agencias estatales de Estados Unidos de apoyar las evaluaciones experimentales. El ha respondido a los tradicionales cuestionamientos que se ha hecho a este tipo de diseño.

- “Los experimentos son muy caros para alcanzar una conclusión causal”, Cook cree que es todo lo contrario, él sostiene que los experimentos son menos caros porque el tiempo que se necesita para demostrar relaciones causales con diseños no experimentales es mucho mayor, en consecuencia es más costosa esta vía para demostrar impactos de programas. El también explica que la investigación no-experimental tiene mayor probabilidad de una falsa conclusión.

- “Los experimentos sacrifican la validez externa por la validez interna”, Cook refiere que la asignación aleatoria prefiere una respuesta no sesgada de preguntas causales. Los experimentos están claramente limitados en tiempo y espacio en cambio los diseños no experimentales prefieren la muestra representativa de la población con menos certeza en las inferencias causales y muchas veces la falta de validez interna puede reducir la validez externa también. Se pueden hacer experimentos en muestras representativas con la ganancia de obtener conclusiones robustas y no sesgadas sobre relaciones causales. Lo ideal es una selección aleatoria seguida de una asignación aleatoria. Además los estudios multicéntricos y el metanálisis ayudan a mejorar la validez externa de este tipo de diseños.

- “Los experimentos no son necesarios porque existen mejores alternativas incluyendo los estudios de casos con técnicas cualitativas, los cuasi-experimentos conducidos por investigadores que prefieren controlar las variables confusoras con el diseño y el análisis estadístico, y el modelamiento causal en observaciones longitudinales”. Es verdad que no puede ser la única forma de evaluar; pero la asignación aleatoria es el mejor mecanismo para justificar las conclusiones causales, esto provee el elemento de comparación (contrafactual) más lógico y eficiente para validar una relación causal y los resultados son más creíbles.

El desarrollo de este tipo de evaluaciones en nuestro país y las revisiones sistemáticas de estas evaluaciones realizadas en otras latitudes podrían conducir a un mejor uso de los recursos, en consecuencia sería una inversión beneficiosa destinar recursos para fortalecer las competencias de evaluadores y científicos en estas técnicas y para promover centros que generen evidencias. Existen lecciones aprendidas acerca de los beneficios de una gestión basada en evidencias que prueban en mejor impacto en la salud y bienestar en especial de los más pobres.

Referencias

Browne FJ and Aberd (1932). Antenatal care and maternal mortality. Lancet; (July 2):1-4

Cook T, Payne M. (2002) Objecting the objections to using random assignment in educational research. Cited in: Julnes G, Rog D. Current Federal Policies and Controversies over methodology in evaluation. New Directions for Evaluation. 2007; 113: 1-12

Cook T. (2003). Why have educational evaluators chosen not to do randomized experiments? The Annals the American Academy, AAPSS, 2003; 589: 114-149

Cook, T. D. (2002). Randomized experiments in education: Why are they so rare? Educational Evaluation and Policy Analysis, 24(3), 175-199

Maine Deborah (1992). Programas de Reducción de la Mortalidad Materna: Opciones y Planteamientos, Center for Population and Family Health, School of Public Health, Faculty Medicine, Columbia University, New York, p:35.

OMS (1952). Comité déxperts la maternité. Premier rapport. Etude préliminaire. SRT No. 51, Organisation Mondiale de la Santé, Geneva, 28p.

OMS, 1994. Indicators to Monitor Maternal Health Goals: Report of a Technical Working Group, Ginebra, 8-12 de noviembre de 1993. Ginebra: OMS, OMS/THE/MSM/94-14

Ronsmans S, Vanneste A, Chakraborty J, Van Ginneken J. (1997). Decline in maternal mortality in Matlab, Bangladesh: a cautionary tale" Lancet; 350:1810-14

U.S. Department of Education (2005). “Scientifically Based Evaluation Methods”. Federal Register, Jan 25, 2005, pp. 3585-3589. Available at: http://www.ed.gov/legislation/FedRegister/finrule/2005-1/012505a.pdf, access September 17, 2007

Van Leberghe W & Van Balen H. (1984). Antenatal screening for fotopelvic dystocias; a cost.effectiveness approach to the choice of simple indicators for use by auxiliary personnel, J Trop. Me Hyg.; 87:173-183.

Vinovskis M. (2002). Missing practice? Development and evaluation at the US Department of Education. Cited in: Julnes G, Rog D. Current Federal Policies and Controversies over methodology in evaluation. New Directions for Evaluation. 2007; 113: 1-12


[1] Fuente: Velásquez A. (2007). Kallpachaq No. 5, Boletín de la Red Peruana de Seguimiento y Evaluación – Red EvalPeru. Diciembre 2007