Haciendo un análisis empírico Análisis de Regresión 30/04/2023 Primeros pasos Definiendo la pregunta de investigación Un buen análisis empírico contiene, al menos, los siguientes elementos: 1. Una pregunta de investigación que tú consideres interesante (idealmente, también que sea relevante , aunque esto último no es imprescindible ), en la cual se planteé una relación de causa-efecto (es decir, x genera un cambio en y ); 2. Una revisión de literatura sobre los conceptos y teorías que permitan responder la pregunta; 3. Una hipótesis que contenga tu respuesta a la pregunta, basada tanto en la revisión de la literatura pertinente, como en tus reflexiones, creencias y teorías propias; 4. Una base de datos que contenga las variables requeridas para responder la pregunta de investigación y que haya sido debidamente preparada (limpiada) ; 5. Un buen análisis descriptivo, es decir, que incluya al menos: a. Una tabla que se muestre los promedios (variables continuas) o proporciones (variables categóricas) de las variables principales, el número de observaciones y sus definiciones; b. Una gráfica que muestre claramente la relación entre la variable dependiente e indepen- diente (aquella para la que se quiere estimar el efecto); 1 6. Un análisis estadístico/econométrico que contenga: a. Análisis de robustez (estimación del parámetro relevante bajo múltiples especificaciones) b. Datos diagnóstico de la regresión ( R 2 y R 2 ) c. Una adecuada interpretación de los resultados anteriores, haciéndo énfasis en el parámetro de interés , pero sin olvidar el resto de los resultados. 7. Conclusiones alrededor de la pregunta de investigación. Standing on the shoulders of giants Un elemento que suele estar englobado en el punto 2 es la revisión de la literatura. La insistencia en este punto no es necedad. . . Aunque podemos hacer análisis empírico por gusto, si el objetivo es compartirlo y contribuir al conocimiento de algún tema o problema, es necesario que le proporcionemos al lector un contexto sobre: a. Por qué es relevante la pregunta. b. Qué otros estudios han abordado este tema, y; c. Cómo nuestro análisis contribuye a entender mejor el problema en cuestión. En palabras de Isaac Newton: “If I have seen further it is by standing on the shoulders of Giants.” 1 Manos a la obra 1 Newton, Isaac. “Letter from Sir Isaac Newton to Robert Hooke”. Historical Society of Pennsylvania. Consultada el 2 de noviembre, 2021 en: https://digitallibrary.hsp.org/index.php/Detail/objects/9792 2 Pregunta de investigación e hipótesis En esta caso parto de una pregunta que puede ser obvia, pero veremos que no lo es tanto: ¿Hacer ejercicio hace que tengas menos obesidad? La OMS señala que: La causa fundamental del sobrepeso y la obesidad es un desequilibrio energético entre calorías consumidas y gastadas. A nivel mundial ha ocurrido lo siguiente: • un aumento en la ingesta de alimentos de alto contenido calórico que son ricos en grasa; y • un descenso en la actividad física debido a la naturaleza cada vez más sedentaria de muchas formas de trabajo, los nuevos modos de transporte y la creciente urbanización. A menudo los cambios en los hábitos alimentarios y de actividad física son consecuencia de cambios ambientales y sociales asociados al desarrollo y de la falta de políticas de apoyo en sectores como la salud; la agricultura; el transporte; la planificación urbana; el medio ambiente; el procesamiento, distribución y comercialización de alimentos, y la educación. De ahí, una hipótesis naïve es que mientras mayor sea el nivel de actividad física de una persona, menores serán sus niveles de obesidad Modelo El enunciado anterior tiene mucho detrás sobre nuestro modelo a estimar: Obesidad ← Actividad física Que en términos de análisis de regresión implica: Obesidad = β 0 + β 1 ∗ ActividadF í sica + u En este sentido, si creemos que la relación entre actividad física y obesidad tiene la forma del modelo anterior, entonces podemos estimar el parámetro de interés ( β 1 ) mediante un análisis 3 de regresión. Hay muchos otros factores detrás del nivel de obesidad de una persona (genéticos, ambientales, económicos, etc.), los cuales estarán contenidos en el término de error u Si algunos de los factores contenidos en u estan correlacionados con el nivel de actividad física (e.g., si una persona tiene un trabajo manual hará más actividad física que una persona con un trabajo de oficina), entonces la estimación de β 1 estará sesgada. Una forma de reducir este sesgo es incluir controles por esos otros factores, tales como la edad, el nivel educativo, entre otros, los cuales los incluiremos en el un vector X de características observables de los individuos. Aún así, puede que haya factores no observables (e.g., los asociados a factores hereditarios) que no puedan ser controlados con la información disponible. Estos factores pueden ser descontados utilizando estrategias de identificación causal, pero para los fines de este curso nos limitaremos a incluir controles para aminorar el posible sesgo. El modelo a estimar será entonces: Obesidad = β 0 + β 1 ∗ ActividadF í sica + γ ∗ X + u donde γ es un vector de parámetros asociados al conjunto de características X de control. Datos En primer lugar tenemos que reflexionar sobre cómo podríamos medir los conceptos de interés “obesidad” y “actividad física”. Ambas son características a nivel individual, por los que aquí podemos ir a la literatura especializada y ver qué se ha hecho en otros estudios similares. Una revisión de algunos estudios en la materia nos lleva a que una medida ampliamente utilizada para medir la obesidad es al índice de masa corporal, IMC, el cual se calcula como: IM C = Peso en kilogramos ( Altura en metros ) 2 Para ello, necesitamos información sobre el peso y talla de los individuos, es decir, medidas antropométricas o que miden las dimensiones o características de los individuos. 4 Asimismo, necesitamos una medida de actividad física, por ejemplo el número de minutos que la persona hizo actividad física vigorosa en la última semana. Este tipo de información a nivel individual suele ser contenida en encuestas de salud, ines- timablemente hay pocas encuestas que recopilen la información sobre el estado de salud y la actividad física para los mismos individuos Una encuesta nacional útil para este fin es la ENSANUT 2018. 2 La ENSANUT 2018 incluye módulos específicos para medir la actividad física de la persona, así como medidas antropométricas que nos permitien estimar el IMC. En la parte de descargas de la ENSANUT, es posible disponer de información sobre: • Datos de Obesidad : En el componente de Nutrición, el CSV y diccionario de “Cuestionario de Antropometría y Tensión Arterial”. • Datos de actividad física : En el componente de Salud, el CSV y el diccionario de “Actividad física Adolescentes y Adultos”. • Datos sobre características individuales : En el componente de Salud, el CSV y el diccionario de “Información sobre los residentes”. A partir de estos cuestionarios, construimos las variables relevantes a incluir en el análisis, las cuales se presentan en la tabla de descriptivos. La tabla de descriptivos nos dice que el promedio de IMC en nuestra muestra es 28.7, muy por arriba del nivel considerado “Normal” (de entre 18.5 y 24.9 puntos), de hecho, podemos rechazar la hipótesis de que la media del IMC en la muestra sea igual a 24.9 con un nivel de confianza del 99% (t=78.1). Asimismo, el promedio de minutos de actividad física es de 63, aunque con una alta variabilidad, ya que 59 por ciento de la muestra reporta realizar 0 minutos de actividad física vigorosa a la semana. 2 Instituto Nacional de Salud Pública, 2018. Disponible en https://ensanut.insp.mx/encuestas/ensanut201 8/index.php 5 Table 1: Cuadro 1. Estadísticos Descriptivos Variable N = 14,299 IMC 28.7 (5.9) Minutos actividad física 63 (128) Sexo Hombre 43% Mujer 57% Grupo de edad 18 a 24 años 21% 25 a 34 años 24% 35 a 44 años 26% 45 a 54 años 21% 55 a 64 años 8.8% Nivel educativo 0 Sin educación 3.1% 1 Primaria incompleta 8.3% 2 Primaria completa 14% 3 Secundaria 34% 4 Preparatoria 24% 5 Superior o Posgrado 17% Habla lengua indígena Indígena 7.5% No indígena 93% Región CdMx 3.1% Centro 37% Norte 22% Sur 38% 6 En cuanto a las variables de control, 57% de la muestra son mujeres, principalmente entre los 25 y 44 años de edad (50% de la muestra). El nivel educativo más común en la muestra es secundaria (34%), seguido por preparatoria (24%) y superior (17%). 8% de la muestra habla lengua indígena, y la muestra se distribuye 40% en el centro del país (incluyendo la Ciudad de México), 22% en el norte y 38% en el sur. Al analizar la relación entre nuestra variable dependiente (IMC) y la actividad física (ver Gráfica 1), vemos que no hay una relación aparente entre ambas variables, aunque existe una correlación negativa entre estas dos variables de -0.08. 0 200 400 600 800 10 20 30 40 50 60 70 80 Gráfica 1. Diagrama de dispersión entre el Índice de Masa Corporal y los minutos de actividad física vigorosa. México, 2018. Minutos de actividad física Índice de Masa Corporal Notas: Minutos de actividad física corresponden al tiempo que la persona reporta realizar actividad física vigorosa. Fuente: Elaboración propia con datos de la ENSANUT, 2018 (INSP,2019) Análisis de regresión A fin de explorar si existe una relación entre el tiempo que reporta dedicar a la actividad física un individuo y su índice de masa corporal, realizamos un análisis de regresión en el que controlaremos por distintas características individuales que pueden estar asociadas al IMC, tal como se vió en los estudios mencionados anteriormente. 7 En el análisis se incluyen cuatro especificaciones para probar la robustez de nuestros resultados. En la primera se incluye únicamente la variable de interés, minutos de actividad física. En la segunda, se agregan características físicas que pueden estar asociadas al nivel de IMC (sexo y edad). En la tercera incorporamos algunas variables socioeconómicas que pueden estar asociadas a la información de la que dispone el individuo sobre la necesidad de mantener un peso saludable, así como al acceso a servicios médicos preventivos, tiempo y recursos disponibles para realizar actividad física, entre otros. Finalmente en la cuarta especificación incluimos un control por región de residencia (Ciudad de México, Centro, Sur y Norte). El Cuadro 2 presenta nuestros resultados. En la tabla anterior vemos que en el modelo (1), un aumento en un minuto de actividad física vigorosa a la semana conlleva una disminución de 0.004 unidades del Índice de Masa Corporal, coeficiente que es altamente significativo ( p < 0 001 ). En el modelo (2) vemos que el coeficiente de la actividad física vigorosa disminuye su valor a 0.002, lo cual sugiere que se estaban omitiendo variables importantes en el modelo, en este caso el sexo y la edad, las cuales incrementan considerablemente la proporción total de la variabilidad en el IMC que se explica por el modelo (pues la R 2 aumenta de 0.006 a 0.083). Aunque la inclusión de variables adicionales disminuye la magnitud del cambio en el IMC asociado a un aumento en la actividad física, el coeficiente sigue siendo altamente significativo y negativo. En las especificaciones (3) y (4), vemos que la inclusión de variables socioeconómicas y de región no tiene un efecto importante en la estimación del coeficiente de la variable de actividad física, lo cual sugiere que la estimación del efecto es robusta a cambios en la especificación del modelo. Sin embargo, el conjunto de variables asociadas al nivel educativo tiene coeficientes que, de acuerdo al estadístico t , no es posible distinguir estadísticamente de 0 (i.e., son no significativos), por lo que convendría probar si es posible excluir por completo todas esas variables. Para probar si de manera conjunta todas las variables de nivel educativo no aumentan la proporción de la variación explicada en el IMC, realizamos una prueba F en la que la hipótesis nula será: H 0 : β P rimariaincompleta = β P rimariacompleta = β Secundaria = β P reparatoria = β Superior = 0 8 Table 2: Análisis de regresión Dependent variable: Índice de Masa Corporal (1) (2) (3) (4) Actividad física − 0 004 ∗∗∗ − 0 002 ∗∗∗ − 0 002 ∗∗∗ − 0 002 ∗∗∗ (0 0004) (0 0004) (0 0004) (0 0004) Mujer 0 863 ∗∗∗ 0 871 ∗∗∗ 0 858 ∗∗∗ (0 102) (0 102) (0 102) 25 a 34 años 2 520 ∗∗∗ 2 491 ∗∗∗ 2 493 ∗∗∗ (0 141) (0 143) (0 143) 35 a 44 años 4 028 ∗∗∗ 3 976 ∗∗∗ 3 974 ∗∗∗ (0 139) (0 143) (0 143) 45 a 54 años 4 059 ∗∗∗ 4 011 ∗∗∗ 3 995 ∗∗∗ (0 146) (0 153) (0 153) 55 a 64 años 3 851 ∗∗∗ 3 790 ∗∗∗ 3 773 ∗∗∗ (0 189) (0 198) (0 198) Primaria incompleta 0 539 0 578 (0 312) (0 311) Primaria completa 0 185 0 232 (0 296) (0 296) Secundaria 0 416 0 460 (0 283) (0 283) Preparatoria 0 113 0 146 (0 291) (0 292) Superior o Posgrado 0 115 0 152 (0 297) (0 297) No indígena 0 931 ∗∗∗ 1 076 ∗∗∗ (0 183) (0 188) Centro − 0 201 (0 277) Norte 0 672 ∗ (0 285) Sur 0 410 (0 279) Constante 28 954 ∗∗∗ 25 539 ∗∗∗ 24 450 ∗∗∗ 24 066 ∗∗∗ (0 054) (0 124) (0 336) (0 439) Observations 14,299 14,299 14,299 14,299 R 2 0.006 0.083 0.086 0.089 Adjusted R 2 0.006 0.083 0.085 0.088 Residual Std. Error 5.836 (df = 14297) 5.607 (df = 14292) 5.601 (df = 14286) 5.591 (df = 14283) F Statistic 92.525 ∗∗∗ (df = 1; 14297) 216.279 ∗∗∗ (df = 6; 14292) 111.388 ∗∗∗ (df = 12; 14286) 93.208 ∗∗∗ (df = 15; 14283) Note: ∗ p < 0.05; ∗∗ p < 0.01; ∗∗∗ p < 0.001 9 El valor del estadístico F para esta hipótesis nula es de 2.4418766 (con un p-value de 0.0320786), por lo que no podemos rechazar al 1% de confiabilidad la hipótesis nula de que todos los coeficientes de estas variables son iguales a 0, por lo que los excluimos del análisis. De igual forma, las variables asociadas a región parecen ser no estadísticamente signficativas en conjunto, por lo que realizamos la prueba: H 0 : β Centro = β Sur = β N orte = 0 El estadístico F de esta prueba es de 18.5767212 (con un p-value de 5 0541793 × 10 − 12 ), por lo que podemos rechazar al 1% de confiabilidad la hipótesis nula de que todos los coeficientes de estas variables son iguales a 0, por lo que no podemos excluirlos del análisis. Conclusiones La evidencia mostrada en este análisis sugiere que, ante distintos escenarios y especificaciones, el Índice de Masa Corporal se ve reducido ante un aumento en el tiempo dedicado a realizar actividades físicas vigorosas. Cabe anotar que para una persona promedio con sobrepeso (IMC=28.7), lograr reducir su IMC a un nivel normal (24.9 o menos) implicaría realizar 158 horas adicionales de ejercicio a la semana. Cabe destacar que este es sólo un modelo exploratorio y se omiten variables importantes, en especial aquellas dedicadas a la dieta y a la realización de otros tipos de ejercicios, por lo que tiene considerables limitaciones en términos de aplicaciones de políticas públicas. Sin embargo, se debe reconocer el papel que tiene la realización de actividades físicas, por lo que su promoción puede ser parte de una estrategia integral de combate a la obesidad y el sobrepeso. Referencias Hoehner, C. M., Soares, J., Perez, D. P., Ribeiro, I. C., Joshu, C. E., Pratt, M., . . . & Brownson, R. C. (2008). Physical activity interventions in Latin America: a systematic review. American Journal of Preventive Medicine , 34(3), 224-233. Peña, M., & Bacallao, J. (2000). Obesity among the poor: an emerging problem in Latin America and the Caribbean. PHO, 3-10. 10