MÉTODOS DE ANÁLISIS DE DATOS (APUNTES) MATERIAL DIDÁCTICO Matemáticas nº 6 Zenaida Hernández Martín MÉTODOS DE ANÁLISIS DE DATOS (APUNTES) UNIVERSIDAD DE LA RIOJA S ERVICIO DE P UBLICACIONES 2012 Hernández Martín, Zenaida Métodos de análisis de datos : apuntes / Zenaida Hernández Martín. - Logroño : Universidad de La Rioja, Servicio de Publicaciones, 2012. 172 p. ; 29 cm. (Material Didáctico. Matemáticas ; 6) ISBN 978-84-615-7579-4 1. Métodos estadísticos. I. Universidad de La Rioja. Servicio de Publicaciones, ed. 519.2 Métodos de análisis de datos (Apuntes) de Zenaida Hernández Martín (publicado por la Universidad de La Rioja) se difunde bajo una Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 3.0 Unported. Permisos que vayan más allá de lo cubierto por esta licencia pueden solicitarse a los titulares del copyright. © Zenaida Hernández Martín © Universidad de La Rioja, Servicio de Publicaciones, 2012 publicaciones.unirioja.es E-mail: publicaciones@unirioja.es ISBN 978-84-615-7579-4 Edita: Universidad de La Rioja, Servicio de Publicaciones Pr ́ ologo Este libro no pretende ser nada m ́ as que lo que es: unos apuntes completos de lo que se imparte en las clases de M ́ etodos de An ́ alisis de Datos. Un documento de ayuda a los estudiantes, para que puedan dedicarse a escuchar atentamente las explicaciones del profesor y a resolver los ejemplos y ejercicios planteados en clase y, a la vez, que sus apuntes est ́ en completos, las definiciones correctas, las explicaciones est ́ en recogidas y que las f ́ ormulas est ́ en correctamente escritas. Aunque se incluyen algunos ejemplos, en estos apuntes no se incluye, como suele ser habitual, una lista de problemas, al menos en esta primera versi ́ on. Por otra parte, los contenidos te ́ oricos impartidos en clase se deben completar con unas pr ́ acticas en aula inform ́ atica, en las que se aprender ́ a a hacer un an ́ alisis estad ́ ıstico utilizando un software adecuado. Estas pr ́ acticas abarcan desde la obtenci ́ on de datos a partir de las fuentes m ́ as habituales de informaci ́ on estad ́ ıstica, al an ́ alisis de los mismos, tanto de forma descriptiva como mediante la realizaci ́ on e interpretaci ́ on correcta de los contrastes de hip ́ otesis m ́ as habituales (los apuntes de estas pr ́ acticas tampoco est ́ an contenidos en este libro). La mayor ́ ıa de los gr ́ aficos y tablas que aparecen en estos apuntes se han realizado con el software de StatSoft, Inc. (2007). STATISTICA (Sistema inform ́ atico de an ́ alisis de datos), versi ́ on 8.0. www.statsoft.com, que es el que se est ́ a utilizando actualmente en las clases pr ́ acticas. Hablemos del contexto. La asignatura de M ́ etodos de An ́ alisis de Datos es una asig- natura de Estad ́ ıstica B ́ asica, que se imparte en varias titulaciones, sobre todo de las llamadas de letras y cuyos contenidos est ́ an pensados para familiarizar a los estudiantes con las t ́ ecnicas m ́ as elementales de la Estad ́ ıstica, con su manejo y su interpretaci ́ on. El objetivo de la asignatura es que los estudiantes conozcan distintas medidas y t ́ ecni- cas estad ́ ısticas, sepan cu ́ ando aplicarlas y sobre todo, c ́ omo interpretarlas. No se pre- tenden grandes sesiones de c ́ alculo y tampoco se hace mucho hincapi ́ e en el fundamento matem ́ atico, sino que se busca la comprensi ́ on de los estad ́ ısticos, cu ́ ando, para qu ́ e y por qu ́ e aplicarlos. Seg ́ un los objetivos descritos para esta asignatura en los distintos Grados en los que se imparte, el estudiante debe adquirir una serie de competencias y habilidades, entre las que se encuentran las siguientes: Deber ́ a ser capaz de enfrentarse a una situaci ́ on y reconocer, si lo hay, un problema 3 4 estad ́ ıstico. Por otra parte, a la vista de una serie de resultados estad ́ ısticos, debe ser capaz de interpretarlos, resumiendo la informaci ́ on y/o describiendo la situaci ́ on de una forma coherente. Deber ́ a adquirir conocimientos estad ́ ısticos b ́ asicos suficientes para comprender y defender o rechazar argumentos estad ́ ısticos de la vida cotidiana. Deber ́ a conocer y aplicar las t ́ ecnicas m ́ as utilizadas para la presentaci ́ on y resumen de datos unidimensionales y bidimensionales, tanto cuantitativos como cualitativos. Deber ́ a ser capaz de elaborar, presentar y defender un informe de la materia bien estructurado, utilizando el lenguaje correcto y la terminolog ́ ıa adecuada. Para conseguirlo, se ha pensado en un temario que incluye 10 temas y que son los que constituyen este curso. Este documento est ́ a basado en el desarrollo del temario de la asignatura durante los cursos 2009-2010 y 2010-2011, de modo que se ajusta en tiempo y contenidos a los objetivos que se pretenden, por lo que es v ́ alido no solo para los estudiantes, sino tambi ́ en, como marco de referencia, para cualquier profesor que tenga que abordar por primera vez esta asignatura o alguna similar. Como dec ́ ıa al principio, este libro no pretende ir m ́ as all ́ a de los apuntes, completos, de clase. Tras el ́ Indice, se comentan cuatro libros que se ajustan bastante al temario y al nivel de esta asignatura. Para acceder a otras explicaciones y/o ampliar conocimientos tienen en la Biblioteca de la Universidad bibliograf ́ ıa actualizada m ́ as que suficiente. Por ́ ultimo, no ser ́ ıa justo terminar esta peque ̃ na introducci ́ on sin agradecer a mis compa ̃ neros Montse San Mart ́ ın, Juan Carlos Fillat y David Ortigosa, sus aportaciones y correcciones y sobre todo por su apoyo para que estos apuntes pudieran salir a la luz. Logro ̃ no, julio de 2011 ́ Indice 1. Estad ́ ısticas econ ́ omicas y sociales 11 1.1. La utilidad de la Estad ́ ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2. Definiciones iniciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.3. Fuentes de informaci ́ on estad ́ ıstica . . . . . . . . . . . . . . . . . . . . . . . 17 2. Estad ́ ıstica Descriptiva unidimensional 19 2.1. Escalas de medici ́ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2. Resumen de los datos: tablas de frecuencias . . . . . . . . . . . . . . . . . 20 2.3. Lectura de las tablas de frecuencias . . . . . . . . . . . . . . . . . . . . . . 26 2.4. Gr ́ aficos unidimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.4.1. Gr ́ aficos para distribuciones no agrupadas en intervalos . . . . . . . 30 2.4.2. Gr ́ aficos para distribuciones agrupadas . . . . . . . . . . . . . . . . 33 2.5. Medidas de una variable cuantitativa . . . . . . . . . . . . . . . . . . . . . 34 2.6. Medidas de posici ́ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.6.1. La media aritm ́ etica . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.6.2. La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.6.3. La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.6.4. Medidas de posici ́ on no central . . . . . . . . . . . . . . . . . . . . 39 2.7. Medidas de dispersi ́ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.7.1. Medidas de dispersi ́ on absoluta . . . . . . . . . . . . . . . . . . . . 40 2.7.2. Medidas de dispersi ́ on relativa . . . . . . . . . . . . . . . . . . . . . 43 2.8. Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.8.1. Medidas de simetr ́ ıa y asimetr ́ ıa . . . . . . . . . . . . . . . . . . . . 45 5 6 ́ INDICE 2.8.2. Medidas de curtosis o apuntamiento . . . . . . . . . . . . . . . . . . 46 2.9. Medidas de concentraci ́ on . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.9.1. La curva de Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.9.2. ́ Indice de concentraci ́ on de Gini . . . . . . . . . . . . . . . . . . . . 49 2.10. Ejemplo resuelto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3. N ́ umeros ́ ındices 57 3.1. N ́ umeros ́ ındices simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.2. N ́ umeros ́ ındices compuestos no ponderados . . . . . . . . . . . . . . . . . 58 3.3. N ́ umeros ́ ındices compuestos ponderados . . . . . . . . . . . . . . . . . . . 59 3.4. ́ Indices de precios, de cantidad y de valor . . . . . . . . . . . . . . . . . . . 60 3.4.1. ́ Indices de precios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.4.2. ́ Indices de cantidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.4.3. ́ Indices de valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.5. Propiedades de los n ́ umeros ́ ındices . . . . . . . . . . . . . . . . . . . . . . 63 3.6. Pasos para el c ́ alculo de los n ́ umeros ́ ındices . . . . . . . . . . . . . . . . . 64 3.7. La deflaci ́ on de valores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.8. ́ Indice de precios de consumo . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.9. Ejemplos resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 4. La curva Normal 73 4.1. Propiedades de la curva Normal . . . . . . . . . . . . . . . . . . . . . . . . 74 4.2. Valores tipificados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 4.3. Proporciones de la curva Normal . . . . . . . . . . . . . . . . . . . . . . . 77 4.3.1. ¿C ́ omo se utiliza la tabla? . . . . . . . . . . . . . . . . . . . . . . . 78 4.3.2. C ́ alculos en distintas situaciones . . . . . . . . . . . . . . . . . . . . 79 4.3.3. Obtenci ́ on de valores cr ́ ıticos . . . . . . . . . . . . . . . . . . . . . . 81 4.4. La distribuci ́ on t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . 83 5. Probabilidad y variables aleatorias 89 5.1. Operaciones con sucesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 ́ INDICE 7 5.2. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 5.3. Probabilidades condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . 93 5.4. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 5.5. Esperanza matem ́ atica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.6. La probabilidad y la curva Normal . . . . . . . . . . . . . . . . . . . . . . 99 6. Introducci ́ on a la Inferencia Estad ́ ıstica 101 6.1. Distribuci ́ on de la media muestral . . . . . . . . . . . . . . . . . . . . . . . 101 6.2. Intervalo de confianza para la media . . . . . . . . . . . . . . . . . . . . . 103 6.3. Contraste de hip ́ otesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.4. Contraste de hip ́ otesis para la media . . . . . . . . . . . . . . . . . . . . . 109 6.5. Distribuci ́ on de la proporci ́ on muestral . . . . . . . . . . . . . . . . . . . . 111 6.5.1. Intervalo de confianza para una proporci ́ on . . . . . . . . . . . . . . 112 6.5.2. Contraste de hip ́ otesis para una proporci ́ on . . . . . . . . . . . . . . 114 6.6. Contraste de igualdad (o diferencia) de medias . . . . . . . . . . . . . . . . 115 6.7. Contraste de igualdad (o diferencia) de proporciones . . . . . . . . . . . . . 117 6.8. Ejemplos resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 7. Muestreo 127 7.1. T ́ ecnicas de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 7.2. Tama ̃ no de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 7.2.1. Para la estimaci ́ on de una media . . . . . . . . . . . . . . . . . . . 129 7.2.2. Para la estimaci ́ on de una proporci ́ on . . . . . . . . . . . . . . . . . 131 7.2.3. Para la estimaci ́ on de una diferencia de medias . . . . . . . . . . . . 133 7.2.4. Para la estimaci ́ on de una diferencia de proporciones . . . . . . . . 133 8. Estad ́ ıstica Descriptiva bidimensional 135 8.1. Tablas de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 8.2. Gr ́ aficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.3. Distribuciones marginales y condicionadas . . . . . . . . . . . . . . . . . . 139 8.3.1. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . 139 8 ́ INDICE 8.3.2. Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . 140 8.4. La covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 8.5. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 9. Correlaci ́ on y regresi ́ on lineal 145 9.1. Correlaci ́ on lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 9.2. Regresi ́ on lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 9.3. An ́ alisis de la bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . 151 9.4. Aplicaciones de la regresi ́ on . . . . . . . . . . . . . . . . . . . . . . . . . . 153 9.5. Ejemplo resuelto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 10.An ́ alisis estad ́ ıstico de datos cualitativos 159 10.1. Correlaci ́ on por rangos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 10.2. Asociaci ́ on entre caracteres nominales . . . . . . . . . . . . . . . . . . . . . 161 10.2.1. Tablas de contingencia 2 × 2 . . . . . . . . . . . . . . . . . . . . . . 161 10.2.2. Tablas de contingencia h × k . . . . . . . . . . . . . . . . . . . . . . 163 10.3. La distribuci ́ on Ji cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . 165 A. Tablas 167 Bibliograf ́ ıa comentada En la Biblioteca de la Universidad se dispone de abundante bibliograf ́ ıa actualizada, con la que se pueden completar estos apuntes y profundizar m ́ as en el temario. Aqu ́ ı se recomiendan algunos libros, que permiten completar la informaci ́ on de cada tema, tanto por su facilidad de comprensi ́ on como por ajustarse bastante a los contenidos que nos interesan. Introducci ́ on a la Estad ́ ıstica Econ ́ omica y Empresarial , Mart ́ ın-Pliego L ́ opez, F. J.; Ed. Thomson. Madrid. 2004 (3 a edici ́ on). Incluye los temas: 2, 3, 8, 9 y 10. Lecciones de Estad ́ ıstica Descriptiva. Curso te ́ orico-pr ́ actico , Tomeo Perucha, V. y U ̃ na Ju ́ arez, I.; Ed. Thomson. Madrid. 2003. Incluye los temas: 2, 3, 8, 9 y 10. An ́ alisis de datos en Psicolog ́ ıa I. Teor ́ ıa y ejercicios . Botella, J. y otros; Ed. Pir ́ ami- de. Madrid. 2001. Incluye los temas: 2, 4, 5, 6, 8 y 9. Estad ́ ıstica para las ciencias del comportamiento . Pagano, R.; Ed. Thomson. M ́ ejico. 1999 (5 a edici ́ on). Incluye los temas: 2, 4, 5, 6, 7, 8 y 9. 9 Tema 1 Estad ́ ısticas econ ́ omicas y sociales ¿Para qu ́ e necesita un trabajador social o un economista la Estad ́ ıstica? ¿Entendemos las noticias de los peri ́ odicos? ¿Sabemos contestar a un argumento estad ́ ıstico elemental? El objetivo de este tema es variado. En primer lugar y como tema principal: comprender la utilidad de la Estad ́ ıstica en las ciencias sociales. En segundo lugar, debemos establecer algunas definiciones y conceptos elementales que nos permitan unificar el vocabulario y los criterios para comenzar a trabajar utilizando un correcto lenguaje estad ́ ıstico. Por ́ ultimo, para hacer un estudio estad ́ ıstico necesitamos datos. En algunos casos debemos obtenerlos nosotros, pero en otros muchos casos, ya hay mucha informaci ́ on elaborada por organismos oficiales. En este sentido comentaremos diversas fuentes de informaci ́ on estad ́ ıstica tanto de ́ ambito regional, como nacional e internacional. 1.1. La utilidad de la Estad ́ ıstica A la hora de tomar decisiones en nuestro trabajo, e incluso en cualquier situaci ́ on de nuestra vida cotidiana, nos encontramos con que esas decisiones las debemos tomar bas ́ andonos en una informaci ́ on que nos dan o que, de alguna forma, conocemos. Aunque no nos demos cuenta, estamos manejando informaci ́ on estad ́ ıstica en situacio- nes tales como: El ni ̃ no pide la paga y sus padres le preguntan: ¿y cu ́ anto les dan a tus amigos sus padres? Nos cuestionamos las noticias ya que leemos o escuchamos que (( seis de cada diez trabajadores en Espa ̃ na son mileuristas )) (en el comentario se especifica que del 11 12 TEMA 1. ESTAD ́ ISTICAS ECON ́ OMICAS Y SOCIALES total de los 27.94 millones de personas que perciben alg ́ un ingreso (asalariados, pensionistas, parados y aut ́ onomos), el 63 % tiene unos ingresos brutos mensuales inferiores a los 1100 euros). Mientras que por otro lado nos dicen que el sueldo medio mensual en Espa ̃ na es de m ́ as de 1500 euros. Tenemos que renovar el alquiler con la subida del IPC. Nos dicen que los precios suben un 2 % (y no nos suben m ́ as el sueldo), pero a nosotros no nos llega para comprar lo mismo que el a ̃ no pasado. Estamos viendo un partido de baloncesto y tenemos la informaci ́ on de la diferencia de puntos en cada minuto. Son muchas las situaciones en las que vamos a tener que tomar decisiones importantes. Para ello tendremos que conocer, de alguna forma, la situaci ́ on concreta que estamos analizando por lo que debemos manejar informaci ́ on sobre la misma. Desgraciadamente no siempre podremos basar nuestras decisiones en la experiencia, pero cuando esto es posible, entra en juego la Estad ́ ıstica. Por lo tanto, las situaciones que nos interesan aqu ́ ı son aquellas en las que vamos a manejar datos para ayudarnos a tomar nuestras decisiones. Una vez que tenemos los datos, la investigaci ́ on social se puede utilizar con dos enfo- ques: para describir el fen ́ omeno o para tomar decisiones. A partir de una masa de datos, la Estad ́ ıstica Descriptiva nos permite describir la situaci ́ on analizada. Para ello se utilizan m ́ etodos de reducci ́ on de la masa de datos, c ́ alculo de promedios, dispersi ́ on o tendencias, que nos permiten sacar conclusiones de estos datos. Supongamos, por ejemplo, que conocemos las notas de selectividad de los 225 estu- diantes que se matricularon en septiembre en una universidad peque ̃ na. Esto constituir ́ ıa una masa de datos. Vamos a manejar una tabla ficticia para este ejemplo, pero m ́ as adelante veremos que en muchas ocasiones (no en todas) se pueden conseguir los datos reales sin mucha dificultad. 7.3 4.2 6.5 4.0 4.7 7.7 8.0 2.2 6.6 3.4 5.6 8.9 7.0 9.9 7.7 7.9 4.4 4.1 3.5 4.0 5.3 3.0 7.8 6.2 6.5 4.3 7.1 7.5 3.0 3.4 5.0 7.4 6.0 6.9 8.8 5.7 6.8 5.1 4.0 6.1 3.3 8.4 9.3 7.2 3.4 5.0 9.8 5.8 9.1 8.3 4.4 8.4 5.4 7.0 5.6 6.3 7.7 6.4 5.8 3.4 0.9 8.1 8.1 6.3 5.7 3.0 4.5 8.5 9.6 7.6 1.8 7.0 2.6 3.2 4.9 3.7 4.3 6.7 3.9 8.5 8.3 3.3 6.4 4.2 8.5 5.9 7.2 7.2 5.8 2.7 5.1 1.2 4.0 5.4 5.2 6.6 1.0 2.7 6.2 9.3 8.1 2.0 9.6 4.5 4.0 6.0 9.2 9.0 8.8 7.3 5.4 6.5 5.1 6.0 8.2 4.7 5.1 4.9 5.6 8.9 8.0 5.4 6.5 3.2 8.1 4.2 2.3 4.0 4.6 7.8 6.7 5.9 6.8 6.2 8.3 6.2 4.8 6.8 7.5 7.4 6.7 4.7 4.5 1.4 3.3 2.1 6.8 6.1 7.6 4.1 1.3 6.7 7.2 8.2 6.2 2.6 5.4 5.0 8.5 6.1 8.7 6.1 0.3 3.9 6.7 4.1 1.7 7.0 6.1 4.8 9.0 5.7 6.2 7.3 8.7 8.5 4.6 8.7 7.3 9.5 5.1 9.1 8.0 1.2 6.3 3.4 3.6 8.7 9.2 3.1 5.4 6.5 3.8 8.2 9.7 3.9 7.7 9.4 5.9 7.7 8.8 6.2 2.3 6.4 7.8 3.6 7.1 4.8 3.6 6.2 7.1 7.8 4.6 6.0 8.9 4.7 8.7 4.3 5.3 6.8 1.8 2.3 6.3 9.1 8.2 1.1. LA UTILIDAD DE LA ESTAD ́ ISTICA 13 La simple observaci ́ on directa de esta masa de datos (son n ́ umeros) no nos permite sacar conclusiones respecto a los mismos. Sin embargo, utilizando las t ́ ecnicas de Estad ́ ısti- ca Descriptiva, incluso las m ́ as elementales, podemos describir el comportamiento de las calificaciones de los estudiantes con bastante precisi ́ on. En los pr ́ oximos temas veremos con detenimiento estas t ́ ecnicas, pero ahora, como ejemplo, vamos a ver su utilidad: Un primer paso para sacar alguna conclusi ́ on de esta masa de datos consiste en redu- cirla . Para ello se procede a ordenarlos y agruparlos en categor ́ ıas (este proceso se conoce como tabulaci ́ on): De esta forma, podemos comenzar a hacernos una idea de la distribuci ́ on de la variable estudiada (calificaciones). La simple observaci ́ on de la tabla nos permite decir que la mayor ́ ıa de las calificaciones est ́ an en la parte central y que en los extremos hay pocas observaciones; que hay 74 suspensos que corresponden al 32.89 % de las observaciones o que lo m ́ as habitual es tener una nota en el intervalo [6,7). En la mayor ́ ıa de las ocasiones, tambi ́ en es interesante representar gr ́ aficamente esta informaci ́ on ya que la interpretaci ́ on suele ser m ́ as sencilla: 14 TEMA 1. ESTAD ́ ISTICAS ECON ́ OMICAS Y SOCIALES En el histograma anterior, podemos visualizar algunas de las observaciones que ya hemos hecho, como destacar el hecho de que son muy pocas las calificaciones por debajo de 3 o por encima de 9; que la mayor ́ ıa de las calificaciones se encuentran entre 4 y 9 y que se reparten de forma bastante (( uniforme )) salvo en el intervalo [6,7) en el que hay un mayor n ́ umero de calificaciones. Aunque todav ́ ıa no hemos comenzado con la asignatura propiamente, un procedimiento estad ́ ıstico con el que todos estamos familiarizados, es preguntarnos por la calificaci ́ on promedio. La media aritm ́ etica se obtiene sumando todas las calificaciones y dividiendo por el n ́ umero total de estudiantes y nos permite hacernos una idea de la tendencia en el grupo. Nos da un valor alrededor del cual se encuentran todas las dem ́ as calificaciones. En este caso la calificaci ́ on media es de 5.92 lo que nos dice que la calificaci ́ on media de selectividad ha sido bastante baja. As ́ ı, con estos sencillos recursos estad ́ ısticos (tablas de distribuci ́ on de frecuencias, gr ́ aficos y la media aritm ́ etica) hemos podido detectar y describir algunos aspectos del comportamiento de las calificaciones, que la mera observaci ́ on de la masa de datos no nos permite. Las t ́ ecnicas de Estad ́ ıstica Descriptiva nos van a permitir reducir la masa de datos a unos pocos indicadores con los que podremos describir adecuadamente el comportamiento de la variable. La Estad ́ ıstica tambi ́ en se utiliza para contrastar hip ́ otesis. Constantemente hacemos hip ́ otesis o conjeturas sobre ciertas situaciones, pero cuando nuestras decisiones las tene- mos que basar en estas hip ́ otesis, es convenientes contrastarlas. 1.1. LA UTILIDAD DE LA ESTAD ́ ISTICA 15 Podemos afirmar (porque es una creencia o porque nos da la impresi ́ on) que fuman m ́ as los hombres que las mujeres o que una determinada enfermedad tiene mayor incidencia en una provincia o en otra. Sin embargo, si tenemos que tomar una decisi ́ on basada en estos hechos, deber ́ ıamos saber cu ́ al es el nivel de confianza de estas afirmaciones, hasta qu ́ e punto podemos apoyarnos en ellas. Esto lo haremos con los contrastes de hip ́ otesis. Est ́ a claro que si tenemos informaci ́ on completa de un fen ́ omeno, no hay nada que contrastar. Si en la Universidad de La Rioja se han matriculado 3000 hombres y 3600 mujeres, podemos afirmar con certeza absoluta que hay m ́ as mujeres que hombres. Sin embargo, hay informaciones que nos interesa contrastar ya que depender del sentido com ́ un o de las experiencias cotidianas tiene sus limitaciones y son muchas las ocasiones en las que las (( creencias populares )) no coinciden con la realidad. Por ejemplo: (( En la Universidad de La Rioja es m ́ as probable que tengan el carn ́ e de conducir los hombres que las mujeres )) ; esta afirmaci ́ on se puede deber a una impresi ́ on por lo que se ve, pero no se sabe a ciencia cierta. Si queremos utilizarla con propiedad habr ́ a que contrastarla. Por otra parte, en la Universidad de La Rioja hay unos 6600 alumnos, por lo que quiz ́ as no nos sea posible entrevistarlos a todos para saber si tienen carn ́ e o no y distinguir por sexo a los conductores. En este caso habr ́ ıa que tomar una porci ́ on o muestra del grupo grande que queremos analizar (poblaci ́ on), probaremos la hip ́ otesis para la muestra y decidiremos si es posible y correcto extender el resultado a la poblaci ́ on de la que se obtuvo la muestra. El problema de generalizar, o hacer inferencia, es que al tomar una muestra estamos asumiendo que existe un error inevitable, por muy bueno y correcto que haya sido el muestreo. No podemos garantizar nuestra respuesta con una seguridad del 100 %. Si en la tabla de las notas tomamos varias muestras de 5 calificaciones, veremos que las me- dias para cada una de las muestras son distintas a la media global: 5.92. Esto es lo que llamaremos error de muestreo. Supongamos para simplificar que la mitad de los alumnos son hombres y la otra mitad mujeres, y que a partir de las listas de alumnos tomamos una muestra de 100 hombres (1 de cada 33) y otra de 100 mujeres (1 de cada 33), ahora les preguntamos si tienen el carn ́ e o no. Consideramos las siguientes tres respuestas: Respuesta 1 Respuesta 2 Respuesta 3 H M H M H M Carn ́ e SI 60 40 55 45 51 49 Carn ́ e NO 40 60 45 55 49 51 Totales 100 100 100 100 100 100 Las 3 respuestas est ́ an de acuerdo con nuestra hip ́ otesis, pero lo que a nosotros nos interesa es saber si estas diferencias son lo suficientemente importantes como para gene- ralizarlas a todos los estudiantes. Es decir, nos preguntamos si las diferencias encontradas 16 TEMA 1. ESTAD ́ ISTICAS ECON ́ OMICAS Y SOCIALES se deben al comportamiento de toda la poblaci ́ on o solo se deben a la muestra elegida. ¿Hasta qu ́ e punto estamos dispuestos a aceptar la hip ́ otesis con estos resultados?, ¿en qu ́ e punto es suficientemente grande la diferencia como para considerarla real?, la Inferencia Estad ́ ıstica nos permitir ́ a tomar nuestra decisi ́ on de una forma sencilla y con un nivel de confianza determinado. 1.2. Definiciones iniciales En los comentarios anteriores hemos estado utilizando algunos t ́ erminos estad ́ ısticos sin conocer cu ́ al es su definici ́ on correcta. Para poder trabajar en Estad ́ ıstica es conveniente tener claros los conceptos y utilizar un lenguaje com ́ un, que no d ́ e lugar a confusi ́ on, por lo que vamos a proceder a dar algunas definiciones b ́ asicas. Para poder realizar cualquier an ́ alisis estad ́ ıstico debemos disponer de unos datos. Y estos datos corresponden a los valores obtenidos al estudiar determinadas caracter ́ ısticas en los elementos de un conjunto de entes. Para fijar el lenguaje que utilizaremos, estableceremos los siguientes t ́ erminos: Poblaci ́ on es el conjunto de entes (personas, animales o cosas) sobre los que se va a llevar a cabo la investigaci ́ on estad ́ ıstica. Elemento es cada uno de los componentes de la poblaci ́ on (pueden ser simples o com- puestos). Tama ̃ no de la poblaci ́ on es el n ́ umero de elementos que la componen. Caracteres son las cualidades o rasgos comunes a toda la poblaci ́ on que vamos a estudiar. Pueden ser cuantitativos ( variables ) o cualitativos ( atributos ). Aunque existe el an ́ alisis estad ́ ıstico de los caracteres cualitativos (se ver ́ a al final del temario), cuando se habla de an ́ alisis estad ́ ıstico, generalmente nos referimos al an ́ alisis de las caracter ́ ısticas cuantitativas observadas en los elementos de una poblaci ́ on. Por lo tanto, generalmente trabajaremos con variables estad ́ ısticas que, atendiendo a los valores que pueden tomar, pueden ser discretas o continuas ; y esta diferencia hace que en muchas ocasiones tengan un tratamiento diferente. Diremos que una variable estad ́ ıstica es discreta si dados dos valores distintos de la variable, entre ellos no puede haber m ́ as que un n ́ umero finito de valores de la variable, por muy alejados que est ́ en entre s ́ ı. Por ejemplo: n ́ umero de hijos. Diremos que una variable estad ́ ıstica es continua si, dados dos valores distintos de la variable, entre ellos hay infinitos posibles valores de la variable, por muy pr ́ oximos que est ́ en entre s ́ ı. Por ejemplo: peso, tiempo...