jueves, 21 de febrero de 2008

Boxplot

¿Qué información muestra?

Esta presentación visual, asocia las cinco medidas que suelen trabajarse de forma individual. Presenta al mismo tiempo, información sobre la tendencia central, dispersión y simetría de los datos de estudio. Además, permite identificar con claridad y de forma individual, observaciones que se alejan de manera poco usual del resto de los datos. A estas observaciones se les conoce como valores atípicos.

Por su facilidad de construcción e interpretación, permite también comparar a la vez varios grupos de datos sin perder información ni saturarse de ella. Esto ha sido particularmente importante a la hora de escoger esta representación para mostrar la opinión de los estudiantes respecto a la actuación docente a través de las diversas preguntas del instrumento utilizado.


· Partes del Boxplot

El nombre original del gráfico introducido por Jhon Tukey en 1977 es Box and whisker plot, es decir, diagrama de caja y bigote. En efecto, el gráfico consiste en un rectángulo (caja) de cuyos lados superior e inferior se derivan respectivamente, dos segmentos: uno hacia arriba y uno hacia abajo (bigotes).

La caja y los bigotes están ubicados paralelos a un eje rotulado, que en este caso está en la escala del 1 al 5 e indica el puntaje obtenido en una pregunta según la opinión de los estudiantes que llenaron el instrumento de opinión.

Las partes del Boxplot se identifican como sigue:

1.-Límite superior: Es el extremo superior del bigote. Las opiniones por encima de este límite se consideran atípicas. Para más detalles consulte sobre la construcción de los límites y los valores atípicos.

2.-Tercer cuartil (Q3): Por debajo de este valor se encentran como máximo el 75% de las opiniones de los estudiantes.

3.-Mediana: Coincide con el segundo cuartil. Divide a la distribución en dos partes iguales. De este modo, 50% de las observaciones están por debajo de la mediana y 50% está por encima.

4.-Primer cuartil (Q1): Por debajo de este valor se encuentra como máximo el 25% de las opiniones de los estudiantes

5.-Límite inferior: Es el extremo inferior del bigote. Las opiniones por debajo de este valor se consideran atípicas. Para más detalles consulte sobre la construcción de los límites y los valores atípicos.

6.-Valores atípicos: Opiniones que están apartadas del cuerpo principal de datos. Pueden representar efectos de causas extrañas, opiniones extremas o en el caso de la tabulación manual, errores de medición o registro.
Se colocan en la gráfica con asteriscos (*) o puntos (.) según se alejan menos o más del conjunto de datos. Se utiliza un superíndice numérico para indicar el número de veces que aparece ese dato como atípico. NOTA: Esta presentación en línea del Boxplot está en primera versión y aun en proceso de mejora. Se señalan los datos atípicos con una circunferencia (o) en el caso de ser única la observación. En caso contrario, usted sólo verá un triángulo ($). Si esto sucede, debe remitirse al reporte numérico para verificar la cantidad de observaciones atípicas por pregunta.

7.-Media aritmética: Es lo que tradicionalmente se conoce como promedio. Originalmente no forma parte del boxplot, sin embargo, se consideró su inclusión para dar una idea del puntaje general obtenido por pregunta. Actualmente se trabaja en la elaboración de estadísticos más representativos que la media aritmética para describir el conjunto de datos.


· ¿Cómo se interpreta?

Tenga en cuenta las siguientes consideraciones a la hora de interpretar el boxplot:

.-Mientras más larga la caja y los bigotes, más dispersa es la distribución de datos.

.-La distancia entre las cinco medidas descritas en el boxplot (sin incluir la media aritmética) puede variar, sin embargo, recuerde que la cantidad de elementos entre una y otra es aproximadamente la misma. Entre el límite inferior y Q1 hay igual cantidad de opiniones que de Q1 a la mediana, de ésta a Q3 y de Q3 al límite superior. Se considera aproximado porque pudiera haber valores atípicos, en cuyo caso la cantidad de elementos se ve levemente modificada.

.-La línea que representa la mediana indica la simetría. Si está relativamente en el centro de la caja la distribución es simétrica. Si por el contrario se acerca al primer o tercer cuartil, la distribución pudiera ser sesgada a la derecha (asimétrica positiva) o sesgada a la izquierda (asimétrica negativa respectivamente. Esto suele suceder cuando las opiniones de los estudiantes tienden a concentrase más hacia un punto de la escala.

.-La mediana puede inclusive coincidir con los cuartiles o con los límites de los bigotes. Esto sucede cuando se concentran muchos datos en un mismo punto, en este caso, cuando muchos estudiantes opinan igual en determinada pregunta. Pudiera ser este un caso particular de una distribución sesgada o el caso de una distribución muy homogénea.

.-Las opiniones emitidas como No aplica (N/A) cuando en realidad sí aplica o las opiniones nulas (cuando el estudiante no opina en una pregunta), no son tomadas en cuenta para elaborar el boxplot de esa pregunta. Por esta razón encontrará que en ocasiones no hay igual número de opiniones para todas las preguntas.

.-Debe estar atento al número de estudiantes que opina en cada pregunta. Lo que pareciera ser dispersión en los resultados, en ocasiones podría deberse a un tamaño de muestra muy pequeño: pocos estudiantes opinaron. Debe ser cauteloso a la hora de interpretar. En estos casos se sugiere remitirse al reporte numérico.

.-En términos comparativos, procure identificar aquellas preguntas cuyos boxplot parecen diferir del resto. Pudiera con esto encontrar fortalezas o debilidades en su actuación según la opinión de los estudiantes.


· Ejemplo

Se observa una variabilidad muy grande en cuanto a las impresiones que los estudiantes tienen del profesor en los diferentes aspectos de su actuación. Esto se concluye porque no existe una tendencia homogénea en las respuestas por pregunta.

Las opiniones son muy homogéneas y positivas en la pregunta 5: Logra comunicarse efectivamente con el estudiante. Este aspecto resalta en la actuación del docente y además todos los estudiantes encuestados coinciden en ello.

También se considera muy positiva la impresión que los estudiantes tienen en cuanto a los aspectos que se refieren a las preguntas 2, 6, 9, 12 y 13; salvo un par de opiniones que difieren del resto en las preguntas 2 y 6, las respuestas son homogéneas. Note que estas opiniones separadas son datos atípicos pues se alejan del cuerpo de datos. Note también que por el proceso de mejora que sufren los gráficos presentados en línea, debe remitirse al reporte numérico en la pregunta 2 para verificar el número de respuestas atípicas dado que el símbolo representativo por el momento es ($), mas no así en la 9 pues ya se comentó que el símbolo (¡) se refiere a sólo un dato atípico y en este caso vale “2”.

Observe que según la opinión de los estudiantes el aspecto de la pregunta 17: Realiza la entrega y revisión oportuna de los resultados de las evaluaciones revela el puntaje más bajo respecto al resto de las pregunta, lo cual pudiera ser un aspecto a considerar por el docente dado que además el 50% de los estudiantes le otorga el puntaje más bajo. Note que aquí la mediana es “1”, lo que indica que la mitad de las observaciones está allí (no por debajo porque no hay valor más bajo)

Note que algunos boxplot no tienen bigotes. En estos casos, como por ejemplo en la pregunta 19, el límite inferior coincide con el Q1 y el límite superior coincide con el Q3. En esta pregunta se evidencia simetría y bastante variabilidad.

El resto de las preguntas presentan alta variabilidad por lo que deben leerse cuidadosamente en función del punto donde se concentra la mayor cantidad de información, esto es, viendo la posición de la mediana (véase Simetría). Esta alta variabilidad indica que la opinión de los estudiantes respecto a los planteamientos es bastante heterogén

Cuartiles: Son valores que dividen a la distribución en cuatro partes iguales en cuanto a la cantidad de datos. Así, tenemos que el Primer cuartil (Q1), es el valor por debajo del cual ocurre el 25% de las observaciones y el Tercer cuartil (Q3) es aquel por debajo del cual ocurre el 75% de las observaciones. Siguiendo en esta línea, el Segundo cuartil (Q2) coincide con la mediana de la distribución.

Dispersión: Indica la variabilidad del conjunto de datos: cómo se distribuyen los datos de estudio. Una dispersión grande indica un conjunto de datos heterogéneos e implica poca utilidad de una medida de tendencia central únicamente para describir la distribución.


Estadísticos: son valores representativos que proporcionan información sobre la serie en cuanto a su posición en la escala de medición, agrupamiento en torno a un valor, distribución de los datos y concentración en una región entre otros. Los estadísticos proveen información sobre una muestra. Cuando se trabaja con toda la información (población) se le denomina parámetro.


Mediana: Es medida de tendencia central. Es un dato de la distribución que la divide en dos partes iguales de forma tal que por debajo y por encima de ella se encuentra como máximo el 50% de los datos de estudio. Por ejemplo, si las opiniones de cinco estudiantes (en puntaje del 1 al 5) fueron: 1-1-3-4-5, entonces 3 es la mediana; o si los puntajes fueron: 1-1-3-4-5-5, la mediana está entre 3 y 4 y la consideramos como 3,5.


Media aritmética o promedio: Es un estadístico de tendencia central. Representa una especia de punto de equilibrio para el conjunto de datos. Para calcularlo se emplean todos los datos de la distribución por lo que tiene la desventaja de verse afectada por datos muy grandes o pequeños, lo que conlleva a que en ocasiones no sea representativa de la distribución. Resulta de sumar todos los datos de la distribución y dividirlos entre el total de datos.


Simetría: Indica la forma del conjunto de datos, lo cual implica observar dónde se concentra la información. Para el estudio de la forma de una distribución, también se usan los términos sesgo o asimetría. Una distribución puede ser:
.-Simétrica: en este tipo de distribuciones la media, la moda y la mediana coinciden y los datos se distribuyen de igual forma a ambos lados de estas medidas. En el contexto, hay igual número de opiniones por encima que por debajo de la mediana.


.-Asimétrica positiva o sesgada a la derecha: los datos tienden a concentrarse hacia la parte inferior de la distribución y se extienden más hacia la derecha. La media suele ser mayor que la mediana en estos casos. En el contexto, las opiniones se concentran en un puntaje menor y las de mayor puntaje están más dispersas.


.-Asimétrica negativa o sesgada a la izquierda: los datos tienden a concentrarse hacia la parte superior de la distribución y se extienden más hacia la izquierda. La media suele ser menor que la mediana en estos casos. En el contexto, las opiniones se concentran en un puntaje mayor y las de menor puntaje están más dispersas.


Medida de Tendencia central: Estadístico que procura aportar información sobre la localización central de la distribución de datos. Son: la media aritmética, la moda, la mediana, la media geométrica y la media armónica, y se emplean de acuerdo al objetivo del estudio y al tipo de dato que se tenga.


Valor Mínimo o Máximo: Es el dato más pequeño o más grande de la distribución, respectivamente. En este contexto, es el puntaje más bajo o más alto otorgado por los estudiantes en determinada pregunta.

Medidas de Tendencia Central

Al describir grupos de observaciones, con frecuencia se desea describir el grupo con un solo número. Para tal fin, desde luego, no se usará el valor más elevado ni el valor más pequeño como único representante, ya que solo representan los extremos. Más bien que valores típicos. Entonces sería más adecuado buscar un valor central. Las medidas que describen un valor típico en un grupo de observaciones suelen llamarse medidas de tendencia central..Es importante tener en cuenta que estas medidas se aplican a grupos más bien que a individuos. un promedio es una característica de grupo, no individual.
Entre las medidas de tendencia central tenemos:



La Media Aritmética:
La medida de tendencia central más obvia que se puede elegir, es el valor obtenido sumando las observaciones y dividiendo esta suma por el número de observaciones que hay en el grupo. La media resume en un valor las características de una variable teniendo en cuenta a todos los casos. Solamente puede utilizarse con variables cuantitativas.



Media muestral:
Si se tiene una muestra estadística de valores (X1,X2,...,Xn) de valores para una variable aleatoria X con distribución de probabilidad F(x,?) [donde ? es un conjunto de parámetros de la distribución] se define la media muestral n-ésima.



Moda:
Es el dato que más se repiten en la cuenta. Si existen dos datos que se repite un numero igual de veces entonces el conjunto será bimodal. Ejemplo:
Numero de personas en distintas casas en una villa



Promedio Geométrico:

La media geométrica de un conjunto de observaciones es la raíz n ésima de su producto. El cálculo de la media geométrica exige que todas las observaciones sean positivas.



Percentiles:
Los percentiles representan los valores de la variable que están por debajo de un porcentaje, el cual puede ser una valor de 1% a 100% (en otras palabras, el total de los datos es divido en 100 partes iguales).



Moda:
En estadística la moda es el valor que cuenta con una mayor frecuencia en una distribución de datos.

Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima.
Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal.

Estadistica

La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones.
Podríamos por tanto clasificar la Estadística en descriptiva, cuando los resultados del análisis no pretenden ir más allá del conjunto de datos, e inferencial cuando el objetivo del estudio es derivar las conclusiones obtenidas a un conjunto de datos más amplio.

Estadística descriptiva: Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos.

Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.