Unidad 2. ESTADíSTICA DESCRIPTIVA (X)

2.7 ANÁLISIS EXPLORATORIO DE DATOS

El Análisis Exploratorio de Datos (EDA) es una concepción moderna del tratamiento de los datos que permite mostrar gráficamente todas las características o propiedades subyacentes en cada uno de los valores de los datos de la muestra.

Así como una tabla de distribución de frecuencias nos permite “saber” lo que los datos quieren “decirnos” en forma cuantitativa, así también el Análisis Exploratorio de Datos contiene diversos tipos de gráficos que nos permitirán obtener resultados similares a los que proporciona una tabla de frecuencias y más aún, obtener información previa tanto para validar los datos así como para saber qué herramientas estadísticas pueden ser usados en el análisis de los datos en cuestión.

Decíamos que es una concepción moderna ya que tradicionalmente el análisis cuantitativo de los datos ha precedido al análisis gráfico. El modelo clásico, que puede ser determinista o probabilista (incluyendo el modelo bayesiano), impone el modelo sobre los datos, bajo determinados supuestos; por ejemplo, el modelo de regresión lineal o el análisis de varianza o algunas herramientas del análisis multivariado, supone la existencia de un determinado tipo de variable con distribución normal. El Análisis Exploratorio de los Datos (EDA), deja que los datos sugieran un determinado modelo al cual se ajustan.

Los siguientes esquemas traducen con mayor claridad, lo que queremos decir:

Técnicas del EDA

Las técnicas del Análisis Exploratorio de Datos son esencialmente gráficas. Por ello no son rigurosos, pueden ser subjetivos y un investigador puede tener diferentes apreciaciones que otro, pero entre los experimentados, la conclusión será la misma.

Si bien estas técnicas no son rigurosas y pueden ser subjetivas, los modelos construidos a partir del análisis realizado sobre los gráficos, producirán modelos rigurosos, formales y adecuados al problema, mucho antes que las técnicas clásicas.

Entre las diversas técnicas que aquí tomaremos en cuenta tenemos:

Histograma de frecuencias

Este tipo de gráfico es usado para mostrar gráficamente los cuatro tipos de frecuencias: absolutas, absolutas acumuladas, relativas y relativas acumuladas.

Permite saber el número de datos o porcentaje (frecuencia absoluta o relativa) que se encuentran en un grupo (intervalo) así como la frecuencia o porcentaje acumulado de datos hasta un determinado valor máximo.

Nota importante:

Todos los ejemplos que desarrollemos en este capítulo, serán desarrollados usando el MS Excel 2003, pero que también pueden ser resueltos con la versión 2007, sin ninguna dificultad. En algunos casos lo repetiremos usando MS Excel 2007.

Ejemplo 03

Construya un histograma de frecuencias para la tabla de frecuencias contenida en el archivo bancordia.

Procedimiento.

- Abrimos el archivo Sol Bancordia. Nos ubicamos en la hoja Tabla de Frecuencia.

- Los datos contenidos en ella son los siguientes:

- Seleccionamos el rango de las frecuencias absolutas: G16:G24

- Hacemos clic en el icono del asistente para gráficos, tipo

de gráfico: Columnas, subtipo: Columna agrupada. Clic en [Siguiente]

- Hacemos clic en la pestaña [serie]. En [Nombre] ingrese: fi Hacemos clic en el cuadro de texto de [Ró en el eje ... ] seleccionamos el rango E16:E24.

Hacemos clic en [Siguiente]

- En la pestaña [Titulos], en [Titulo del gráfico] digitamos: Histograma de frecuencias de los saldos. Hacemos clic en el botón [Finalizar]

- Usando el botón derecho en el eje de categorías, modifique el tamaño de fuente en 6, ingresando por [Formato de ejes ]. Modifique también la inclinación a 45º ingresando a la ficha [Inclinació]. Haga lo mismo con el eje vertical para que el tamaño de fuente sea igual a 6.

- Haciendo uso del botón derecho sobre una de las barras y usando [Formato serie de datos], ingresamos a la ficha [Opciones]. El [Ancho de rango] lo dejamos en 0.

- Ahora hacemos clic en la parte sombreada y luego la tecla [Supr], borramos también las líneas horizontales haciendo clic en una de ella y luego en [Supr]

- Finalmente, usando el botón derecho del ratón, sobre el fondo del gráfico, seleccionando [Opciones de gráfico] podemos seleccionar el color de fondo que se desee.

Recuerde que los datos usados para generar el presente histograma no provienen de los mismos datos que aparecen en el archivo en uso pues son dos muestras diferentes. El histograma resultante se muestra en la figura 2.13

Construcción del histograma usando MS Excel 2007:

Procedimiento:

- Luego de abrir el libro SolBancordia.xls, activamos la hoja Tabla de frecuencia; seleccionamos el rango de las frecuencias incluyendo la celda con fi para que sirva como leyenda.

- Usamos la secuencia: [Insertar] - del grupo Gráficos [Columna]. En columna en 2-D, seleccionamos la primera: [Columna agrupada].

- Modificación del histograma: Para obtener la frecuencia absoluta: [Botón derecho en cualquier barra ] - [Agregar etiqueta de datos].

- Para cambiar el eje de categorías: [Botón derecho] - [Seleccionar datos ]. La ventana que se obtiene es la siguiente.

- Hacemos clic en [Editar] ; hacemos clic en el cuadro que salga y seleccionamos en rango E16:E24 (límites superiores de todos los intervalos). Clic en [Aceptar] - Cambiemos el tamaño de la fuente de ambos ejes: Botón derecho en el eje X (en algún valor). - [Dar formato a eje] - [Fuente] En tamaño digitamos 7. Hacemos lo mismo en el eje Y.

- Para cambiar el ancho de cada barra y se parezca a un verdadero histograma: botón derecho en cualquier barra - [Dar formato a serie de datos] . La ventana que se obtenga debe ser similar a la que se muestra en la figura 2.15. En [Ancho del intervalo] corremos el botón a fin de obtener 0%. Hacemos clic en [Relleno] y dentro de ella hacemos clic en [Variar colores entre puntos]. Para una mejor presentación eliminamos las leyendas usando la tecla [Supr].

- Para modificar el título: Hacemos clic en el título actual digitamos Histograma de frecuencias.

- Si desea eliminar las líneas secundarias horizontales, hacemos en una de las líneas horizontales, luego [Supr]. Sólo debe quedar seleccionadas las líneas.

 

Pág. 2.10

Atrás  Inicio  Adelante





Página inicial  Cursos Informática Gratuitos

Síguenos en:   Facebook       Sobre aulaClic            Política de Cookies