Análisis estadístico. Factorial. Componentes. Metodología. Hipótesis. Distancia de Mahalanobis. Aleatoriedad. Varianza
1. INTRODUCCIÓN. De acuerdo con el planteamiento de la asignatura Análisis Multivariante I, referente a todos aquellos métodos destinados al análisis de múltiples variables en conjunto, nos disponemos a realizar un estudio sobre los datos obtenidos de 13 variables, referentes al mes de septiembre del año 2000, que representan las características principales en automóviles. El objetivo fundamental y motivación de este trabajo es poder aplicar las técnicas multivariantes más relevantes (Análisis multivariante de la varianza, análisis factorial, análisis de componentes principales), ya que vamos a disponer de un número elevado de variables, así como detectar la potencial relación entre las variables consideradas y aplicar en consecuencia los citados métodos para el agrupamiento de variables. (Análisis factorial y análisis de componentes principales). La muestra seleccionada está formada por 24 automóviles para los cuales se han medido datos técnicos y relativos a la dimensión de los mismos. En concreto las variables consideradas son las siguientes:
- Precio del automóvil. (En pesetas) - Tipo de combustible. - Tracción. - Número de cilindros. - Cilindrada. (En centímetros cúbicos) - Potencia. (En caballos de vapor) - Longitud. (En centímetros) - Anchura. (En centímetros) - Altura. (En centímetros) - Volumen del maletero. (En litros) - Peso. (En kilogramos) - Consumo medio. (En litros) - Velocidad máxima. (En kilómetros/hora)
Lo que representa cada variable es muy claro, además, en conjunto, definen de manera acertada las principales características en las que un posible comprador debe fijarse a la hora de adquirir un automóvil. Estamos interesados en detectar cuales son las variables que influyen de manera significativa en el precio de un coche, la detección de grupos de variables que estén correlacionadas y las diferencias significativas que pueden existir atendiendo al tipo de combustible utilizado (gasolina o diesel) y a la tracción (delantera o trasera).
2. METODOLOGÍA. El proceso de análisis, como ya hemos dicho anteriormente, tiene como objetivo la detección de grupos de variables altamente relacionadas. Para este fin la metodología empleada es la siguiente:
- Análisis inicial de los datos, obteniendo previa información sobre las variables y la relación existente entre ellas, así como la formulación y comprobación de las hipótesis del modelo. - Aplicación de la técnica MANOVA. - Análisis de componentes principales. - Análisis factorial. - Conclusiones.
Las distintas técnicas empleadas se irán explicando de forma breve a lo largo del proceso analítico. A continuación presentamos una tabla en la que aparecen los datos obtenidos y los estadísiticos más relevantes como pueden ser la media y desviación típica de cada variable numérica:


3. ANÁLISIS PREVIO DE LOS DATOS Y COMPROBACIÓN DE LAS HIPÓTESIS.
La formulación y comprobación de las hipótesis previas viene motivada por la necesidad de que los datos cumplan una serie de requisitos necesarios para la realización de las técnicas multivariantes. Con esto nos aseguraremos una mayor fiabilidad en los resultados obtenidos.
Como ya es sabido, las hipótesis que hemos de comprobar son:
- Linealidad. - Normalidad. - Aleatoriedad. - Homocedasticidad.
El incumplimiento de alguna de estas hipótesis nos lleva a la realización de transformaciones adecuadas para que se verifiquen.
ANÁLISIS INICIAL DE LOS DATOS.
Presentamos a continuación el vector de medias, la matriz de varianzas-covarianzas, la matriz de correlación de las variables numéricas.
Vector de medias.
 El orden de las variables es el mismo que en la tabla de datos presentada anteriormente. (Variables numéricas).
Varianzas-covarianzas. 


Correlaciones.

Observando la matriz de correlaciones, podemos comprobar que existen pares de variables con coeficientes de correlación bastante significativos (Altos). Este hecho es de gran utilidad a la hora de aplicar técnicas de reducción de datos ya que si las variables no están relacionadas, no tiene sentido aplicarlas. Si nos fijamos por ejemplo en las variables VELOCIDAD MÁXIMA y CABALLOS DE VAPOR, el coeficiente que presentan tiene un valor de 0.907. Evidentemente, es de esperar que cuanto mayor sea la potencia de un coche, mayor velocidad alcanzará. De la misma forma ocurre con el PESO y la LONGITUD. Además el determinante de la matriz de correlaciones es: . Este valor es prácticamente cero, lo cual indica que existe una correlación fuerte aunque no haya multicolinealidad estricta. Este tipo de información nos va a ir ayudando durante el desarrollo de nuestro trabajo.
COMPROBACIÓN DE LAS HIPÓTESIS.
Llega el momento de comprobar si se verifican las hipótesis previas al modelo. Como hemos dicho anteriormente, la comprobación de las hipótesis se hace necesaria para obtener un “índice de fiabilidad” alto en nuestros resultados. Utilizaremos métodos gráficos y analíticos en el proceso.
Normalidad. Comenzamos con el estudio de la normalidad, analizando cada variable unidimensional mediante procedimientos gráficos y posteriormente, analíticos. El uso de histogramas con representación de la curva de distribución, nos puede ser de gran utilidad a la hora de decidir si las variables se distribuyen normalmente.







A la vista de los resultados obtenidos, podemos tener una idea de las variables que van a presentar problemas de normalidad así como problemas de simetría y curtosis. Aunque los métodos gráficos son bastante intuitivos, el rigor nos conduce a efectuar una serie de contrastes para la comprobación de la normalidad, (kolmogorov-Smirnov, Shapiro-Wilk) en cada una de las variables y si resultan ser todas normales, entonces contrastaremos la normalidad multivariante

Según el resultado de estos contrastes, podemos considerar que las variables PRECIO, POTENCIA, LONGITUD, ALTURA, VOLUMEN, PESO, CONSUMO y VELOCIDAD se distribuyen aproximadamente según una normal. (El nivel de significación considerado es ).
Observemos los gráficos de probabilidad normal para dichas variables: 


 

 En algunas variables hemos rechazado la hipótesis de normalidad, por lo que descartamos el contraste multivariante. El incumplimiento leve de la hipótesis de normalidad no condiciona demasiado la fiabilidad de los resultados.
Homocedasticidad.
Al igual que la normalidad, para la igualdad de varianzas, existen métodos gráficos y analíticos de comprobación. Estudiemos el típico gráfico de dispersión de valores ajustados frente a residuos.
 Este gráfico se consigue realizando una regresión múltiple considerando como variable dependiente el precio y como variables independientes, las demás. Aunque el tamaño de la muestra no sea lo suficientemente deseable, parece que no existe problema grave de heterocedasticidad ya que no se observa ningún patrón a primera vista.
Aleatoriedad.

Observando el gráfico de valores ajustados frente a los residuos y aunque el tamaño de la muestra, volvemos a incidir en esto, sea quizás algo pequeño, no se observa ningún patrón definido, por lo que parece que los datos son aleatorios. Para más seguridad podemos hacer el test de rachas:

Existe un problema para calcular el test en la variable número de cilindros ya que solo hay una racha. En general el resultado es bueno aunque rechacemos para las variables CILINDRADA y CONSUMO.
Detección de observaciones atípicas. Distancia de Mahalanobis.
Se define la distancia de Mahalanobis como  El cálculo de la misma nos servirá para detectar las posibles observaciones atípicas (out-liers) que pueden ser causantes de errores en nuestro análisis. En el caso concreto del cálculo de las componentes principales, la presencia de out-liers provoca un aumento en la varianza o una distorsión en las covarianzas. En las últimas componentes principales los valores atípicos serán aquellos que introducen nuevas dimensiones o enmascaran singularidades. Si detectamos presencia de out-liers, puede ser conveniente eliminarlos y reanudar el estudio con el resto de los valores. (Técnica de componentes principales robusta).

La distancia de Mahalanobis se distribuye según una siendo p el número de variables. (En este caso 11). Comparando las distancias calculadas con el cuantil , observamos que no existe ninguna observación atípica.
Estos contenidos son Copyleft bajo una Licencia de Creative Commons.
Pueden ser distribuidos o reproducidos, mencionando su autor.
Siempre que no sea para un uso económico o comercial.
No se pueden alterar o transformar, para generar unos nuevos.
|