Análisis de los 25 retailers más grandes de Estados Unidos
I. Preguntas del negocio
Se puede observar rápidamente en el dataframe mostrado mas arriba, que la compañía dominante es Walmart US, ya que sus ventas son muy diferentes a las ventas de sus competidores. Po lo tanto, se omitirá esta información para este análisis.
Se considerará 'mayoría' a aquellas empresas que no tengas valores atípicos , se identificaran dichos valores considerando el criterio de medidas de dispersión, específicamente, tomando como valor máximo al valor resultante de la suma entre el cuartil 3 (Q3) mas 1.5 veces el rango inter-cuartil (IQR).
Además se conoce que el valor de ventas de Walmart US es un valor extremadamente atípico y es por ello que se omitirá nuevamente dicho valor y compañía para este análisis.
Para esta sección se tomará la información de compañías y numero de tiendas, sin embargo, al visualizar la información de la columna 'Stores' se observa que existen valores vacíos, estos valores causarán problemas a numpy y pandas al momento de trabajar con dicha informaciónccz , es por ello que primero debemos convertir dichos datos en valores numéricos iguales a 0, haciendo este arreglo, las librerías en mención, no tendrán ningún problema en ejecutar operaciones con estas celdas.
Para relacionar un valor numérico con otros valores numéricos, se utilizarán gráficas de dispersión, línea de tendencia e histogramas. Con todas estas herramientas se podrán concluir datos interesantes para el análisis.
Primero se ordenará el dataframe respecto al numero de tiendas y se tomarán los 5 valores mas altos, luego, se ordenará nuevamente el dataframe respecto a sus ventas. Finalmente se tomarán todas las coincidencias que existan segun la columna 'Company', estas serán las empresas que se encuentran en ambos TOP 5.
Para visualizar las categorías que más ventas generaron, se realizará un gráfico de barras de Ventas en función a la Categoría, la visualización será fácil y las conclusiones de esta pregunta resueltas inmediatamente.
En esta sección se tomará la información de la columna 'Sales/Avg. Store' que representa las ventas promedio por tiendas de cada compañia.
Se puede citar a la pregunta N° 3, donde se conoció que existen solo dos compañías que realizan ventas online, estas son; Apple incl. Online y Amazon. Antes de cualquier análisis es necesario recordar que la columna 'Stores' tiene valores vacíos, es por ello que primero se rellenarán dichos vacíos con valores nulos .Para validar la información, se filtrará el dataframe según cantidad de tiendas y se tomarán las únicas que no tengan tiendas físicas.
Para realizar este análisis, primero se tiene que eliminar datos vacíos del dataframe, después realizar un histograma de 'Category' para visualizar la categoría mas popular y finalmente graficar la cantidad de ventas por categoría y determinar si las ventas son relevantes o no.
Para visualizar los datos y llegar a conclusiones, se realizara un grafico de dispersión entre 'Stores' y 'Sales/Avg. Store', de tal manera se conocerá si existe alguna correlación entre ambos valores.