Análisis de los 25 retailers más grandes de Estados Unidos
2
Costco
90048
10
Sam's Club
56828
24
Meijer
16592
21
HEB
21384
0
Walmart US
658119
3
Home Depot
83976
7
Target
71208
15
Ahold
26903
8
Lowe's
60311
16
Macy's
26028
I. Preguntas del negocio
Se puede observar rápidamente en el dataframe mostrado mas arriba, que la compañía dominante es Walmart US, ya que sus ventas son muy diferentes a las ventas de sus competidores. Po lo tanto, se omitirá esta información para este análisis.
El promedio de ventas eliminando a la empresa dominante es igual a 46602.42 millones de USD
Se considerará 'mayoría' a aquellas empresas que no tengas valores atípicos , se identificaran dichos valores considerando el criterio de medidas de dispersión, específicamente, tomando como valor máximo al valor resultante de la suma entre el cuartil 3 (Q3) mas 1.5 veces el rango inter-cuartil (IQR).
Además se conoce que el valor de ventas de Walmart US es un valor extremadamente atípico y es por ello que se omitirá nuevamente dicho valor y compañía para este análisis.
La mediana es: 34694.0
La desviación estandar es: 28317.98
El Q1 es: 23860.0
El Q2 es: 34694.0
El Q3 es: 71327.75
El Q4 es: 115037.0
El limite para outliers es: 142529.375
Para esta sección se tomará la información de compañías y numero de tiendas, sin embargo, al visualizar la información de la columna 'Stores' se observa que existen valores vacíos, estos valores causarán problemas a numpy y pandas al momento de trabajar con dicha informaciónccz , es por ello que primero debemos convertir dichos datos en valores numéricos iguales a 0, haciendo este arreglo, las librerías en mención, no tendrán ningún problema en ejecutar operaciones con estas celdas.
Despues de 6 iteraciones el resultado final muestra:
La mediana es: 1224.5
La desviación estandar es: 819.49
El Q1 es: 535.0
El Q2 es: 1224.5
El Q3 es: 1814.0
El Q4 es: 2770.0
El limite para outliers es: 3732.5
Para relacionar un valor numérico con otros valores numéricos, se utilizarán gráficas de dispersión, línea de tendencia e histogramas. Con todas estas herramientas se podrán concluir datos interesantes para el análisis.
1
Kroger
115037
2
Costco
90048
3
Home Depot
83976
4
Walgreen Boots
78924
5
CVS incl. Target
77792
Despues de 3 iteraciones el resultado final muestra:
La mediana es: 34694.0
La desviación estandar es: 28317.98
El Q1 es: 23860.0
El Q2 es: 34694.0
El Q3 es: 71327.75
El Q4 es: 115037.0
El limite para outliers es: 142529.375
El rango del valor de ventas sin filtrar valores atípicos es: 641527
El rango del valor de ventas despues de filtrar valores atípicos es: 98445.0
Primero se ordenará el dataframe respecto al numero de tiendas y se tomarán los 5 valores mas altos, luego, se ordenará nuevamente el dataframe respecto a sus ventas. Finalmente se tomarán todas las coincidencias que existan segun la columna 'Company', estas serán las empresas que se encuentran en ambos TOP 5.
20
Dollar Tree
21464
19
Dollar General
22234
5
CVS incl. Target
77792
4
Walgreen Boots
78924
0
Walmart US
658119
0
Walmart US
658119
1
Kroger
115037
2
Costco
90048
3
Home Depot
83976
4
Walgreen Boots
78924
0
Walgreen Boots
78924
1
Walmart US
658119
Para visualizar las categorías que más ventas generaron, se realizará un gráfico de barras de Ventas en función a la Categoría, la visualización será fácil y las conclusiones de esta pregunta resueltas inmediatamente.
0
Walmart US
658119
7
Target
71208
24
Meijer
16592
Las ventas totales de la categoria con mas ventas es 745919
En esta sección se tomará la información de la columna 'Sales/Avg. Store' que representa las ventas promedio por tiendas de cada compañia.
Se puede citar a la pregunta N° 3, donde se conoció que existen solo dos compañías que realizan ventas online, estas son; Apple incl. Online y Amazon. Antes de cualquier análisis es necesario recordar que la columna 'Stores' tiene valores vacíos, es por ello que primero se rellenarán dichos vacíos con valores nulos .Para validar la información, se filtrará el dataframe según cantidad de tiendas y se tomarán las únicas que no tengan tiendas físicas.
6
Amazon
71687
11
Apple incl. Online
37664
Para realizar este análisis, primero se tiene que eliminar datos vacíos del dataframe, después realizar un histograma de 'Category' para visualizar la categoría mas popular y finalmente graficar la cantidad de ventas por categoría y determinar si las ventas son relevantes o no.
Para visualizar los datos y llegar a conclusiones, se realizara un grafico de dispersión entre 'Stores' y 'Sales/Avg. Store', de tal manera se conocerá si existe alguna correlación entre ambos valores.