Análisis de los 25 retailers más grandes de Estados Unidos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import my_functions
df = pd.read_csv('/work/Datacademy_Challenge/largest_us_retailers.csv')
I. Preguntas del negocio
df_sorted = df.sort_values('Sales', ascending=0)
y = df_sorted['Sales'][1:]
np.mean(y)
bins = np.arange(0, 700000, 10000)
plt.hist(df['Sales'], bins)
my_functions.format_plot(plt, 'Título2', 'x', 'y')
plt.show()
bins = np.arange(0, 16000, 1000)
plt.hist(df['Stores'], bins)
plt.show()
plt.scatter(df['Stores'], df['Sales'])
plt.show()
max_sales = np.max(df['Sales'])
max_sales_company = df.loc[df['Sales'] == max_sales]['Company'].tolist()[0]
print(f'El valor máximo de ventas fué reportado por {max_sales_company} y fué por valor de: ${max_sales:,} dólares.')
min_sales = np.min(df['Sales'])
min_sales_company = df.loc[df['Sales'] == min_sales]['Company'].tolist()[0]
print(f'El valor mínimo de ventas fué reportado por {min_sales_company} y fué por valor de: ${min_sales:,} dólares.')
top5_stores = df.sort_values('Stores', ascending=0)[:5]['Company'].tolist()
print(f'Las 5 compañías con mas tiendas son: {my_functions.list2str(top5_stores)}')
top5_sales = df_sorted[:5]['Company'].tolist()
top5_both = np.intersect1d(top5_sales, top5_stores)
print(f'Las 5 compañías con mas tiendas que además están en el top 5 con mas ventas son: {my_functions.list2str(top5_both)}')