# Librerias de manejo de datos / calculos algebraicos / grafica
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# Librerias adicionales
df = pd.read_csv('/work/largest_us_retailers.csv')
df.head(10)
df.isnull().sum()
df.info()
I. Preguntas del negocio
df.columns
df_sorted = df.sort_values('Sales', ascending=0)
x = df_sorted['Company'][0:]
y = df_sorted['Sales'][0:]
plt.bar(x, y)
plt.xlabel('Compañias')
plt.ylabel('Ventas en millones $USD')
plt.title('10 Compañias con Mayores Ventas')
plt.xticks(rotation='vertical')
plt.show()
#
df_sales= df.groupby('Company')['Sales'].mean().sort_values(ascending=False).reset_index()
df_dominant = df_sales.max()
df_no_dominant = df[df_sales.Company != df_dominant.Company]
print(df_dominant)
print(f"Promedio de ventas (sin considerar {df_dominant.Company}):\n$ {round(df_no_dominant.mean().Sales, 2)} ")
#
b=sns.barplot(data=df_no_dominant,y='Company', x='Sales', palette='viridis')
#
xlabels = ['$ {:,.0f}'.format(x) + ' USD' for x in b.get_xticks()]
b.set_xticklabels(xlabels,fontsize='12')
#
plt.title('Promedio de Ventas de Retailers en US (sin considerar el dominante)\n', fontsize=16)
plt.ylabel('Reatails mas grandes de EEUU')
plt.xlabel('Ventas en Millones USD')
# Linea del Valor Promedio de Ventas
plt.axvline(df_no_dominant['Sales'].mean(), color='tomato')
text = 'Promedio de Ventas: $ {:,.2f} Millones USD'.format(df_no_dominant['Sales'].mean())
plt.text(30000,18, s=text, color='white', size=14 ).set_backgroundcolor('red')
plt.show()
# Mediana de los datos de cada categoría/columna
df.median(axis=0)
# Estadísticos descriptivos de las Ventas
df['Sales'].describe()
# Grafica de barras con los valores de las ventas
b = sns.histplot(data=df,x="Sales",bins=30, color='limegreen')
plt.title('Ventas de Retailers en US (sin considerar el dominante)\n', fontsize=12)
plt.xlabel('Ventas en Millones USD')
plt.grid()
plt.show()
sns.set(rc = {'figure.figsize':(20,8)})
h=sns.boxplot(data=df, x='Sales', palette='viridis')
plt.title('Ventas de Retailers en US (sin considerar el dominante)\n')
plt.ylabel('Reatails mas grandes de EEUU')
plt.xlabel('Ventas en Millones USD')
plt.show()
sns.histplot(data=df_no_dominant,x="Sales",bins=30, color='limegreen')
plt.title('Ventas de Retailers en US (sin considerar el dominante)\n', fontsize=12)
plt.xlabel('Ventas en Millones USD')
plt.grid()
plt.show()
h=sns.boxplot(data=df_no_dominant, x='Sales', palette='viridis')
plt.title('Ventas de Retailers en US (sin considerar el dominante)\n')
plt.ylabel('Reatails mas grandes de EEUU')
plt.xlabel('Ventas en Millones USD')
plt.show()
df.median()
df['Stores'].describe()
sns.set()
h=sns.boxplot(data=df, x='Stores', orient='vertical', palette="viridis")
plt.title('Tiendas de distribucion de retailers EE.UU', size=18)
plt.xlabel('Numero de Tiendas', size=14)
plt.show(block=None)