Proyecto Datacademy

# Librerias de manejo de datos / calculos algebraicos / grafica import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # Librerias adicionales

df = pd.read_csv('/work/largest_us_retailers.csv')

df.head(10)

df.isnull().sum()

df.info()

I. Preguntas del negocio

df.columns

df_sorted = df.sort_values('Sales', ascending=0)

x = df_sorted['Company'][0:] y = df_sorted['Sales'][0:]

plt.bar(x, y) plt.xlabel('Compañias') plt.ylabel('Ventas en millones $USD') plt.title('10 Compañias con Mayores Ventas') plt.xticks(rotation='vertical') plt.show()

# df_sales= df.groupby('Company')['Sales'].mean().sort_values(ascending=False).reset_index() df_dominant = df_sales.max() df_no_dominant = df[df_sales.Company != df_dominant.Company] print(df_dominant) print(f"Promedio de ventas (sin considerar {df_dominant.Company}):\n$ {round(df_no_dominant.mean().Sales, 2)} ")

# b=sns.barplot(data=df_no_dominant,y='Company', x='Sales', palette='viridis') # xlabels = ['$ {:,.0f}'.format(x) + ' USD' for x in b.get_xticks()] b.set_xticklabels(xlabels,fontsize='12') # plt.title('Promedio de Ventas de Retailers en US (sin considerar el dominante)\n', fontsize=16) plt.ylabel('Reatails mas grandes de EEUU') plt.xlabel('Ventas en Millones USD') # Linea del Valor Promedio de Ventas plt.axvline(df_no_dominant['Sales'].mean(), color='tomato') text = 'Promedio de Ventas: $ {:,.2f} Millones USD'.format(df_no_dominant['Sales'].mean()) plt.text(30000,18, s=text, color='white', size=14 ).set_backgroundcolor('red') plt.show()

# Mediana de los datos de cada categoría/columna df.median(axis=0)

# Estadísticos descriptivos de las Ventas df['Sales'].describe()

# Grafica de barras con los valores de las ventas b = sns.histplot(data=df,x="Sales",bins=30, color='limegreen') plt.title('Ventas de Retailers en US (sin considerar el dominante)\n', fontsize=12) plt.xlabel('Ventas en Millones USD') plt.grid() plt.show()

sns.set(rc = {'figure.figsize':(20,8)}) h=sns.boxplot(data=df, x='Sales', palette='viridis') plt.title('Ventas de Retailers en US (sin considerar el dominante)\n') plt.ylabel('Reatails mas grandes de EEUU') plt.xlabel('Ventas en Millones USD') plt.show()

sns.histplot(data=df_no_dominant,x="Sales",bins=30, color='limegreen') plt.title('Ventas de Retailers en US (sin considerar el dominante)\n', fontsize=12) plt.xlabel('Ventas en Millones USD') plt.grid() plt.show()

h=sns.boxplot(data=df_no_dominant, x='Sales', palette='viridis') plt.title('Ventas de Retailers en US (sin considerar el dominante)\n') plt.ylabel('Reatails mas grandes de EEUU') plt.xlabel('Ventas en Millones USD') plt.show()

df.median()

df['Stores'].describe()

sns.set() h=sns.boxplot(data=df, x='Stores', orient='vertical', palette="viridis") plt.title('Tiendas de distribucion de retailers EE.UU', size=18) plt.xlabel('Numero de Tiendas', size=14) plt.show(block=None)

.css-15w88e5{color:var(--chakra-colors-fg-neutral-primary);font-weight:inherit;letter-spacing:-0.09px;}I. Preguntas del negocio

I. Preguntas del negocio