# Levanto los datos en 3 diferentes dataframes
conn = sql3.connect('data/articles.db')
sql_query = pd.read_sql_query('SELECT * FROM articles', conn)
df_articles = pd.DataFrame(sql_query, columns=['article_id', 'article_name','unit_price'])
df_sellers = pd.read_excel('data/sellers.xlsx', index_col = 0)
df_orders = pd.read_csv('data/orders.csv')
# Exploración del df de artículos
print('Muestra de datos')
print(df_articles.head())
print('\nFormato del dataframe')
print(df_articles.shape)
print('\nBúsqueda de valores nulos por columna')
print(df_articles.isnull().sum())
print('\nFormato de los datos por columna')
print(df_articles.dtypes)
Muestra de datos
article_id article_name unit_price
0 20015 Smartphone 525.00
1 20016 Full Pc 2127.81
2 20017 Monitor 230.00
3 20018 Tablet 130.00
4 20019 Desk 130.10
Formato del dataframe
(31, 3)
Búsqueda de valores nulos por columna
article_id 0
article_name 0
unit_price 0
dtype: int64
Formato de los datos por columna
article_id int64
article_name object
unit_price object
dtype: object
# Exploración del df de vendedores
print('Muestra de datos')
print(df_sellers.head())
print('\nFormato del dataframe')
print(df_sellers.shape)
print('\nBúsqueda de valores nulos por columna')
print(df_sellers.isnull().sum())
print('\nFormato de los datos por columna')
print(df_sellers.dtypes)
Muestra de datos
seller_name
seller_id
1 Aveline Swanwick
2 Jase Doy
3 Oliviero Charkham
4 Cornie Wynrehame
5 Ewell Peres
Formato del dataframe
(15, 1)
Búsqueda de valores nulos por columna
seller_name 0
dtype: int64
Formato de los datos por columna
seller_name object
dtype: object
# Exploración del df de órdenes
print('Muestra de datos')
print(df_orders.head())
print('\nFormato del dataframe')
print(df_orders.shape)
print('\nBúsqueda de valores nulos por columna')
print(df_orders.isnull().sum())
print('\nFormato de los datos por columna')
print(df_orders.dtypes)
Muestra de datos
order_id week article_id quantity seller_id country_name
0 15024 1 20039 10 10 Peru
1 15025 1 20029 15 5 Peru
2 15026 1 20024 5 14 Bolivia
3 15027 1 20018 9 14 Brazil
4 15028 1 20035 6 15 Mexico
Formato del dataframe
(1000, 6)
Búsqueda de valores nulos por columna
order_id 0
week 0
article_id 0
quantity 0
seller_id 0
country_name 0
dtype: int64
Formato de los datos por columna
order_id int64
week int64
article_id int64
quantity int64
seller_id int64
country_name object
dtype: object
df_articles['unit_price'] = df_articles['unit_price'].astype(float)
print(df_articles.dtypes)
df_articles
article_id int64
article_name object
unit_price float64
dtype: object
article_idint64
20015 - 20045
article_nameobject
Smartphone3.2%
Full Pc3.2%
29 others93.5%
0
20015
Smartphone
1
20016
Full Pc
2
20017
Monitor
3
20018
Tablet
4
20019
Desk
5
20020
Chair
6
20021
Modem
7
20022
Range Extender
8
20023
Notebook
9
20024
Netbook
# Creo una copia del df_orders
my_df = df_orders.copy()
# Cambio el índice del df de artículos
df_articles.set_index('article_id',inplace = True)
# Agrego algunas columnas y pongo el campo que me va a servir de "ancla" para acordarme
my_df = my_df.assign(article_name = my_df['article_id'])
my_df = my_df.assign(total_amount = my_df['article_id'])
my_df = my_df.assign(seller_name = my_df['seller_id'])
# reemplazo los valores en el nuevo df
# 1. busco el nombre del artículo y lo asigno a una variable
# como df_articles está indexado por article_id, lo uso para ubicarme en
# el registro que busco
# SINTAXIS: df_articles.loc[indice][columna]
# [indice] va a ser el dato que obtengo de my_df.loc[i]['article_id']
# -> o sea, tomo registro a registro el article_id y lo uso para extraer
# el nombre del artículo
for i in range(len(my_df.index)): # len(my_df.index) devuelve la cantidad de registros
idArticulo = my_df.loc[i]['article_id']
nombreArticulo = df_articles.loc[idArticulo]['article_name']
# se lo asigno a la columna correspondiente
my_df.loc[i,'article_name'] = nombreArticulo
# hago lo mismo en un solo paso para la columna de total_amount
precioArticulo = df_articles.loc[idArticulo]['unit_price']
cantArticulo = my_df.loc[i]['quantity']
my_df.loc[i,'total_amount'] = precioArticulo * cantArticulo
# columna de seller_name
idVendedor = my_df.loc[i]['seller_id']
nombreVendedor = df_sellers.loc[idVendedor]['seller_name']
my_df.loc[i,'seller_name'] = nombreVendedor
# elimino las columnas que no necesito
my_df.drop(['order_id', 'article_id', 'seller_id'], axis = 'columns', inplace=True)
# RESOLUCIÓN ANALÍTICA
my_df2=my_df.groupby('article_name').sum()
por_cant = my_df2.sort_values('quantity', ascending=False)
print(por_cant['quantity'].head(1))
article_name
HDD 413
Name: quantity, dtype: int64
# RESOLUCIÓN GRÁFICA
sns.barplot(y=por_cant["quantity"], x=por_cant.index)
plt.xticks(rotation=90)
plt.show()
# RESOLUCIÓN ANALÍTICA
df2 = (my_df.groupby(by='article_name').sum()).sort_values('total_amount',ascending=False).head(5)
print(df2['total_amount'])
article_name
Full Pc 538335.93
Notebook 251000.00
Smartphone 152250.00
Chair 69477.48
Tablet 48620.00
Name: total_amount, dtype: float64
df2 = (my_df.groupby(by='article_name').sum()).sort_values('total_amount',ascending=False).head(10)
plt.barh(df2.index,df2['total_amount'] , height=0.8)
plt.title(' 10 Productos de mayores ingresos')
plt.xlabel('Precio en U$D')
plt.ylabel('Productos')
plt.show()
# RESOLUCIÓN ANALÍTICA
df4 = (my_df.groupby(by='seller_name').sum()).sort_values('total_amount',ascending=False)
print(df4[['quantity']+['total_amount']])
print("\nEl vendedor/a al que se le otorga el bono es:\n", + df4[['quantity']+['total_amount']].head(1))
quantity total_amount
seller_name
Janel O'Curran 703 192832.47
Brockie Patience 441 142709.88
Oliviero Charkham 555 141329.76
Vasily Danilyuk 521 129157.55
Daisie Slograve 554 120520.11
Aveline Swanwick 629 118874.33
Arnold Kilkenny 583 94552.04
Kati Innot 512 83704.62
Jase Doy 582 80628.31
Ewell Peres 496 78144.32
Onida Cosely 535 77373.37
Milly Christoffe 442 61733.69
Tobin Roselli 519 56984.42
Cornie Wynrehame 523 52253.57
Cirilo Grandham 470 45009.40
El vendedor/a al que se le otorga el bono es:
quantity total_amount
seller_name
Janel O'Curran 703.0 192832.47
# RESOLUCIÓN GRÁFICA
plt.bar(df4.index,df4['total_amount'],width=0.4)
plt.xticks(rotation=60, ha="right")
plt.show()
# RESOLUCIÓN ANALÍTICA
df5 = (my_df.groupby(by='week').sum()).sort_values('total_amount',ascending=False)
print(df5['total_amount'])
week
1 507458.81
2 415364.44
3 329140.03
4 223844.56
Name: total_amount, dtype: float64
# RESOLUCIÓN GRÁFICA
plt.bar(df5.index,df5['total_amount'])
plt.show()
# RESOLUCIÓN
df6 = (my_df.groupby(by='country_name').sum()).sort_values('total_amount',ascending=False).head(5)
print(df6['total_amount'])
#Grafica
sns.barplot(x=df6.index,y=df6['total_amount'])
plt.title('Cinco mayores ventas por paises')
plt.xlabel('Paises')
plt.ylabel('Monto en U$D')
plt.show()
country_name
Brazil 441271.85
Argentina 205832.78
Colombia 177514.29
Peru 161421.12
Mexico 138619.99
Name: total_amount, dtype: float64
# RESOLUCIÓN
articles_Ar_Br = my_df['country_name'].isin(['Argentina', 'Brazil'])
quantity_articles = my_df[articles_Ar_Br].sort_values('article_name',ascending=True).groupby(by=['article_name','country_name']).sum()
quantity_articles.reset_index(level=1,inplace=True)
#agrando el tamaño del plot para visualizar mejor
plt.subplots(figsize=(15, 6))
sns.barplot(x=quantity_articles.index, y=quantity_articles['quantity'],hue=quantity_articles['country_name'])
plt.xticks(rotation=90)
plt.title('Cantidad de productos vendidos entre Argentina y Brasil')
plt.xlabel('Articulos')
plt.ylabel('Cantidades')
plt.show()
# RESOLUCIÓN
paises = my_df['article_name'].isin(['CPU'])
CPU_country= my_df[paises].groupby('country_name').sum()
sns.barplot(x=CPU_country['quantity'],y=CPU_country.index)
plt.xlabel('Cantidades')
plt.ylabel('Paises')
plt.title('Ventas de CPU por paises en latinoamerica')
plt.show()