TP Final Integrador - ZARATE Sofia Florencia (#22041)

# A veces necesitamos instalar nuevas librerías en nuestros proyectos !pip install openpyxl==3.0.10

# imports import numpy as np import pandas as pd import sqlite3 as sql3 import openpyxl # para que levante bien el excel import matplotlib.pyplot as plt import seaborn as sns

# Levanto los datos en 3 diferentes dataframes # Artículos conn = sql3.connect('/work/data/articles.db') sql_query = pd.read_sql_query('SELECT * FROM articles', conn) df_articles = pd.DataFrame(sql_query, columns = ['article_id', 'article_name', 'unit_price']) # Vendedores df_sellers = pd.read_excel('/work/data/sellers.xlsx', index_col=0) # Órdenes df_orders = pd.read_csv('/work/data/orders.csv')

# Exploración del df de artículos print('Muestra de datos') print(df_articles.head()) print('\nFormato del dataframe') print(df_articles.shape) print('\nBúsqueda de valores nulos por columna') print(df_articles.isnull().sum()) print('\nFormato de los datos por columna') print(df_articles.dtypes)

# Exploración del df de vendedores print('Muestra de datos') print(df_sellers.head()) print('\nFormato del dataframe') print(df_sellers.shape) print('\nBúsqueda de valores nulos por columna') print(df_sellers.isnull().sum()) print('\nFormato de los datos por columna') print(df_sellers.dtypes)

# Exploración del df de órdenes print('Muestra de datos') print(df_orders.head()) print('\nFormato del dataframe') print(df_orders.shape) print('\nBúsqueda de valores nulos por columna') print(df_orders.isnull().sum()) print('\nFormato de los datos por columna') print(df_orders.dtypes)

df_articles['unit_price'] = df_articles['unit_price'].astype(float) print(df_articles.dtypes)

# Creo una copia del df_orders my_df = df_orders.copy() # Cambio el índice del df de artículos df_artic = df_articles.set_index('article_id',inplace = False) # Agrego algunas columnas y pongo el campo que me va a servir de "ancla" para acordarme my_df = my_df.assign(article_name = my_df['article_id']) my_df = my_df.assign(total_amount = my_df['article_id']) my_df = my_df.assign(seller_name = my_df['seller_id']) # reemplazo los valores en el nuevo df # 1. busco el nombre del artículo y lo asigno a una variable # como df_articles está indexado por article_id, lo uso para ubicarme en # el registro que busco # SINTAXIS: df_articles.loc[indice][columna] # [indice] va a ser el dato que obtengo de my_df.loc[i]['article_id'] # -> o sea, tomo registro a registro el article_id y lo uso para extraer # el nombre del artículo for i in range(len(my_df.index)): # len(my_df.index) devuelve la cantidad de registros # Obtenemos article_name id_articulo = my_df.loc[i]['article_id'] nombreArticulo = df_artic.loc[id_articulo]['article_name'] #se lo asigno a la columna correspondiente my_df.loc[i,'article_name'] = nombreArticulo # Obtenemos total_amount precioArticulo = df_artic.loc[id_articulo]['unit_price'] my_df.loc[i, 'total_amount'] = my_df.loc[i,'quantity'] * precioArticulo # Obtenemos seller_name id_vendedor = my_df.loc[i]['seller_id'] nombreVendedor = df_sellers.loc[id_vendedor]['seller_name'] my_df.loc[i, 'seller_name'] = nombreVendedor # elimino las columnas que no necesito my_df.drop(['order_id', 'article_id', 'seller_id'], axis = 'columns', inplace=True)

# RESOLUCIÓN ANALÍTICA df_cant_articulos = my_df.groupby('article_name').sum() df_cant_articulos_ord = df_cant_articulos.sort_values('quantity', ascending=False) print(df_cant_articulos_ord['quantity'].head(1) )

# RESOLUCIÓN GRÁFICA sns.barplot(y = df_cant_articulos_ord["quantity"], x=df_cant_articulos_ord.index) plt.xticks(rotation=90) plt.show()

# RESOLUCIÓN ANALÍTICA df_monto_articulo_ord = my_df.groupby('article_name').sum().sort_values('total_amount', ascending=False).head(5) print(df_monto_articulo_ord)

# RESOLUCIÓN GRÁFICA # plt.pie(x=df_monto_articulo_ord['total_amount'], labels=df_monto_articulo_ord.index) # plt.show() plt.barh(df_monto_articulo_ord.index, df_monto_articulo_ord['total_amount'] , height=0.7, color = "pink") plt.title("Ingresos por artículo") plt.show()

# RESOLUCIÓN ANALÍTICA df_monto_vendedor_ord = my_df.groupby('seller_name').sum().sort_values('total_amount', ascending=False) print(df_monto_vendedor_ord[['quantity']+['total_amount']])

# RESOLUCIÓN GRÁFICA from palettable.scientific.sequential import Acton_15 plt.figure(figsize = (15,5)) bar_mv = plt.bar(df_monto_vendedor_ord.index, df_monto_vendedor_ord['total_amount'], color = Acton_15.hex_colors, width = 0.8) plt.bar_label(bar_mv) plt.xticks(rotation=45, ha="right") plt.title("Ventas en $ por vendedor") plt.show()

# RESOLUCIÓN ANALÍTICA df_venta_semanal = my_df.groupby(by='week').sum().sort_values('total_amount',ascending=False) df_venta_semanal["week"] = df_venta_semanal.index print(df_venta_semanal['total_amount'])

# RESOLUCIÓN GRÁFICA from palettable.scientific.diverging import Tofino_4 bar_vs = plt.bar(df_venta_semanal.index,df_venta_semanal['total_amount'], width=0.8, color = Tofino_4.hex_colors, edgecolor = "black") plt.xticks(df_venta_semanal["week"], labels = ["Semana 1", "Semana 2", "Semana 3", "Semana 4"], rotation=45, ha = "right") plt.title("Ventas semanales en $") plt.bar_label(bar_vs, label_type = "center") plt.show()

¿Cuál de los países es el comprador más importante?

# RESOLUCIÓN # ¿Cuál de los países es el comprador más importante? articulos_pais = my_df.groupby("country_name").sum().sort_values("quantity", ascending=False) articulos_pais.drop(["week", "total_amount"], axis = 1, inplace = True) articulos_pais["country"] = articulos_pais.index articulos_pais

from palettable.colorbrewer.qualitative import Pastel1_7 plt.pie(articulos_pais["quantity"], labels = articulos_pais["country"], autopct='%.1f%%', radius=3, colors=Pastel1_7.hex_colors, labeldistance=1.01) plt.title("Porcentaje de ventas por país", y = 1.8, fontdict = {"fontsize": 30 }) plt.show()

¿Cuántos artículos se vendieron por semana?

# RESOLUCIÓN # ¿Cuántos artículos se vendieron por semana? articulos_semana = my_df.groupby("week").sum().sort_values("quantity", ascending=False) articulos_semana.drop(["total_amount"], axis = 1, inplace = True) articulos_semana["week"] = articulos_semana.index articulos_semana.rename(columns = {"week" : "semana", "quantity" : "cantidad"}, inplace = True) articulos_semana = articulos_semana[["semana", "cantidad"]] articulos_semana

¿De qué región provienen los ingresos principalmente?

# RESOLUCIÓN ventas_pais = my_df.groupby("country_name").sum().sort_values("total_amount", ascending=False) ventas_pais.drop(["week", "quantity"], axis = 1, inplace = True) ventas_pais["country"] = ventas_pais.index ventas_pais.rename(columns = {"total_amount" : "monto_total", "country":"pais"}, inplace = True) ventas_pais = ventas_pais[["pais", "monto_total"]] ventas_pais

my_range=range(1,len(ventas_pais.index)+1) # The horizontal plot is made using the hline function plt.hlines(y=my_range, xmin=0, xmax=ventas_pais['monto_total'], color='green') plt.plot(ventas_pais['monto_total'], my_range, "o", color = "green") # Add titles and axis names plt.yticks(my_range, ventas_pais['pais']) plt.title("Ventas por país", loc='left') plt.xlabel('Ventas en $') plt.ylabel('Pais') plt.show()

.css-15w88e5{color:var(--chakra-colors-fg-neutral-primary);font-weight:inherit;letter-spacing:-0.09px;}¿Cuál de los países es el comprador más importante?

¿Cuántos artículos se vendieron por semana?

¿De qué región provienen los ingresos principalmente?

¿Cuál de los países es el comprador más importante?