TP Final Integrador

# A veces necesitamos instalar nuevas librerías en nuestros proyectos !pip install openpyxl==3.0.10

# imports import numpy as np import pandas as pd import sqlite3 as sql3 import matplotlib.pyplot as plt import seaborn as sns

# Levanto los datos en 3 diferentes dataframes # ARTÍCULOS conn = sql3.connect('/work/data/articles.db') sql_query = pd.read_sql_query('SELECT * FROM articles', conn) df_articles = pd.DataFrame(sql_query, columns = ['article_id','article_name','unit_price']) print(df_articles)

#VENDEDORES df_sellers = pd.read_excel("/work/data/sellers.xlsx", index_col = 0) print(df_sellers)

# ÓRDENES df_orders = pd.read_csv("/work/data/orders.csv") print(df_orders)

# Exploración del df de artículos print("Muestra de datos") print(df_articles.head(5)) print("\nFormato del dataframe") print(df_articles.shape) print("\nBúqueda de valores nulos") print(df_articles.isnull().sum()) print("\nFormato de los datos") print(df_articles.dtypes)

# Exploración del df de vendedores print("Muestra de datos") print(df_sellers.head()) print("\nFormato del dataframe") print(df_sellers.shape) print("\nBúqueda de valores nulos") print(df_sellers.isnull().sum()) print("\nFormato de los datos") print(df_sellers.dtypes)

# Exploración del df de órdenes print("Muestra de datos") print(df_orders.head()) print("\nFormato del dataframe") print(df_orders.shape) print("\nBúqueda de valores nulos") print(df_orders.isnull().sum()) print("\nFormato de los datos") print(df_orders.dtypes)

df_articles["unit_price"] = df_articles["unit_price"].astype(float) print(df_articles.dtypes)

# Creo una copia del df_orders my_df = df_orders.copy() # Cambio el índice del df_articles df_articles.set_index("article_id", inplace=True) # Le doy formato de $ pd.options.display.float_format = '$ {:,.2f}'.format print(df_articles.head())

print(my_df.head())

# Agrego las columnas que me faltan my_df = my_df.assign(article_name = my_df["article_id"]) my_df = my_df.assign(total_amount = my_df["article_id"]) my_df = my_df.assign(seller_name = my_df["seller_id"]) print(my_df.head())

# reemplazar los datos en las nuevas columnas for i in range(len(my_df.index)): # columna article_name # cargo el nombre del artículo en una variable article = df_articles.loc[my_df.loc[i]["article_name"]]["article_name"] # se lo asigno a la columna y registro que corresponde my_df.loc[i, "article_name"] = article # columna total_ammount my_df.loc[i, "total_amount"] = my_df.loc[i, "quantity"] * df_articles.loc[my_df.loc[i]["total_amount"]]["unit_price"] # columna de seller_name my_df.loc[i, "seller_name"] = df_sellers.loc[my_df.loc[i]["seller_name"]]["seller_name"] print(my_df.head())

# elimino las columnas que no necesito my_df.drop(['order_id','article_id','seller_id'], axis='columns', inplace=True) print(my_df.head())

# RESOLUCIÓN ANALÍTICA my_df2 = (my_df.groupby("article_name").sum()).sort_values("quantity", ascending = False) print(my_df2["quantity"].head(1))

# RESOLUCIÓN GRÁFICA plt.bar(my_df2.index, my_df2["quantity"]) plt.title("Cantidad vendida por artículo") plt.xticks(rotation = 90) plt.ylabel('Cantidad vendida') plt.xlabel('Artículo') plt.show()

# RESOLUCIÓN ANALÍTICA my_df3 = (my_df.groupby("article_name").sum()).sort_values("total_amount", ascending = False) print(my_df3["total_amount"].head(1))

# RESOLUCIÓN GRÁFICA plt.bar(my_df3.index, my_df3["total_amount"]) plt.title("Monto de ventas por artículo") plt.xticks(rotation = 90) plt.ylabel('Monto de las ventas') plt.xlabel('Artículo') plt.show()

# RESOLUCIÓN ANALÍTICA my_df4 = (my_df.groupby("seller_name").sum()).sort_values("total_amount", ascending = False) print(my_df4[["quantity"]+["total_amount"]].head(1))

# RESOLUCIÓN GRÁFICA plt.bar(my_df4.index, my_df4["total_amount"]) plt.title("Monto de ventas por vendedor") plt.xticks(rotation = 90) plt.ylabel('Monto de las ventas') plt.xlabel('Vendedor') plt.show()

# RESOLUCIÓN ANALÍTICA my_df5 = (my_df.groupby("week").sum()).sort_values("total_amount", ascending=False) print(my_df5)

# RESOLUCIÓN GRÁFICA plt.pie(my_df5["total_amount"], labels = ["Semana 1","Semana 2", "Semana 3", "Semana 4"], autopct='%1.2f%%') plt.title("Proporción de ventas por semana") plt.show()

# RESOLUCIÓN ANALÍTICA my_df6 = (my_df.groupby("country_name").sum()).sort_values("total_amount", ascending = False) print(my_df6["total_amount"])

# RESOLUCIÓN GRÁFICA plt.bar(my_df6.index, my_df6["total_amount"]) plt.title("Monto de ventas por país") plt.xticks(rotation = 90) plt.ylabel('Monto de las ventas') plt.xlabel('País') plt.show()

# RESOLUCIÓN ANALÍTICA my_df7 = (my_df.groupby("article_name").sum()).sort_values("quantity", ascending = False) print(my_df7["quantity"])

# RESOLUCIÓN GRÁFICA plt.bar(my_df7.index, my_df7["quantity"]) plt.title("Cantidad vendida por artículo") plt.xticks(rotation = 90) plt.ylabel('Cantidad vendida') plt.xlabel('Artículo') plt.show()

# RESOLUCIÓN ANALÍTICA my_df8 = (my_df.groupby("seller_name").count()) print(my_df8["quantity"])

# RESOLUCIÓN GRÁFICA plt.bar(my_df8.index, my_df8["quantity"]) plt.title("Ventas realizadas por cada vendedor") plt.xticks(rotation = 90) plt.ylabel('Ventas realizadas') plt.xlabel('Vendedor') plt.show()