TP Final Integrador García Ortiz, Ma. Soledad

Trabajo realizado por Ma. Soledad García Ortiz para Big Data - CaC 4.0. 2022. Profesora: Regina Molares.

# Levanto los datos en 3 diferentes dataframes #ARTICULOS conn = sql3.connect("/work/data/articles.db") sql_query = pd.read_sql_query("SELECT * FROM articles", conn) #Pandas no necesita "cursor" porq tiene un metodo para levantar querys de sql df_articles = pd.DataFrame(sql_query, columns=["article_id", "article_name", "unit_price"]) print(df_articles)

#VENDEDORES df_sellers = pd.read_excel("/work/data/sellers.xlsx", index_col=0) print(df_sellers)

#ORDENES df_orders = pd.read_csv("/work/data/orders.csv") print(df_orders)

# Exploración del df de artículos print("Muestra de datos") print(df_articles.head()) print("\nFormato del dataframe") print(df_articles.shape) print("\nBusqueda de valores nulos") print(df_articles.isnull().sum()) print("\nFormato de datos") print(df_articles.dtypes)

#Reemplazar los datos en las nuevas columnas #print(my_df.index) for i in range(len(my_df.index)): #columna article_name #cargo el nombre del articulo en una variable #article = df_articles.loc[my_df.loc[i]['article_name']]['article_name'] #se lo asigno a la columna y registro que corresponde #my_df.loc[i,"article_name"] = article # columna total amount #my_df.loc[i, 'total_amount'] = my_df.loc[i, 'quantity'] * df_articles.loc[my_df.loc[i]['total_amount']]['unit_price'] #columna de seller_name #my_df.loc[i,"seller_name"] = df_sellers.loc[my_df.loc[i]["seller_name"]]["seller_name"] print(my_df.head())

#elimino las columnas que no necesito #my_df.drop(['order_id','article_id','seller_id'], axis='columns', inplace=True) print(my_df.head()) print(my_df.shape)