Trabajo realizado por Ma. Soledad García Ortiz para Big Data - CaC 4.0. 2022. Profesora: Regina Molares.
# Levanto los datos en 3 diferentes dataframes
#ARTICULOS
conn = sql3.connect("/work/data/articles.db")
sql_query = pd.read_sql_query("SELECT * FROM articles", conn) #Pandas no necesita "cursor" porq tiene un metodo para levantar querys de sql
df_articles = pd.DataFrame(sql_query, columns=["article_id", "article_name", "unit_price"])
print(df_articles)
#VENDEDORES
df_sellers = pd.read_excel("/work/data/sellers.xlsx", index_col=0)
print(df_sellers)
#ORDENES
df_orders = pd.read_csv("/work/data/orders.csv")
print(df_orders)
# Exploración del df de artículos
print("Muestra de datos")
print(df_articles.head())
print("\nFormato del dataframe")
print(df_articles.shape)
print("\nBusqueda de valores nulos")
print(df_articles.isnull().sum())
print("\nFormato de datos")
print(df_articles.dtypes)
#Reemplazar los datos en las nuevas columnas
#print(my_df.index)
for i in range(len(my_df.index)):
#columna article_name
#cargo el nombre del articulo en una variable
#article = df_articles.loc[my_df.loc[i]['article_name']]['article_name']
#se lo asigno a la columna y registro que corresponde
#my_df.loc[i,"article_name"] = article
# columna total amount
#my_df.loc[i, 'total_amount'] = my_df.loc[i, 'quantity'] * df_articles.loc[my_df.loc[i]['total_amount']]['unit_price']
#columna de seller_name
#my_df.loc[i,"seller_name"] = df_sellers.loc[my_df.loc[i]["seller_name"]]["seller_name"]
print(my_df.head())
#elimino las columnas que no necesito
#my_df.drop(['order_id','article_id','seller_id'], axis='columns', inplace=True)
print(my_df.head())
print(my_df.shape)