#Importando as bibliotecas que iremos usar
import pandas as pd
#Importando os nossos dataframes
df_jogadores = pd.read_csv('/work/Jogadores/players.csv')
df_ataque = pd.read_csv('/work/Jogadores/tbl_player_attacking.csv')
df_mentalidade = pd.read_csv('/work/Jogadores/tbl_player_mentality.csv')
df_movimentacao = pd.read_csv('/work/Jogadores/tbl_player_movement.csv')
df_poder = pd.read_csv('/work/Jogadores/tbl_player_power.csv')
df_habilidade = pd.read_csv('/work/Jogadores/tbl_player_skill.csv')
df_especialidades = pd.read_csv('/work/Jogadores/tbl_player_specialities.csv')
df_ = pd.read_csv('/work/Jogadores/tbl_player_skill.csv')
#juntando os dataframes
df_dcc1 = df_jogadores.merge(df_ataque,on='int_player_id',how='left')
df_dcc2 = df_dcc1.merge(df_mentalidade,on='int_player_id',how='left')
df_dcc3 = df_dcc2.merge(df_movimentacao, on='int_player_id',how='left')
df_dcc4 = df_dcc3.merge(df_poder, on='int_player_id',how='left')
df_dcc5 = df_dcc4.merge(df_habilidade, on='int_player_id',how='left')
df_dcc = df_dcc5.merge(df_especialidades, on='int_player_id',how='left')
df_dcc.head(5)
#Verificando de as colunas estão completas
df_dcc.info()
#str_player_speciality_y, int_speciality_id e str_trait não estão com o mesmo numero de linha das outras colunas
#Excluindo valores duplicados
df_dcc.drop_duplicates(inplace=True)
#Sem itens duplicados
df_dcc['str_positions'].head()
#Lista de todas as posições
list(df_dcc['str_positions'].drop_duplicates())
#Filtrando jogadores apenas do ataque
posicao_ataque = ['RW, ST, CF',
'ST, LW',
'LW, CAM',
'ST',
'ST, LW, RW',
'RW',
'LW',
'CF, ST',
'CF, CAM',
'LW, RW',
'LM, CF',
'LW, ST',
'RM, CF, CAM',
'CF',
'RW, LW',
'RM, LM, RW',
'CAM, RM, RW',
'CAM, CF, ST',
'CAM, RW',
'LW, CF',
'CAM, CF',
'CF, LW, CAM',
'ST, RW',
'LW, CAM, RW',
'RW, LW, CAM',
'ST, CAM',
'ST, CF',
'CF, ST, CAM',
'CAM, LW, ST',
'CAM, LW',
'RW, CAM',
'ST, RW, LW',
'CAM',
'CAM, ST',
'LW, RW, CAM',
'LW, ST, CM',
'RW, ST, LW',
'CF, CAM, ST',
'RW, ST',
'ST, CAM, RW',
'CF, LW, RW',
'CAM, ST, CF',
'ST, LW, CAM',
'CF, RW',
'LW, RW, CF',
'CF, CAM, LW',
'CF, ST, RW',
'LW, CF, ST',
'LW, RW, ST',
'RW, LW, ST',
'ST, CF, CAM',
'CF, ST, LW',
'CAM, CF, RW',
'LW, RW, RM',
'CF, LW',
'RW, LW, CF',
'CF, LW, ST',
'CAM, ST, LW',
'LW, ST, RW',
'CAM, RW, ST',
'CF, CAM, RW',
'ST, RW, CAM',
'RW, CF',
'CAM, RW, LW',
'LW, CAM, CF',
'LW, CF, CAM',
'ST, CF, LW',
'CAM, LW, RW',
'RW, ST, CAM',
'ST, CAM, CF',
'LW, CAM, ST',
'ST, CAM, LW',
'CAM, ST, RW',
'ST, LW, CF',
'LW, ST, CAM',
'RW, CAM, LW',
'ST, CF, RW',
'RW, CF, LW',
'CAM, RW, CF',
'RW, CF, CAM',
'LW, CF, RW',
'ST, RW, CF',
'CAM, LW, CF']
#Aplicando o filtro
selecao = df_dcc['str_positions'].isin(posicao_ataque)
df_dcc_atk = df_dcc[selecao]
df_dcc_atk
#Tamanho do dataframe original
df_dcc.shape[0]
#Tamanho do dataframe pegando apenas os atacantes
df_dcc_atk.shape[0]
#Ajeitando o index
df_dcc_atk.index = range(df_dcc_atk.shape[0])
df_dcc_atk
# Tirando os nomes repetidos
list(df_dcc_atk['int_player_id'].drop_duplicates())