import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df_empresas = pd.read_csv('D:/desarrollo/Analitica/Empresas Colombia/Personas_N_J_Sl.csv',sep=',',header=0)
df_empresas.head(5)
np.shape(df_empresas)
print("Rows: " + str(df_empresas.shape[0]))
print("Columns: " + str(df_empresas.shape[1]))
df_empresas.info()
df_empresas['fecha_actualizacion'].value_counts()
df_empresas['fecha_matricula'] = pd.to_datetime(df_empresas['fecha_matricula'], format='%Y%m%d', errors='coerce').dt.strftime('%d/%m/%Y')
df_empresas['fecha_renovacion'] = pd.to_datetime(df_empresas['fecha_renovacion'], format='%Y%m%d', errors='coerce').dt.strftime('%d/%m/%Y')
df_empresas['fecha_vigencia'] = pd.to_datetime(df_empresas['fecha_vigencia'], yearfirst=True, format='%Y%m%d', errors='coerce').dt.strftime('%d/%m/%Y')
df_empresas['fecha_cancelacion'] = pd.to_datetime(df_empresas['fecha_cancelacion'], format='%Y%m%d', errors='coerce').dt.strftime('%d/%m/%Y')
df_empresas['fecha_actualizacion'] = pd.to_datetime(df_empresas['fecha_actualizacion'], unit=None, yearfirst=True, format='%Y/%m/%d', errors='coerce').dt.strftime('%d/%m/%Y')
df_empresas['fecha_matricula'].count()
df_empresas['fecha_actualizacion'] = pd.to_datetime(df_empresas['fecha_actualizacion'], format='%d/%m/%Y')
df_empresas['matricula'] = df_empresas['matricula'].fillna(0).astype(np.int64)
df_empresas['inscripcion_proponente'] = df_empresas['inscripcion_proponente'].fillna(0).astype(np.int64)
df_empresas['codigo_clase_identificacion'] = df_empresas['codigo_clase_identificacion'].fillna(0).astype(np.int64)
df_empresas['codigo_tipo_sociedad'] = df_empresas['codigo_tipo_sociedad'].fillna(0).astype(np.int64)
df_empresas['codigo_categoria_matricula'] = df_empresas['codigo_categoria_matricula'].fillna(0).astype(np.int64)
df_empresas['codigo_estado_matricula'] = df_empresas['codigo_estado_matricula'].fillna(0).astype(np.int64)
df_empresas['ultimo_ano_renovado'] = df_empresas['ultimo_ano_renovado'].fillna(0).astype(np.int64)
df_empresas[['camara_comercio','fecha_matricula','fecha_renovacion','fecha_vigencia','fecha_cancelacion','fecha_actualizacion']]
df_empresas.head(5)
df_empresas.info()
df_empresas.describe(include=[object])
df_empresas.describe(include=['datetime64'],datetime_is_numeric=True)
df_empresas.describe(exclude=['datetime64'])
df_empresas.describe()
df_empresas['estado_matricula'].value_counts()
df_empresas['camara_comercio'].value_counts()
df_empresas['organizacion_juridica'].value_counts()
df_empresas[df_empresas.estado_matricula.eq("ACTIVA")]
df_empresas['estado_matricula'].value_counts()
df_empresas[['camara_comercio','organizacion_juridica','estado_matricula','fecha_matricula','fecha_renovacion','ultimo_ano_renovado','cod_ciiu_act_econ_pri','tipo_sociedad']]
df_empresas_activas = df_empresas[['camara_comercio','organizacion_juridica','estado_matricula','fecha_matricula','fecha_renovacion','ultimo_ano_renovado','cod_ciiu_act_econ_pri','tipo_sociedad']]
df_empresas_activas = df_empresas_activas[df_empresas_activas.estado_matricula.eq("ACTIVA")]
df_empresas_activas.info()
df_empresas_activas
df_empresas_activas['ultimo_ano_renovado'].value_counts()
np.unique(df_empresas_activas['ultimo_ano_renovado'], return_counts=True)
values, distribucion = np.unique(df_empresas_activas['ultimo_ano_renovado'], return_counts=True)
plt.bar(values, distribucion)
sns.set_theme(style='darkgrid')
sns.countplot(x=df_empresas_activas['ultimo_ano_renovado'], data=df_empresas_activas)
plt.title('Distribución renovaciòn')
np.unique(df_empresas_activas['tipo_sociedad'], return_counts=True)
values, distribucion = np.unique(df_empresas_activas['tipo_sociedad'], return_counts=True)
plt.bar(values, distribucion)
df_empresas_activas['estado_matricula'].value_counts()
df_empresas_activas['cod_ciiu_act_econ_pri'].value_counts()
df_empresas_activas['organizacion_juridica'].value_counts()
file_name = 'empresas_activas.xlsx'
df_empresas_activas.to_excel(file_name)
print('Records successfully exported into Excel File')
file_name = 'empresas_activas.csv'
df_empresas_activas.to_csv(file_name, index = False)
print('Records successfully exported into CSV File')