Análisis de los Modelos Lineales mediante la librería de Machine Learning (ML) de Scikit-Learn de Python
Boston Housing Data
Análisis estadístico del dataset
Con el objetivo de ser específico en el análisis, tomaré 5 variables del total que posiblemente expliquen el comportamiento de la variable Valor medio de las viviendas ocupadas por sus propietarios en miles de dólares. Las 5 variables que tomaré en cuenta son: CRIM, ZN, INDUS, DIS y TAX.
Estandarización de los datos y Modelo de Regresión Lineal (MCO)
Modelo lineal mediante el método Ridge
Modelo lineal mediante el método Lasso
Conclusiones
Al analizar la tabla de métricas de los tres métodos lineales desarrollados en el presente análisis técnico de Machine Learning, puedo concluir que tanto el método de Regresión Lineal (Mínimos Cuadrados Ordinarios) y el método Ridge minimizan la varianza de los datos (error) para explicar con mayor precisión el impacto de las variables exógenas o features sobre la variable endógena.
Cabe resaltar que mediante la métrica del Coeficiente de determinación se busca maximizar su valor, puesto que representa el ajuste de los datos predichos contra los datos reales. Además, la Puntuación de Varianza Explicada se encuentra en el rango de 0 y 1 donde se procura que el modelo se encuentre cerca del valor máximo. Por el contrario, debe establecerse como objetivo que el modelo desarrollado cuente con valores mínimos en el Error Cuadrático Medio y el Error Cuadrático Absoluto.