Proyecto de análisis y predicción de precios de inmuebles con AED y algoritmo de regresión regularizada
Resumen ejecutivo
Este proyecto se enfoca en la predicción de las ventas de viviendas en el condado de King, ubicado en el estado de Washington, EE. UU., utilizando técnicas de aprendizaje automático. El objetivo principal es desarrollar el mejor modelo de regresión posible para predecir con alta precisión los precios de las viviendas y comprender los factores que más influyen en su valor. El conjunto de datos utilizado contiene información histórica sobre propiedades vendidas en el período comprendido entre mayo de 2014 y mayo de 2015.
Planteamiento del problema
El desafío principal de este proyecto es crear un modelo de regresión que pueda predecir con la mayor precisión posible las ventas de casas en el condado de King. Esto implica no solo la construcción de un modelo preciso, sino también la identificación y comprensión de los factores más influyentes en el precio de las propiedades. Este conocimiento puede ser valioso para compradores, vendedores y agentes inmobiliarios.
Descripción de la base de datos
Variables - Descripción de tipos de datos
Análisis exploratorio de datos
Introducción
El análisis exploratorio de datos (EDA) es una etapa fundamental en nuestro proyecto de análisis y pronóstico de ventas de inmuebles en el condado de King, Washington, USA. En esta fase, utilizaremos diversas herramientas para explorar y comprender en profundidad el conjunto de datos que hemos extraído de la plataforma Kaggle.
Para iniciar este proceso, hemos importado la biblioteca pandas para manipulación de datos, numpy para operaciones numéricas, plotly.express y matplotlib.pyplot para visualización de datos, seaborn para gráficos estadísticos y scipy.stats para análisis estadístico. Además, hemos cargado nuestro conjunto de datos desde el archivo "Data_ventas_inmuebles.csv" en un DataFrame de pandas llamado "df".
El objetivo de este análisis es obtener una visión general de nuestros datos, identificar tendencias, patrones y posibles relaciones entre las variables que luego serán fundamentales para construir un modelo de regresión preciso. Además, este análisis nos ayudará a cumplir con nuestro objetivo principal: predecir las ventas de viviendas en el condado de King con una precisión alta y comprender qué factores contribuyen significativamente al valor de las propiedades.
A lo largo de esta etapa, realizaremos diversas exploraciones, como la visualización de distribuciones de variables, la identificación de valores atípicos, la evaluación de correlaciones y la selección de características relevantes. Cada uno de estos pasos nos acercará más a comprender la dinámica subyacente de los precios de las viviendas en nuestra región de interés.
Este proceso de análisis exploratorio de datos servirá como base sólida para la construcción posterior de nuestro modelo de regresión y nos permitirá tomar decisiones informadas en relación con los factores que influyen en las ventas de inmuebles en el condado de King.
A continuación, procederemos a realizar una serie de análisis detallados sobre nuestro conjunto de datos, explorando las variables clave y extrayendo información valiosa que nos ayudará a cumplir nuestros objetivos de pronóstico y comprensión.
Run to view results
Run to view results
Se evidencia que nuestro dataframe cuenta con 21 features o variables y 21597 observaciones, lo cual, nos habla de una dimensionalidad importante y acorde a los fines de nuestro proyecto.
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Teniendo en cuenta que se asignó el valor 1 a las viviendas menos costosas y el valor 5 a las más costosas, se tiene que:
Run to view results
Run to view results
Run to view results
Distribución y dispersión de variables
Visualización de distribución de variables numéricas mediante histogramas
Run to view results
Visualización de dispersión en variables mediante gráficos boxplot
Run to view results
Run to view results
Análisis de distribución y dispersión (Histogramas y Boxplots):
Media: El precio promedio de las viviendas es de aproximadamente $540,307. Esto indica el valor típico de las propiedades en el área de estudio. Desviación estándar: La alta desviación estándar de aproximadamente $367,406 sugiere una amplia variabilidad en los precios, lo que indica una gran diversidad en el mercado inmobiliario de la región. Rango: Los precios varían desde un mínimo de $78,000 hasta un máximo de $7,700,000. Este amplio rango refleja la heterogeneidad de las propiedades, desde viviendas asequibles hasta propiedades de lujo.
Esta variable parece representar una categorización de códigos postales en grupos numéricos del 1 al 5. Cada grupo podría indicar diferentes zonas geográficas o niveles de precio en el mercado inmobiliario. Ayuda a capturar la influencia de la ubicación en el análisis.
Media: El promedio de aproximadamente 3.37 dormitorios sugiere que la mayoría de las viviendas tienen alrededor de tres o cuatro dormitorios. Un mayor número de dormitorios tiende a incrementar el precio, ya que proporciona más espacio habitable.
Media: El promedio de aproximadamente 2.12 baños indica que, en promedio, las viviendas tienen alrededor de dos baños. Los baños adicionales pueden aumentar el valor de la propiedad, ya que mejoran la comodidad y el espacio utilizable.
Media: La media de grado es de aproximadamente 7.66. Un grado más alto suele asociarse con viviendas de mayor calidad y, por lo tanto, precios más altos.
Media: La media de condición es de aproximadamente 3.41. Un valor más alto indica una mejor condición de la vivienda, lo que puede influir positivamente en el precio.
Media: La superficie promedio de aproximadamente 2,080 pies cuadrados indica el tamaño típico de las viviendas en el conjunto de datos. Un mayor tamaño suele asociarse con precios más altos.
Media: El tamaño promedio del lote es de aproximadamente 15,102 pies cuadrados. Lotes más grandes suelen estar relacionados con propiedades más caras.
Media: La media de aproximadamente 1.49 indica que la mayoría de las viviendas tienen un solo piso. Más pisos pueden aumentar el precio, pero esto también puede depender de la ubicación y el estilo arquitectónico.
Variable binaria (0 y 1) que indica si una vivienda tiene vista al agua. La presencia de agua suele aumentar significativamente el precio debido a la demanda y la escasez de propiedades con esta característica.
Run to view results
Análisis de distribuciones con coeficiente de sesgo Pearson
Coeficiente de Sesgo Pearson: 0.737388 Interpretación: El coeficiente de sesgo positivo indica una asimetría hacia la derecha en la distribución de precios. Esto significa que hay una concentración de viviendas con precios más bajos y un número relativamente menor de viviendas con precios mucho más altos, lo que resulta en una cola derecha pesada en la distribución.
Coeficiente de Sesgo Pearson: -0.023371 Interpretación: El coeficiente de sesgo cercano a cero sugiere que la distribución de los grupos de código postal tiende a ser aproximadamente simétrica, sin una asimetría pronunciada hacia la izquierda o la derecha.
Coeficiente de Sesgo Pearson: 1.208909 Interpretación: El coeficiente de sesgo positivo indica una asimetría hacia la derecha en la distribución del número de dormitorios. Esto significa que la mayoría de las viviendas tienen un número relativamente bajo de dormitorios, pero hay algunas con un número significativamente mayor de dormitorios que generan una cola derecha en la distribución.
Coeficiente de Sesgo Pearson: -0.523470 Interpretación: El coeficiente de sesgo negativo indica una asimetría hacia la izquierda en la distribución del número de baños. Esto sugiere que la mayoría de las viviendas tienen un número relativamente alto de baños, pero hay algunas con un número significativamente menor de baños que generan una cola izquierda en la distribución.
Coeficiente de Sesgo Pearson: 1.681769 Interpretación: El coeficiente de sesgo positivo indica una asimetría hacia la derecha en la distribución de los grados de calidad de las viviendas. La mayoría de las viviendas tienen grados moderados, pero hay algunas con grados muy altos que generan una cola derecha en la distribución.
Coeficiente de Sesgo Pearson: 1.890026 Interpretación: El coeficiente de sesgo positivo sugiere una asimetría hacia la derecha en la distribución de las condiciones de las viviendas. La mayoría de las viviendas tienen condiciones moderadas, pero hay algunas con condiciones excepcionalmente buenas que generan una cola derecha en la distribución.
Coeficiente de Sesgo Pearson: 0.556698 Interpretación: El coeficiente de sesgo positivo indica una asimetría hacia la derecha en la distribución de los tamaños de superficie habitable. La mayoría de las viviendas tienen tamaños moderados, pero hay algunas con tamaños excepcionalmente grandes que generan una cola derecha en la distribución.
Coeficiente de Sesgo Pearson: 0.541955 Interpretación: El coeficiente de sesgo positivo indica una asimetría hacia la derecha en la distribución de los tamaños de lote. La mayoría de las viviendas tienen lotes de tamaño moderado, pero hay algunas con lotes significativamente más grandes que generan una cola derecha en la distribución.
Coeficiente de Sesgo Pearson: -0.033731 Interpretación: El coeficiente de sesgo cercano a cero sugiere que la distribución del número de pisos tiende a ser aproximadamente simétrica, sin una asimetría pronunciada hacia la izquierda o la derecha.
Coeficiente de Sesgo Pearson: 0.261640 Interpretación: El coeficiente de sesgo positivo indica una asimetría hacia la derecha en la distribución de propiedades frente al agua. La mayoría de las viviendas no tienen vista al agua, pero algunas tienen esta característica, generando una cola derecha en la distribución.
Coeficiente de Sesgo Pearson: 0.916972 Interpretación: El coeficiente de sesgo positivo indica una asimetría hacia la derecha en la distribución de las puntuaciones de vistas. La mayoría de las viviendas tienen puntuaciones moderadas de vistas, pero algunas tienen puntuaciones muy altas, generando una cola derecha en la distribución.
Coeficiente de Sesgo Pearson: 0.828527 Interpretación: El coeficiente de sesgo positivo indica una asimetría hacia la derecha en la distribución de la superficie sobre el nivel del suelo. La mayoría de las viviendas tienen espacio habitable sobre el nivel del suelo de tamaño moderado, pero algunas tienen un espacio significativamente más grande, generando una cola derecha en la distribución.
Coeficiente de Sesgo Pearson: 1.977117 Interpretación: El coeficiente de sesgo positivo indica una asimetría hacia la derecha en la distribución de la superficie del sótano. La mayoría de las viviendas tienen sótanos de tamaño moderado, pero algunas tienen sótanos excepcionalmente grandes, generando una cola derecha en la distribución.
Coeficiente de Sesgo Pearson: -0.409102 Interpretación: El coeficiente de sesgo negativo indica una asimetría hacia la izquierda en la distribución de los años de construcción. La mayoría de las viviendas fueron construidas en años más recientes, pero algunas son más antiguas y generan una cola izquierda en la distribución.
Coeficiente de Sesgo Pearson: 0.630330 Interpretación: El coeficiente de sesgo positivo indica una asimetría hacia la derecha en la distribución de los años de renovación. La mayoría de las viviendas fueron renovadas en años más recientes, pero algunas tienen años de renovación anteriores, generando una cola derecha en la distribución.
Coeficiente de Sesgo Pearson: 0.642023 Interpretación: El coeficiente de sesgo positivo indica una asimetría hacia la derecha en la distribución de los tamaños promedio de superficie habitable de viviendas cercanas. La mayoría de las viviendas tienen tamaños promedio, pero algunas tienen tamaños promedio significativamente más grandes, generando una cola derecha en la distribución.
Coeficiente de Sesgo Pearson: 0.565299 Interpretación: El coeficiente de sesgo positivo indica una asimetría hacia la derecha en la distribución de los tamaños promedio de lote de viviendas cercanas. La mayoría de las viviendas tienen tamaños promedio de lote, pero algunas tienen tamaños promedio significativamente más grandes, generando una cola derecha en la distribución.
Visualización de correlaciones entre la variable objetivo y cada una de las variables explicativas, mediante gráficos de dispersión
Run to view results
Matriz de correlaciones entre variables
Run to view results
Tabla de correlaciones entre variables
Run to view results
Análisis de correlaciones entre la variable objetivo y cada una de las variables explicativas
Correlación: 0.7019 Implicaciones Estadísticas: Existe una fuerte correlación positiva entre el tamaño de la superficie habitable y el precio de las viviendas. Esto significa que a medida que el tamaño de la superficie habitable aumenta, el precio tiende a aumentar significativamente. Implicaciones Económicas: Desde una perspectiva económica, esta correlación sugiere que los compradores están dispuestos a pagar más por viviendas con más espacio habitable. El tamaño de la superficie habitable es un factor importante en la determinación del precio de una vivienda.
Correlación: 0.6681 Implicaciones Estadísticas: Existe una correlación positiva significativa entre el grado de la vivienda y su precio. A medida que el grado aumenta, el precio tiende a aumentar. Implicaciones Económicas: El grado de una vivienda puede reflejar su calidad y características. Esta correlación sugiere que las viviendas de mayor calidad, según su grado, tienden a tener precios más altos.
Correlación: 0.6054 Implicaciones Estadísticas: El tamaño de la superficie sobre el nivel del suelo está positivamente correlacionado con el precio. A medida que esta superficie aumenta, el precio tiende a aumentar. Implicaciones Económicas: El espacio sobre el nivel del suelo es un componente importante de la superficie habitable total de una vivienda. Esta correlación indica que una mayor superficie sobre el nivel del suelo contribuye al aumento del precio de la vivienda.
Correlación: 0.5543 Implicaciones Estadísticas: La correlación entre el grupo de código postal y el precio es moderada y positiva, lo que indica que la ubicación de cada vivienda en función del código postal influye de manera significativa al precio. Implicaciones Económicas: El código postal puede influir en el precio debido a la ubicación y características de la zona, lo que puede aumentar la demanda de ciertos potenciales compradores.
Correlación: 0.0899 Implicaciones Estadísticas: Existe una correlación positiva débil entre el tamaño del lote y el precio. El aumento en el tamaño del lote tiene una influencia limitada en el precio. Implicaciones Económicas: Aunque hay una correlación positiva, su debilidad sugiere que el tamaño del lote no es un factor principal en la determinación del precio. Los compradores pueden estar dispuestos a pagar algo más por lotes más grandes, pero otros factores son más influyentes.
Correlación: 0.3975 Implicaciones Estadísticas: La vista de la vivienda muestra una correlación positiva con el precio, pero es menos fuerte que otras variables. Implicaciones Económicas: Tener una vista escénica puede aumentar el atractivo de una vivienda y, por lo tanto, su precio. Sin embargo, esta correlación es menos significativa que otras variables principales, como el tamaño de la superficie habitable y el grado.
Correlación: 0.3088 Implicaciones Estadísticas: Existe una correlación positiva significativa entre la cantidad de dormitorios y el precio de las viviendas. A medida que aumenta el número de dormitorios, el precio tiende a aumentar. Implicaciones Económicas: Los dormitorios adicionales pueden aumentar el espacio y la capacidad de una vivienda, lo que influye en un precio más alto.
Correlación: 0.0360 Implicaciones Estadísticas: La correlación entre la condición de la vivienda y el precio es débil y positiva. Esto indica que, en general, las viviendas en mejor condición tienden a tener precios ligeramente más altos. Implicaciones Económicas: Aunque la correlación es débil, la condición sigue siendo un factor importante. Las viviendas en mejor estado pueden atraer a compradores dispuestos a pagar un poco más.
Correlación: 0.0540 Implicaciones Estadísticas: La correlación entre el año de construcción y el precio es débil y positiva. Esto sugiere que, en general, las viviendas más nuevas tienden a tener precios ligeramente más altos. Implicaciones Económicas: Aunque la correlación es débil, la antigüedad de una vivienda puede influir en su precio. Las viviendas más nuevas pueden atraer a compradores dispuestos a pagar un poco más por características modernas.
Correlación: 0.1265 Implicaciones Estadísticas: La correlación entre el año de renovación y el precio es positiva pero moderada. Esto sugiere que las renovaciones recientes pueden estar asociadas con precios ligeramente más altos. Implicaciones Económicas: Las renovaciones pueden mejorar la apariencia y la funcionalidad de una vivienda, lo que podría aumentar su precio. Sin embargo, la correlación no es muy fuerte.
Correlación: 0.3067 Implicaciones Estadísticas: La correlación entre la latitud y el precio es positiva y moderada. A medida que la latitud aumenta, el precio tiende a aumentar.
Correlación: 0.0220 Implicaciones Estadísticas: La correlación entre la longitud y el precio es débil y positiva. Esto sugiere una influencia mínima de la longitud en el precio. Implicaciones Económicas: La longitud geográfica de una vivienda parece tener una influencia limitada en su precio. Otros factores son más influyentes.
Correlación: 0.0828 Implicaciones Estadísticas: La correlación entre el tamaño promedio del lote de viviendas cercanas y el precio es débil y positiva. Implicaciones Económicas: Aunque existe una correlación positiva, parece que el tamaño promedio del lote de viviendas cercanas tiene una influencia limitada en el precio.
En resumen, estas correlaciones destacan la importancia de diversas características en la determinación del precio de las viviendas. Factores como el tamaño de la superficie habitable, el grado de la vivienda, la ubicación de la vivienda en función de su código postal, el número de baños y la latitud geográfica muestran correlaciones significativas y positivas con el precio. Estas correlaciones sugieren que los compradores están dispuestos a pagar más por viviendas con más espacio habitable, mejor grado, más baños y ubicaciones geográficas específicas. Por otro lado, variables como la condición de la vivienda, el año de construcción y la longitud geográfica muestran correlaciones más débiles con el precio, lo que indica que su influencia en el precio es probablemente limitada.
Modelo predictivo con algoritmo de regresión regularizada
Introducción
En el marco de este proyecto de ciencia de datos, hemos explorado detalladamente un conjunto de datos de ventas de viviendas en el condado de King, con el objetivo de desarrollar un modelo predictivo preciso para pronosticar los precios de las viviendas. Tras un exhaustivo Análisis Exploratorio de Datos (AED) que nos proporcionó una comprensión profunda de las características y relaciones clave entre las variables, hemos llegado a una etapa crucial: la construcción, evaluación y selección del mejor modelo de pronóstico.
En esta etapa, nos centramos en la aplicación de algoritmos de regresión regularizada, una técnica efectiva en la modelización predictiva que combina la regresión con la regularización para prevenir el sobreajuste y mejorar la generalización del modelo. La elección de la regresión regularizada es fundamental, ya que abordará la variabilidad y complejidad inherentes a los datos, permitiendo un ajuste más preciso y evitando problemas de multicolinealidad y overfitting.
A lo largo de esta sección, exploraremos en detalle la construcción del modelo predictivo con algoritmos de regresión regularizada, evaluaremos su rendimiento y seleccionaremos el modelo que mejor se ajuste a nuestros datos manteniendo buena capacidad de generalización. Además, analizaremos las implicaciones económicas y estadísticas de cada modelo, teniendo en cuenta la importancia de las variables predictoras en la determinación de los precios de las viviendas.
Este proceso de construcción y selección del modelo es esencial en nuestro proyecto, ya que su precisión tendrá un impacto directo en la calidad de nuestras predicciones y, por lo tanto, en su utilidad para profesionales del sector inmobiliario, compradores y vendedores de viviendas, y otros actores interesados en comprender y pronosticar los precios de las propiedades en el mercado de King County.
Carga y preparación de datos
Run to view results
Run to view results
Run to view results
-id: Un identificador único para cada propiedad. -date: La fecha en que se registró la venta de la propiedad. -price: El precio de venta de la propiedad. -bedrooms: El número de dormitorios en la propiedad. -bathrooms: El número de baños en la propiedad. -sqft_living: El tamaño de la superficie habitable en pies cuadrados. -sqft_lot: El tamaño del lote en pies cuadrados. -floors: El número de pisos en la propiedad. -waterfront: Una variable binaria que indica si la propiedad tiene vista al agua (0: No, 1: Sí). -view: Una variable numérica que indica el nivel de vista de la propiedad. -condition: La condición general de la propiedad. -grade: La calificación o grado de la propiedad. -sqft_above: El tamaño de la superficie sobre el nivel del suelo en pies cuadrados. -sqft_basement: El tamaño del sótano en pies cuadrados. -yr_built: El año de construcción de la propiedad. -yr_renovated: El año de renovación de la propiedad. -zipcode: El código postal de la ubicación de la propiedad. -lat: La latitud geográfica de la propiedad. -long: La longitud geográfica de la propiedad. -sqft_living15: El tamaño promedio de la superficie habitable de viviendas cercanas en pies cuadrados. -sqft_lot15: El tamaño promedio del lote de viviendas cercanas en pies cuadrados.
Run to view results
Run to view results
Run to view results
Run to view results
Esta operación es importante en el contexto de construcción de modelos predictivos, ya que simplifica el conjunto de datos y se enfoca en las variables más relevantes para predecir el precio de las viviendas. Eliminar columnas no utilizadas puede ayudar a evitar el sobreajuste del modelo, mejorar la eficiencia computacional y facilitar la interpretación de los resultados. En este caso, las columnas eliminadas ("zipcode," "date" y "id") se consideran irrelevantes para la predicción del precio de las viviendas y, por lo tanto, se eliminan del conjunto de datos.
Run to view results
Run to view results
Construcción y evaluación del mejor modelo
Creación y evaluación de modelo lineal
Run to view results
Run to view results
Run to view results
En el siguiente paso del proyecto, se llevaron a cabo las siguientes operaciones relacionadas con la construcción y evaluación de un modelo de regresión lineal:
Run to view results
Run to view results
Run to view results
En este paso, se realizaron predicciones utilizando el modelo de regresión lineal entrenado en un conjunto de datos de prueba (conjunto de prueba) que no había sido utilizado previamente en el proceso de entrenamiento. Luego, se calcularon diversas métricas de desempeño para evaluar la calidad de las predicciones del modelo en datos independientes. Estas métricas incluyen:
Estas métricas son fundamentales para evaluar la capacidad de generalización del modelo a datos independientes en el conjunto de prueba. En este caso, los resultados sugieren que el modelo de regresión lineal tiene un buen rendimiento en la predicción de los precios de las viviendas en el conjunto de prueba, con un MSE y RMSE bajos, un R^2 cercano a 1 y un MAE razonablemente bajo. Estos indicadores son consistentes con el buen desempeño previamente observado en el conjunto de entrenamiento.
Run to view results
Run to view results
Creación y evaluación de modelo polinomial grado 2
Run to view results
En este paso, se construyó y evaluó un modelo de regresión polinomial de grado 2 como una extensión del modelo de regresión lineal previamente creado. El objetivo era determinar si un modelo de regresión polinomial, que permite capturar relaciones no lineales entre las variables independientes y la variable objetivo, ofrecía un mejor ajuste en comparación con el modelo lineal.
Aquí se presentan las principales diferencias y resultados en comparación con el modelo de regresión lineal:
En resumen, el modelo de regresión polinomial de grado 2 demostró un mejor rendimiento en términos de ajuste y precisión en comparación con el modelo de regresión lineal en ambos conjuntos de entrenamiento y prueba. Esto sugiere que capturó de manera más efectiva relaciones no lineales en los datos, lo que lo convierte en una elección más adecuada para predecir los precios de las viviendas en este contexto específico.
Creación y evaluación de modelo polinomial grado 3
Run to view results
En este paso del proyecto, se construyó y evaluó un modelo de regresión polinomial de grado 3, el cual es una extensión del modelo polinomial de grado 2 previamente creado. El objetivo era determinar si un modelo de mayor grado podría capturar relaciones aún más complejas entre las variables independientes y la variable objetivo (precio de las viviendas).
A continuación, se presentan las principales diferencias y resultados en comparación con el modelo polinomial de grado 2 y el modelo lineal:
En resumen, aunque el modelo polinomial de grado 3 logró un ajuste excepcionalmente bueno a los datos de entrenamiento, no se generalizó de manera efectiva en el conjunto de prueba, lo que resultó en un aumento significativo del RMSE y una disminución drástica del R-squared en comparación con el modelo polinomial de grado 2. Esto sugiere que, en este caso, un modelo de grado 2 podría ser el modelo de regresión polinomial más adecuado para predecir los precios de las viviendas en datos nuevos y desconocidos. Sin embargo, es susceptible a tener posibles problemas de sobreajuste (overfitting), por lo cual, será necesario regularizarlo con la norma L2 (Ridge).
Creación y evaluación de modelo polinomial grado 2 regularizado con norma L2 (Ridge)
Run to view results
En este paso, se llevó a cabo la evaluación de un modelo de regresión Ridge regularizado con un grado de polinomio igual a 2. A continuación, se realiza un análisis detallado de los resultados y su relevancia:
-RMSE (Error Cuadrático Medio de la Raíz): Esta métrica mide la diferencia entre los valores reales y las predicciones del modelo, proporcionando una medida de la precisión del modelo en términos de unidades de precio. En este caso, el RMSE en el conjunto de prueba fue de aproximadamente 146,598.57 unidades monetarias.
-R-squared (R^2): R-squared es una métrica que indica la proporción de la variabilidad en la variable objetivo (precio) que es explicada por el modelo. En este caso, el modelo Ridge logró un R-squared de aproximadamente 0.8558 en el conjunto de prueba, lo que sugiere que el 85.58% de la variabilidad en los precios se puede explicar mediante las características del modelo.
-R-squared Ajustado: El R-squared ajustado tiene en cuenta el número de características en el modelo y proporciona una medida más realista de la capacidad de generalización del modelo. En este caso, el R-squared ajustado fue de aproximadamente 0.8492 en el conjunto de prueba.
-MAE (Error Absoluto Medio): El MAE es la diferencia promedio entre los valores reales y las predicciones del modelo. En este caso, el MAE en el conjunto de prueba fue de aproximadamente 88,128.19 unidades monetarias.
Elección del mejor modelo de regresión y su interpretación
Tras evaluar los modelos anteriores, se llegó a las siguientes conclusiones:
Almacenamiento del modelo
Run to view results