Web Scraping y análisis de datos
Introducción:
En este lab crearemos un robot que rastree los productos del e-commerce de la página web thenorthface.cl para hacer un preprocesado, almacenado y posterior análisis.
Programando el robot:
Pero... ¿Qué hace el bot?
Paso 1: Establece una conexión con la web indicada
Paso 2: Identifica y guarda el valor de la etiqueta “price” con el atributo “finalprice”
Paso 3: Identifica y guarda el valor de la etiqueta “product name”
Paso 4: Consolida la recolección de datos
El resultado de la ejecución es un archivo JSON (una lista que contiene un diccionario, que a la vez contiene una clave:valor) el cuál nos trae precios y nombres de productos:
Pre-procesado de los datos
Importando la data
Posteriormente a la limpieza nos traemos los datos:
0
MEN'S STRETCH DOWN JACKET
$174.993
1
MEN'S STRETCH DOWN JACKET
$249.990
2
CHAQUETA STRETCH DOWN HOMBRE
$249.990
3
CHAQUETA THERMOBALL ECO 2.0 HOMBRE
$139.993
4
CHAQUETA VENTURE 2 HOMBRE
$79.992
5
CHAQUETA RESOLVE 2 HOMBRE
$89.990
6
MEN'S 1996 RETRO NUPTSE
$195.993
7
CHAQUETA 1996 RETRO NUPTSE HOMBRE
$279.990
8
M ARROWOOD TRICLIMATE
$199.990
9
MEN'S ARROWOOD TRICLIMATE® JACKET
$119.994
Como vemos a continuación, tenemos un total de 194 productos, de los cuales 173 son únicos
count
194
194
unique
173
83
top
MEN'S THERMOBALL™ ECO JACKET
$29.990
freq
2
18
Errores de origen
Consolidación de datos en DataBase
Instalando paquetes necesarios
Estableciendo la conexión e insertando los datos
Revisamos la base de datos SQL para ver si están llegando los datos:
La data se insertó correctamente en el servidor