godeeperorgohome - cajamar data lab · 2020. 4. 20. · cv fold cv fold cv fold train folds test...

12

Upload: others

Post on 03-Jan-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: GoDeeperOrGoHome - Cajamar Data Lab · 2020. 4. 20. · CV Fold CV Fold CV Fold Train Folds Test Fold-Nivel 0 (Creación de datasets)-Nivel 1 (Modelosque apuntana la Y) Nivel 2 (Stacking)
Page 2: GoDeeperOrGoHome - Cajamar Data Lab · 2020. 4. 20. · CV Fold CV Fold CV Fold Train Folds Test Fold-Nivel 0 (Creación de datasets)-Nivel 1 (Modelosque apuntana la Y) Nivel 2 (Stacking)

Go Deeper Or Go Home

2

Carlos

Vecina Tebar

Santiago

García Gisbert

- Master Data Science para

Finanzas CUNEF 2017-2018

- Data Scientist en Gnarum

- Master Data Science para

Finanzas CUNEF 2018-2019

/CarlosVecina

/in/carlos-vecina

Proyecto:

Minsait Real State

Modelling

1. Análisis exploratorio.

2. Estructura del

algoritmo y

modelado.

3. Procesamiento de

imágenes.

Page 3: GoDeeperOrGoHome - Cajamar Data Lab · 2020. 4. 20. · CV Fold CV Fold CV Fold Train Folds Test Fold-Nivel 0 (Creación de datasets)-Nivel 1 (Modelosque apuntana la Y) Nivel 2 (Stacking)

GO DEEPER OR GO HOME

3

NAImputación por agrupación de medianas

en base a terceras variables

Outliers

Univariante

MultivarianteRegresión

lineal simple

Cook’s

Distance

�1a. Exploratorio. Imputación y outliers.

Page 4: GoDeeperOrGoHome - Cajamar Data Lab · 2020. 4. 20. · CV Fold CV Fold CV Fold Train Folds Test Fold-Nivel 0 (Creación de datasets)-Nivel 1 (Modelosque apuntana la Y) Nivel 2 (Stacking)

GO DEEPER OR GO HOME

4Craft de variables

Inclusión de variables externas

Creación a partir de

existentesDiscretización

�1b. Exploratorio. Creación de variables.

Page 5: GoDeeperOrGoHome - Cajamar Data Lab · 2020. 4. 20. · CV Fold CV Fold CV Fold Train Folds Test Fold-Nivel 0 (Creación de datasets)-Nivel 1 (Modelosque apuntana la Y) Nivel 2 (Stacking)

GO DEEPER OR GO HOME

5

�2a. Estructura del algoritmo (I)

Características:

- Flexible para combinar (ensemble y stacking) modelos de diferente

naturaleza y que vean diferentes datos (variables y/o observaciones);

- Cross Validation personalizada para calcular errores reales en los folds

y sacar predicciones del train «legítimas»

Problemas con las librerías:

- Difícil tratamiento de outliers e imputación en los diferentes folds

- Predicciones en el train obtenidas tras calculo de hiperparámetros

óptimos sobre ese mismo conjunto

Métrica de error

distorsionada

Predicciones con un

error infra estimado que

contaminarán el stacking

Page 6: GoDeeperOrGoHome - Cajamar Data Lab · 2020. 4. 20. · CV Fold CV Fold CV Fold Train Folds Test Fold-Nivel 0 (Creación de datasets)-Nivel 1 (Modelosque apuntana la Y) Nivel 2 (Stacking)

GO DEEPER OR GO HOME

6

10% Out Of

Sample

10% Out Of

Sample

CV

Fold

CV

Fold

CV

Fold

CV

Fold

Train

Folds

Test Fold

- Nivel 0

(Creación de

datasets)

- Nivel 1

(Modelos que

apuntan a la Y)

Nivel 2

(Stacking)

Modelado

90% Train90% Train

�2a. Estructura del algoritmo (II)

Page 7: GoDeeperOrGoHome - Cajamar Data Lab · 2020. 4. 20. · CV Fold CV Fold CV Fold Train Folds Test Fold-Nivel 0 (Creación de datasets)-Nivel 1 (Modelosque apuntana la Y) Nivel 2 (Stacking)

GO DEEPER OR GO HOME

7

�2b. Modelado

Nivel 0 Creación de datasets

- Filtrado de observaciones.

- Modelo clasificación decilde la Y.

Nivel 1Modelos que apuntan a la Y

- XGB parámetros optimizados y Log-cosh loss

- SVM

- Catboost

- Aproximate BayessianComputation Random Forest

Nivel 2

Stacking de predicciones de

los niveles anteriores

- Media ponderada

- Regresión penalizada Lasso

- XGB con depth muy reducida

Page 8: GoDeeperOrGoHome - Cajamar Data Lab · 2020. 4. 20. · CV Fold CV Fold CV Fold Train Folds Test Fold-Nivel 0 (Creación de datasets)-Nivel 1 (Modelosque apuntana la Y) Nivel 2 (Stacking)

GO DEEPER OR GO HOME

8

�3. Procesamiento de imágenes (I)

Modelos de

Deep Learning…

Usadas como variables en

los modelos anteriores

Dos

enfoques

- Tiene / No tiene foto

- Número de fotos

- Número de canales de la foto

- Dimensiones y calidad mediana

- Histograma de luminosidad

Page 9: GoDeeperOrGoHome - Cajamar Data Lab · 2020. 4. 20. · CV Fold CV Fold CV Fold Train Folds Test Fold-Nivel 0 (Creación de datasets)-Nivel 1 (Modelosque apuntana la Y) Nivel 2 (Stacking)

GO DEEPER OR GO HOME

9

�3. Procesamiento de imágenes (II)

Transfer

Learning

PCA Cluster

Kratzert, Frederik &

Mader, Helmut. (2018)

Page 10: GoDeeperOrGoHome - Cajamar Data Lab · 2020. 4. 20. · CV Fold CV Fold CV Fold Train Folds Test Fold-Nivel 0 (Creación de datasets)-Nivel 1 (Modelosque apuntana la Y) Nivel 2 (Stacking)

GO DEEPER OR GO HOME

10

�3. Procesamiento de imágenes (III)

Page 11: GoDeeperOrGoHome - Cajamar Data Lab · 2020. 4. 20. · CV Fold CV Fold CV Fold Train Folds Test Fold-Nivel 0 (Creación de datasets)-Nivel 1 (Modelosque apuntana la Y) Nivel 2 (Stacking)

GO DEEPER OR GO HOME

11

�4. Conclusiones alejando el foco. Negocio.

�Variables más relevantes respecto al

TARGET

�Interpretación del modelo / predicciones

Page 12: GoDeeperOrGoHome - Cajamar Data Lab · 2020. 4. 20. · CV Fold CV Fold CV Fold Train Folds Test Fold-Nivel 0 (Creación de datasets)-Nivel 1 (Modelosque apuntana la Y) Nivel 2 (Stacking)