Ejercicio de programación con ScikitLearn: Ingeniería de características para series temporales
Código
0h 18m
Aprende a crear variables basadas en lags para análisis de series temporales usando Scikit-Learn y pandas, realiza ingeniería de características para trabajar con columnas fecha.
En este reto, usarás Scikit-Learn y pandas para crear características basadas en la variable de retraso, comúnmente conocidas como lags. El objetivo es que practiques la creación de estas variables, que son fundamentales para capturar la dependencia temporal en series de datos. Trabajaremos con un dataset de series temporales proporcionado por la librería Seaborn.
El dataset a utilizar es el conjunto de datos flights
de Seaborn, el cual contiene registros mensuales del número de pasajeros de vuelos comerciales internacionales en el año 1949 hasta 1960.
- Importa los módulos necesarios:
pandas
,seaborn
,numpy
ytrain_test_split
desklearn.model_selection
. - Carga el dataset
flights
usando la funciónseaborn.load_dataset()
. - Asegúrate de que la columna
month
está en el formato de fecha adecuado para el análisis temporal. - Usa pandas para crear nuevas columnas en el DataFrame:
passengers_lag1
ypassengers_lag2
, que representen los valores retrasados 1 y 2 meses, respectivamente, utiliza la función shift de pandas. - Maneja los valores faltantes que resulten de la creación de lags.
- Define las variables independientes (X) y el objetivo (y), donde X incluirá
passengers_lag1
ypassengers_lag2
. La variable objetivo será el número real de pasajeros. - Divide los datos en conjuntos de entrenamiento y prueba, respetando el orden cronológico, para entrenar un modelo de regresión.
- Utiliza
RandomForestRegressor
de Scikit-Learn para entrenar el modelo. Haz predicciones sobre el conjunto de prueba. - Evalúa el rendimiento del modelo calculando el Error Medio Absoluto (MAE) y la Raíz del Error Cuadrático Medio (RMSE) de las predicciones.
Todos los ejercicios de programación de ScikitLearn
Evalúa tus conocimientos con ejercicios de programación en ScikitLearn de tipo Test, Puzzle, Código y Proyecto con VSCode.
Regresión SVM con SVR
Código
Ajuste de hiperparámetros
Código
Pipelines y Validación Cruzada
Código
Preprocesamiento de datos desbalanceados
Código
Pipelines con ColumnTransformer
Código
Validación y evaluación de modelos
Código
Preprocesamiento de datos de series temporales
Código
Identificación y tratamiento de valores faltantes
Código
Introducción a la clasificación
Código
Transformación y escalado de series temporales
Código
Extracción de características
Código
Clasificación KNN KNeighborsClassifier
Código
Regresión con algoritmos de conjunto
Código
Regresión lineal
Código
Reducción de la dimensionalidad con PCA
Código
Clasificación con algoritmos de conjunto
Código
Clasificación SVM con SVC
Código
Escalado de datos
Código
Clustering jerárquico
Código
Análisis de sentimiento
Código
Validación y evaluación de modelos en series temporales
Código
Regresión KNN KNeighborsRegressor
Código
Técnicas de validación cruzada
Código
Introducción al preprocesamiento de datos
Código
Exportar e importar Pipelines
Código
Preprocesamiento de textos para NLP
Código
Clasificación con árboles DecisionTreeClassifier
Código
Selección de Características
Código
Introducción a la regresión
Código
Clasificación con regresión logística en Scikit Learn
Código
Ingeniería de Características
Código
Clustering con KMeans
Código
Introducción al análisis de series temporales
Código
Codificación de variables categóricas
Código
Clasificación de Texto con Scikit Learn
Código
Métricas de Regresión
Código
Aprendizaje automático
Puzzle
Clustering de densidad con DBSCAN
Código
Métricas de clasificación
Código
Técnicas avanzadas de extracción de características
Código
Creación de pipelines básicos
Código
Particionamiento de datos
Código
Normalización de datos
Código
Regresión con árboles DecisionTreeRegressor
Código
Introducción e instalación de Scikit Learn
Código
Preprocesamiento de datos con pipelines
Código
Representación de texto y extracción de características
Código
Introducción a pipelines
Código
Tutorial para resolver este ejercicio de programación
ScikitLearn
Ingeniería de características para series temporales
Series temporales