Ejercicio de programación con ScikitLearn: Pipelines con ColumnTransformer
0h 30m
Crea un pipeline con ColumnTransformer en Scikit-Learn para preprocesar datos heterogéneos del dataset Titanic y predecir la supervivencia.
En este reto, aplicarás tus habilidades en el manejo de datos heterogéneos mediante la creación de un pipeline completo utilizando ColumnTransformer
en Scikit-Learn. Trabajarás con el dataset de Titanic proporcionado por seaborn
, donde tendrás que preparar los datos para predecir la supervivencia de los pasajeros.
El conjunto de datos de Titanic contiene variables numéricas, categóricas y de texto que deberás preprocesar de manera adecuada antes de pasar al modelo de clasificación.
Carga del dataset: Utiliza la librería seaborn
para cargar el conjunto de datos titanic
.
Definición de columnas: Identifica y divide las columnas en: numéricas (age
, fare
), categóricas (sex
, class
, embarked
) y de texto (who
).
Preprocesamiento de datos:
- Crea un
Pipeline
para las columnas numéricas que incluya:- Imputar valores faltantes con la mediana con
SimpleImputer
. - Escalar los datos utilizando
StandardScaler
. - Transformar distribuciones con
QuantileTransfomer
.
- Imputar valores faltantes con la mediana con
- Crea un
Pipeline
para las columnas categóricas que incluya:- Imputar valores faltantes con la categoría más frecuente con
SimpleImputer
. - Codificar las columnas utilizando
OneHotEncoder
.
- Imputar valores faltantes con la categoría más frecuente con
- Para la columna de texto
who
, utilizaTfidfVectorizer
para convertirla en características numéricas.
Creación de ColumnTransformer: Integra los pipelines anteriores en un ColumnTransformer
que aplique las transformaciones adecuadas a cada subconjunto de columnas.
Integración del modelo:
- Carga un modelo de clasificación, como
LogisticRegression
. - Crea un
Pipeline
completo que incluya elColumnTransformer
seguido por el modelo.
Entrenamiento y evaluación del modelo:
- Divide los datos en conjuntos de entrenamiento y prueba.
- Entrena el pipeline en los datos de entrenamiento.
- Evalúa la exactitud del modelo en los datos de prueba.
Todos los ejercicios de programación de ScikitLearn
Evalúa tus conocimientos con ejercicios de programación en ScikitLearn de tipo Test, Puzzle, Código y Proyecto con VSCode.
Regresión SVM con SVR
Ajuste de hiperparámetros
Pipelines y Validación Cruzada
Preprocesamiento de datos desbalanceados
Validación y evaluación de modelos
Preprocesamiento de datos de series temporales
Identificación y tratamiento de valores faltantes
Ingeniería de características para series temporales
Introducción a la clasificación
Transformación y escalado de series temporales
Extracción de características
Clasificación KNN KNeighborsClassifier
Regresión con algoritmos de conjunto
Regresión lineal
Reducción de la dimensionalidad con PCA
Clasificación con algoritmos de conjunto
Clasificación SVM con SVC
Escalado de datos
Clustering jerárquico
Análisis de sentimiento
Validación y evaluación de modelos en series temporales
Regresión KNN KNeighborsRegressor
Técnicas de validación cruzada
Introducción al preprocesamiento de datos
Exportar e importar Pipelines
Preprocesamiento de textos para NLP
Clasificación con árboles DecisionTreeClassifier
Selección de Características
Introducción a la regresión
Clasificación con regresión logística en Scikit Learn
Ingeniería de Características
Clustering con KMeans
Introducción al análisis de series temporales
Codificación de variables categóricas
Clasificación de Texto con Scikit Learn
Métricas de Regresión
Aprendizaje automático
Clustering de densidad con DBSCAN
Métricas de clasificación
Técnicas avanzadas de extracción de características
Creación de pipelines básicos
Particionamiento de datos
Normalización de datos
Regresión con árboles DecisionTreeRegressor
Introducción e instalación de Scikit Learn
Preprocesamiento de datos con pipelines
Representación de texto y extracción de características
Introducción a pipelines
Tutorial para resolver este ejercicio de programación
ScikitLearn
Pipelines con ColumnTransformer
Pipelines y despliegue