Descripción
Crea un pipeline con ColumnTransformer en Scikit-Learn para preprocesar datos heterogéneos.
En este reto, aplicarás tus habilidades en el manejo de datos heterogéneos mediante la creación de un pipeline completo utilizando ColumnTransformer
en Scikit-Learn. Trabajarás con el dataset de Titanic proporcionado por seaborn
, donde tendrás que preparar los datos para predecir la supervivencia de los pasajeros.
El conjunto de datos de Titanic contiene variables numéricas, categóricas y de texto que deberás preprocesar de manera adecuada antes de pasar al modelo de clasificación.
Carga del dataset: Utiliza la librería seaborn
para cargar el conjunto de datos titanic
.
Definición de columnas: Identifica y divide las columnas en: numéricas (age
, fare
), categóricas (sex
, class
, embarked
) y de texto (who
).
Preprocesamiento de datos:
Guarda tu progreso
Inicia sesión para no perder tu progreso y accede a miles de tutoriales, ejercicios prácticos y nuestro asistente de IA.
Más de 25.000 desarrolladores ya confían en CertiDevs
- Crea un
Pipeline
para las columnas numéricas que incluya:- Imputar valores faltantes con la mediana con
SimpleImputer
. - Escalar los datos utilizando
StandardScaler
. - Transformar distribuciones con
QuantileTransfomer
.
- Imputar valores faltantes con la mediana con
- Crea un
Pipeline
para las columnas categóricas que incluya:- Imputar valores faltantes con la categoría más frecuente con
SimpleImputer
. - Codificar las columnas utilizando
OneHotEncoder
.
- Imputar valores faltantes con la categoría más frecuente con
- Para la columna de texto
who
, utilizaTfidfVectorizer
para convertirla en características numéricas.
Creación de ColumnTransformer: Integra los pipelines anteriores en un ColumnTransformer
que aplique las transformaciones adecuadas a cada subconjunto de columnas.
Integración del modelo:
- Carga un modelo de clasificación, como
LogisticRegression
. - Crea un
Pipeline
completo que incluya elColumnTransformer
seguido por el modelo.
Entrenamiento y evaluación del modelo:
- Divide los datos en conjuntos de entrenamiento y prueba.
- Entrena el pipeline en los datos de entrenamiento.
- Evalúa la exactitud del modelo en los datos de prueba.
Solución al ejercicio
¡Desbloquea la solución completa!
Completa el examen para acceder a la solución paso a paso, explicaciones detalladas y mejores prácticas.
Practica con exámenes de ScikitLearn
Mejora tus habilidades con cientos de exámenes de práctica, recibe retroalimentación instantánea y obtén tu certificación cuando estés listo.
Retroalimentación
Aprende de tus errores
Progreso
Mide tu avance
Certificación
Valida tus habilidades
Únete a miles de desarrolladores mejorando sus habilidades