Pipelines con ColumnTransformer

Código
Experto
ScikitLearn
ScikitLearn
30 min
200 XP
Actualizado: 28/02/2025

¡Practica y certifícate!

Retroalimentación
Soluciones
Certificado
Comenzar

Descripción

Crea un pipeline con ColumnTransformer en Scikit-Learn para preprocesar datos heterogéneos.

En este reto, aplicarás tus habilidades en el manejo de datos heterogéneos mediante la creación de un pipeline completo utilizando ColumnTransformer en Scikit-Learn. Trabajarás con el dataset de Titanic proporcionado por seaborn, donde tendrás que preparar los datos para predecir la supervivencia de los pasajeros.

El conjunto de datos de Titanic contiene variables numéricas, categóricas y de texto que deberás preprocesar de manera adecuada antes de pasar al modelo de clasificación.

Carga del dataset: Utiliza la librería seaborn para cargar el conjunto de datos titanic.

Definición de columnas: Identifica y divide las columnas en: numéricas (age, fare), categóricas (sex, class, embarked) y de texto (who).

Preprocesamiento de datos:

Guarda tu progreso

Inicia sesión para no perder tu progreso y accede a miles de tutoriales, ejercicios prácticos y nuestro asistente de IA.

Progreso guardado
Asistente IA
Ejercicios
Iniciar sesión gratis

Más de 25.000 desarrolladores ya confían en CertiDevs

  • Crea un Pipeline para las columnas numéricas que incluya:
    • Imputar valores faltantes con la mediana con SimpleImputer.
    • Escalar los datos utilizando StandardScaler.
    • Transformar distribuciones con QuantileTransfomer.
  • Crea un Pipeline para las columnas categóricas que incluya:
    • Imputar valores faltantes con la categoría más frecuente con SimpleImputer.
    • Codificar las columnas utilizando OneHotEncoder.
  • Para la columna de texto who, utiliza TfidfVectorizer para convertirla en características numéricas.

Creación de ColumnTransformer: Integra los pipelines anteriores en un ColumnTransformer que aplique las transformaciones adecuadas a cada subconjunto de columnas.

Integración del modelo:

  • Carga un modelo de clasificación, como LogisticRegression.
  • Crea un Pipeline completo que incluya el ColumnTransformer seguido por el modelo.

Entrenamiento y evaluación del modelo:

  • Divide los datos en conjuntos de entrenamiento y prueba.
  • Entrena el pipeline en los datos de entrenamiento.
  • Evalúa la exactitud del modelo en los datos de prueba.

Solución al ejercicio

Contenido bloqueado

¡Desbloquea la solución completa!

Completa el examen para acceder a la solución paso a paso, explicaciones detalladas y mejores prácticas.

solution.js
JavaScript
1 function solveChallenge ( input ) {
2 // Algoritmo optimizado O(n log n)
3 const data = parseInput ( input );
4 const sorted = data . sort (( a , b ) => a - b );
5
6 // Aplicar técnica de dos punteros
7 let left = 0 , right = sorted . length - 1 ;
8 const result = [];
9
10 while ( left < right ) {
11 const sum = sorted [ left ] + sorted [ right ];
12 if ( sum === target ) {
13 result . push ([ sorted [ left ], sorted [ right ]]);
14 left ++; right --;
15 } else if ( sum < target ) {
16 left ++;
17 } else {
18 right --;
19 }
20 }
21
22 return result ;
23 }
Código completo
Explicaciones
Mejores prácticas
+1.200 developers han resuelto este ejercicio de programación

Practica con exámenes de ScikitLearn

Mejora tus habilidades con cientos de exámenes de práctica, recibe retroalimentación instantánea y obtén tu certificación cuando estés listo.

Retroalimentación

Aprende de tus errores

Progreso

Mide tu avance

Certificación

Valida tus habilidades

Únete a miles de desarrolladores mejorando sus habilidades

⭐⭐⭐⭐⭐
4.9/5 valoración