Scikit Learn: Proyecto - Clasificación con dataset Diamonds

Proyecto de programación
Avanzado
Scikit Learn
Curso de Scikit Learn
30 min
Actualizado: 25/04/2026

Ejercicio de programación: Proyecto - Clasificación con dataset Diamonds

Este ejercicio de programación está diseñado para poner a prueba tus conocimientos en Scikit Learn. Es un ejercicio avanzado que pondrá a prueba tus conocimientos expertos.

Tipo: Proyecto 30 minutos estimados

Información adicional del ejercicio

Proyecto integrador de clasificación multiclase con Scikit-learn aplicado al dataset diamonds de Seaborn. Construye un pipeline completo de preprocesado, entrenamiento, evaluación con métricas avanzadas y validación cruzada para predecir la calidad del corte de un diamante a partir de sus características físicas y de precio.

Contenido del ejercicio

En este proyecto integrador resolverás un problema de clasificación multiclase para predecir la calidad del corte (cut) de un diamante a partir de sus características físicas y de valor. Trabajarás con el dataset diamonds de Seaborn.

Contexto del proyecto

El dataset diamonds contiene 53.940 registros con las siguientes variables:

  • carat: peso en quilates
  • cut: calidad del corte (Fair, Good, Very Good, Premium, Ideal) - variable objetivo
  • color: color del diamante (D a J)
  • clarity: claridad (I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF)
  • depth: porcentaje de profundidad total
  • table: ancho de la parte superior relativo al punto más ancho
  • price: precio en dólares
  • x, y, z: dimensiones en mm

Partes del proyecto

Usa una muestra de 5000 diamantes (diamonds.sample(5000, random_state=42)) para mayor rendimiento en la exploración.

Parte 1: Preprocesado (25%)

  1. Carga el dataset con sns.load_dataset("diamonds") y toma la muestra indicada.
  2. Separa la variable objetivo (cut) de las características.
  3. Codifica las variables categóricas (color, clarity) con OrdinalEncoder respetando su orden natural.
  4. Escala las variables numéricas (carat, depth, table, price, x, y, z) con StandardScaler.
  5. Divide en entrenamiento (80 %) y prueba (20 %) con random_state=42 y stratify=y.

Parte 2: Entrenamiento de clasificadores (25%)

Entrena al menos tres clasificadores:

  1. LogisticRegressión con max_iter=1000 y random_state=42.
  2. RandomForestClassifier con n_estimators=100 y random_state=42.
  3. GradientBoostingClassifier con n_estimators=100 y random_state=42.

Parte 3: Evaluación (25%)

  1. Para cada modelo, genera el classification_report sobre el conjunto de prueba.
  2. Calcula y visualiza la matriz de confusión del mejor modelo con ConfusionMatrixDisplay.
  3. Calcula la accuracy y el F1-score macro de cada modelo y presenta los resultados en un DataFrame comparativo.

Parte 4: Validación cruzada y pipeline (25%)

  1. Construye un Pipeline que integre el ColumnTransformer (parte 1) con el mejor clasificador.
  2. Ejecuta cross_val_score con cv=5 y scoring='f1_macro' sobre el pipeline completo.
  3. Imprime la media y la desviación estándar del F1-score en validación cruzada.

Más ejercicios de Scikit Learn

Explora más ejercicios de programación en Scikit Learn para mejorar tus habilidades y obtener tu certificación.

Ver más ejercicios de Scikit Learn
Alan Sastre - Autor del ejercicio

Alan Sastre

Ingeniero de Software y formador, CEO en CertiDevs

Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, Scikit Learn es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear ejercicios prácticos y contenido educativo de calidad para desarrolladores de todos los niveles.

Solución al ejercicio de programación en Scikit Learn

Contenido bloqueado

¡Desbloquea la solución completa!

Completa el ejercicio de programación en Scikit Learn para acceder a la solución paso a paso, explicaciones detalladas y mejores prácticas.

solution.js
JavaScript
1 function solveChallenge ( input ) {
2 // Algoritmo optimizado O(n log n)
3 const data = parseInput ( input );
4 const sorted = data . sort (( a , b ) => a - b );
5
6 // Aplicar técnica de dos punteros
7 let left = 0 , right = sorted . length - 1 ;
8 const result = [];
9
10 while ( left < right ) {
11 const sum = sorted [ left ] + sorted [ right ];
12 if ( sum === target ) {
13 result . push ([ sorted [ left ], sorted [ right ]]);
14 left ++; right --;
15 } else if ( sum < target ) {
16 left ++;
17 } else {
18 right --;
19 }
20 }
21
22 return result ;
23 }
Código completo
Explicaciones
Mejores prácticas
+1.200 developers han resuelto este ejercicio de programación

Practica con ejercicios de programación en Scikit Learn

Mejora tus habilidades con cientos de ejercicios de práctica, recibe retroalimentación instantánea y obtén tu certificación cuando estés listo.

Asistente de IA

Aprende de tus errores

Progreso

Mide tu avance

Certificación

Valida tus habilidades

Ejercicios de programación en Scikit Learn: Práctica y Certificación

Los ejercicios de programación son fundamentales para dominar Scikit Learn. Este ejercicio está diseñado para poner a prueba tus conocimientos prácticos y ayudarte a consolidar lo aprendido en las lecciones teóricas. La práctica constante con ejercicios de programación es la clave para convertirte en un desarrollador experto.

¿Por qué resolver ejercicios de programación?

Resolver ejercicios de programación en Scikit Learn te permite:

  • Aplicar conocimientos teóricos: Poner en práctica los conceptos aprendidos en las lecciones de Scikit Learn.
  • Identificar áreas de mejora: Descubrir qué conceptos necesitas reforzar en tu aprendizaje de Scikit Learn.
  • Prepararte para certificaciones: Los ejercicios te preparan para obtener certificados profesionales en Scikit Learn.
  • Mejorar tu perfil profesional: Demostrar tus habilidades prácticas en Scikit Learn.

Metodología de aprendizaje

Nuestros ejercicios de programación están diseñados siguiendo una metodología probada de aprendizaje progresivo. Cada ejercicio en Scikit Learn está cuidadosamente estructurado para llevar tus habilidades al siguiente nivel. Comenzamos con conceptos fundamentales y avanzamos gradualmente hacia desafíos más complejos que reflejan situaciones reales del desarrollo de software profesional.

Certificación y validación de conocimientos

Al completar ejercicios de programación, no solo mejoras tus habilidades técnicas, sino que también puedes obtener certificados que validan tu expertise en Scikit Learn. Estos certificados son reconocidos por empresas y pueden ser una gran adición a tu perfil profesional de LinkedIn o tu CV como desarrollador.

Los ejercicios están alineados con los estándares de la industria y cubren desde conceptos básicos hasta técnicas avanzadas de programación en Scikit Learn. Cada ejercicio incluye casos de prueba y ejemplos prácticos que te ayudarán a comprender mejor cómo aplicar lo aprendido en proyectos reales.

Nota: Para obtener el máximo beneficio de este ejercicio de programación, te recomendamos revisar primero las lecciones relacionadas de Scikit Learn y asegurarte de comprender los conceptos básicos antes de intentar resolver el ejercicio.