Ejercicio de programación: Proyecto - Clasificación con dataset Diamonds
Este ejercicio de programación está diseñado para poner a prueba tus conocimientos en Scikit Learn. Es un ejercicio avanzado que pondrá a prueba tus conocimientos expertos.
Información adicional del ejercicio
Proyecto integrador de clasificación multiclase con Scikit-learn aplicado al dataset diamonds de Seaborn. Construye un pipeline completo de preprocesado, entrenamiento, evaluación con métricas avanzadas y validación cruzada para predecir la calidad del corte de un diamante a partir de sus características físicas y de precio.
Contenido del ejercicio
En este proyecto integrador resolverás un problema de clasificación multiclase para predecir la calidad del corte (cut) de un diamante a partir de sus características físicas y de valor. Trabajarás con el dataset diamonds de Seaborn.
Contexto del proyecto
El dataset diamonds contiene 53.940 registros con las siguientes variables:
- carat: peso en quilates
- cut: calidad del corte (Fair, Good, Very Good, Premium, Ideal) - variable objetivo
- color: color del diamante (D a J)
- clarity: claridad (I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF)
- depth: porcentaje de profundidad total
- table: ancho de la parte superior relativo al punto más ancho
- price: precio en dólares
- x, y, z: dimensiones en mm
Partes del proyecto
Usa una muestra de 5000 diamantes (diamonds.sample(5000, random_state=42)) para mayor rendimiento en la exploración.
Parte 1: Preprocesado (25%)
- Carga el dataset con
sns.load_dataset("diamonds")y toma la muestra indicada. - Separa la variable objetivo (
cut) de las características. - Codifica las variables categóricas (
color,clarity) conOrdinalEncoderrespetando su orden natural. - Escala las variables numéricas (
carat,depth,table,price,x,y,z) conStandardScaler. - Divide en entrenamiento (80 %) y prueba (20 %) con
random_state=42ystratify=y.
Parte 2: Entrenamiento de clasificadores (25%)
Entrena al menos tres clasificadores:
LogisticRegressiónconmax_iter=1000yrandom_state=42.RandomForestClassifierconn_estimators=100yrandom_state=42.GradientBoostingClassifierconn_estimators=100yrandom_state=42.
Parte 3: Evaluación (25%)
- Para cada modelo, genera el
classification_reportsobre el conjunto de prueba. - Calcula y visualiza la matriz de confusión del mejor modelo con
ConfusionMatrixDisplay. - Calcula la accuracy y el F1-score macro de cada modelo y presenta los resultados en un
DataFramecomparativo.
Parte 4: Validación cruzada y pipeline (25%)
- Construye un
Pipelineque integre elColumnTransformer(parte 1) con el mejor clasificador. - Ejecuta cross_val_score con cv=5 y scoring='f1_macro' sobre el pipeline completo.
- Imprime la media y la desviación estándar del F1-score en validación cruzada.
Más ejercicios de Scikit Learn
Explora más ejercicios de programación en Scikit Learn para mejorar tus habilidades y obtener tu certificación.
Ver más ejercicios de Scikit LearnExplora el curso completo de Scikit Learn
Descubre más contenido de Scikit Learn con lecciones, ejercicios y módulos organizados para tu aprendizaje.
Lecciones de Scikit Learn
Aprende los conceptos fundamentales con tutoriales detallados
Ejercicios de Scikit Learn
Practica con más ejercicios de programación
Módulos de Scikit Learn
Explora todos los módulos del curso organizados por temas
Curso completo de Scikit Learn
Ver el temario completo con todos los contenidos del curso
Todas las tecnologías
Explora todos los cursos de programación disponibles
Alan Sastre
Ingeniero de Software y formador, CEO en CertiDevs
Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, Scikit Learn es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear ejercicios prácticos y contenido educativo de calidad para desarrolladores de todos los niveles.
Solución al ejercicio de programación en Scikit Learn
¡Desbloquea la solución completa!
Completa el ejercicio de programación en Scikit Learn para acceder a la solución paso a paso, explicaciones detalladas y mejores prácticas.
Practica con ejercicios de programación en Scikit Learn
Mejora tus habilidades con cientos de ejercicios de práctica, recibe retroalimentación instantánea y obtén tu certificación cuando estés listo.
Asistente de IA
Aprende de tus errores
Progreso
Mide tu avance
Certificación
Valida tus habilidades
Ejercicios de programación en Scikit Learn: Práctica y Certificación
Los ejercicios de programación son fundamentales para dominar Scikit Learn. Este ejercicio está diseñado para poner a prueba tus conocimientos prácticos y ayudarte a consolidar lo aprendido en las lecciones teóricas. La práctica constante con ejercicios de programación es la clave para convertirte en un desarrollador experto.
¿Por qué resolver ejercicios de programación?
Resolver ejercicios de programación en Scikit Learn te permite:
- Aplicar conocimientos teóricos: Poner en práctica los conceptos aprendidos en las lecciones de Scikit Learn.
- Identificar áreas de mejora: Descubrir qué conceptos necesitas reforzar en tu aprendizaje de Scikit Learn.
- Prepararte para certificaciones: Los ejercicios te preparan para obtener certificados profesionales en Scikit Learn.
- Mejorar tu perfil profesional: Demostrar tus habilidades prácticas en Scikit Learn.
Metodología de aprendizaje
Nuestros ejercicios de programación están diseñados siguiendo una metodología probada de aprendizaje progresivo. Cada ejercicio en Scikit Learn está cuidadosamente estructurado para llevar tus habilidades al siguiente nivel. Comenzamos con conceptos fundamentales y avanzamos gradualmente hacia desafíos más complejos que reflejan situaciones reales del desarrollo de software profesional.
Certificación y validación de conocimientos
Al completar ejercicios de programación, no solo mejoras tus habilidades técnicas, sino que también puedes obtener certificados que validan tu expertise en Scikit Learn. Estos certificados son reconocidos por empresas y pueden ser una gran adición a tu perfil profesional de LinkedIn o tu CV como desarrollador.
Los ejercicios están alineados con los estándares de la industria y cubren desde conceptos básicos hasta técnicas avanzadas de programación en Scikit Learn. Cada ejercicio incluye casos de prueba y ejemplos prácticos que te ayudarán a comprender mejor cómo aplicar lo aprendido en proyectos reales.