Ejercicio de programación con ScikitLearn: Clustering con KMeans
1h 30m
Aprende a programar el algoritmo KMeans con Scikit-Learn. Carga el dataset 'wine', scala datos, implementa KMeans, evalúa y visualiza clústeres.
Tu tarea es aplicar el algoritmo KMeans para agrupar un conjunto de datos de vinos con diferentes características. El objetivo es identificar clústeres naturales en el conjunto de datos y analizar la separación entre estos grupos.
Carga del conjunto de datos: Usa el conjunto de datos 'wine'
disponible en Scikit Learn. Este conjunto contiene tres tipos de vinos con sus respectivas características químicas.
Preprocesamiento: Escala las características del conjunto de datos para asegurar que todas contribuyan de manera uniforme al clustering.
Implementación de KMeans:
- Utiliza KMeans para agrupar los datos en tres clústeres.
- Asegúrate de establecer la semilla de aleatoriedad en 42 para reproducibilidad.
Evaluación:
- Calcula e imprime la inercia del modelo.
- Calcula y muestra el coeficiente de silueta promedio para evaluar la calidad del clustering.
Visualización:
- Reduce las dimensionalidad de los datos a dos dimensiones usando PCA para facilitar la visualización.
- Muestra un gráfico de dispersión de los dos componentes principales coloreado por clúster.
Comparación:
- Imprime cuántos vinos pertenecen a cada clúster.
Todos los ejercicios de programación de ScikitLearn
Evalúa tus conocimientos con ejercicios de programación en ScikitLearn de tipo Test, Puzzle, Código y Proyecto con VSCode.
Regresión SVM con SVR
Ajuste de hiperparámetros
Pipelines y Validación Cruzada
Preprocesamiento de datos desbalanceados
Pipelines con ColumnTransformer
Validación y evaluación de modelos
Preprocesamiento de datos de series temporales
Identificación y tratamiento de valores faltantes
Ingeniería de características para series temporales
Introducción a la clasificación
Transformación y escalado de series temporales
Extracción de características
Clasificación KNN KNeighborsClassifier
Regresión con algoritmos de conjunto
Regresión lineal
Reducción de la dimensionalidad con PCA
Clasificación con algoritmos de conjunto
Clasificación SVM con SVC
Escalado de datos
Clustering jerárquico
Análisis de sentimiento
Validación y evaluación de modelos en series temporales
Regresión KNN KNeighborsRegressor
Técnicas de validación cruzada
Introducción al preprocesamiento de datos
Exportar e importar Pipelines
Preprocesamiento de textos para NLP
Clasificación con árboles DecisionTreeClassifier
Selección de Características
Introducción a la regresión
Clasificación con regresión logística en Scikit Learn
Ingeniería de Características
Introducción al análisis de series temporales
Codificación de variables categóricas
Clasificación de Texto con Scikit Learn
Métricas de Regresión
Aprendizaje automático
Clustering de densidad con DBSCAN
Métricas de clasificación
Técnicas avanzadas de extracción de características
Creación de pipelines básicos
Particionamiento de datos
Normalización de datos
Regresión con árboles DecisionTreeRegressor
Introducción e instalación de Scikit Learn
Preprocesamiento de datos con pipelines
Representación de texto y extracción de características
Introducción a pipelines
Tutorial para resolver este ejercicio de programación
ScikitLearn
Clustering con KMeans
Aprendizaje no supervisado