Ejercicio de programación con ScikitLearn: Clustering de densidad con DBSCAN
0h 45m
Aprende a programar en Python Clustering de densidad DBSCAN con Scikit Learn, técnica de aprendizaje no supervisado para agrupar datos y detectar outliers, valores anómalos.
Tu objetivo es aplicar el algoritmo DBSCAN para realizar agrupamientos basados en densidad en un conjunto de datos bidimensional.
Conjunto de datos: Utiliza el conjunto de datos make_moons
de sklearn.datasets
para generar datos con estructuras no lineales. Genera un conjunto de datos con 300
muestras y 0.05
de ruido.
DBSCAN: Implementa el algoritmo DBSCAN desde scikit-learn con los siguientes requisitos:
- Ajusta el modelo utilizando el conjunto de datos generados de
make_moons
. - Explora el uso de diferentes valores para los parámetros
eps
ymin_samples
para obtener una buena separación de los clústeres. Sugiere valores de inicio deeps=0.2
ymin_samples=5
.
Visualización y análisis:
- Visualiza los resultados del agrupamiento colorando los puntos de datos de acuerdo a las etiquetas asignadas por DBSCAN.
- Etiquetas: Los clústeres se representarán con números enteros, y los puntos de ruido con
-1
.
Evaluación: Evalúa la calidad del modelo obtenido empleando el coeficiente de silhouette. Si aún no hay clústeres definidos por los parámetros que elegiste, ajusta eps
y min_samples
hasta que el coeficiente devuelva un valor válido.
Todos los ejercicios de programación de ScikitLearn
Evalúa tus conocimientos con ejercicios de programación en ScikitLearn de tipo Test, Puzzle, Código y Proyecto con VSCode.
Regresión SVM con SVR
Ajuste de hiperparámetros
Pipelines y Validación Cruzada
Preprocesamiento de datos desbalanceados
Pipelines con ColumnTransformer
Validación y evaluación de modelos
Preprocesamiento de datos de series temporales
Identificación y tratamiento de valores faltantes
Ingeniería de características para series temporales
Introducción a la clasificación
Transformación y escalado de series temporales
Extracción de características
Clasificación KNN KNeighborsClassifier
Regresión con algoritmos de conjunto
Regresión lineal
Reducción de la dimensionalidad con PCA
Clasificación con algoritmos de conjunto
Clasificación SVM con SVC
Escalado de datos
Clustering jerárquico
Análisis de sentimiento
Validación y evaluación de modelos en series temporales
Regresión KNN KNeighborsRegressor
Técnicas de validación cruzada
Introducción al preprocesamiento de datos
Exportar e importar Pipelines
Preprocesamiento de textos para NLP
Clasificación con árboles DecisionTreeClassifier
Selección de Características
Introducción a la regresión
Clasificación con regresión logística en Scikit Learn
Ingeniería de Características
Clustering con KMeans
Introducción al análisis de series temporales
Codificación de variables categóricas
Clasificación de Texto con Scikit Learn
Métricas de Regresión
Aprendizaje automático
Métricas de clasificación
Técnicas avanzadas de extracción de características
Creación de pipelines básicos
Particionamiento de datos
Normalización de datos
Regresión con árboles DecisionTreeRegressor
Introducción e instalación de Scikit Learn
Preprocesamiento de datos con pipelines
Representación de texto y extracción de características
Introducción a pipelines
Tutorial para resolver este ejercicio de programación
ScikitLearn
Clustering de densidad con DBSCAN
Aprendizaje no supervisado