Ejercicio de programación con ScikitLearn: Preprocesamiento de datos con pipelines
0h 10m
Desafía tus habilidades implementando un pipeline de preprocesamiento de datos usando Scikit-Learn. Incluye pasos de imputer, escalado, transformación y gridsearch.
Utilizando Scikit-Learn, el objetivo de este reto es aplicar preprocesamiento de escalado y transformación a datos utilizando un pipeline. Los participantes deben construir un pipeline que integre estos pasos y finalmente aplicar un modelo para evaluación.
Para este reto, trabajaremos con el conjunto de datos de "Iris" que podemos cargar utilizando el módulo datasets
de Scikit-Learn.
Utiliza el método load_iris()
de sklearn.datasets
para cargar el conjunto de datos Iris.
Divide el conjunto de datos en datos de entrenamiento y prueba utilizando una proporción de 80/20. Utiliza train_test_split
para este propósito.
Define un pipeline que incluya los siguientes pasos:
- Un
SimpleImputer
con la mediana - Un
MinMaxScaler
para escalar las características. - Un
PowerTransform
oQuantileTransform
para transformar las distribuciones de los datos y hacerlas más normales.
Añade al pipeline un modelo de clasificación LogisticRegression
con los parámetros por defecto.
Entrena el pipeline utilizando los datos de entrenamiento.
Evalúa la eficacia del modelo utilizando la métrica de precisión en los datos de prueba y muestra los resultados.
Implementa un paso adicional en el pipeline empleando GridSearchCV
para ajustar los hiperparámetros de C
de LogisticRegression
en el rango [0.01, 0.1, 1, 10, 100].
Todos los ejercicios de programación de ScikitLearn
Evalúa tus conocimientos con ejercicios de programación en ScikitLearn de tipo Test, Puzzle, Código y Proyecto con VSCode.
Regresión SVM con SVR
Ajuste de hiperparámetros
Pipelines y Validación Cruzada
Preprocesamiento de datos desbalanceados
Pipelines con ColumnTransformer
Validación y evaluación de modelos
Preprocesamiento de datos de series temporales
Identificación y tratamiento de valores faltantes
Ingeniería de características para series temporales
Introducción a la clasificación
Transformación y escalado de series temporales
Extracción de características
Clasificación KNN KNeighborsClassifier
Regresión con algoritmos de conjunto
Regresión lineal
Reducción de la dimensionalidad con PCA
Clasificación con algoritmos de conjunto
Clasificación SVM con SVC
Escalado de datos
Clustering jerárquico
Análisis de sentimiento
Validación y evaluación de modelos en series temporales
Regresión KNN KNeighborsRegressor
Técnicas de validación cruzada
Introducción al preprocesamiento de datos
Exportar e importar Pipelines
Preprocesamiento de textos para NLP
Clasificación con árboles DecisionTreeClassifier
Selección de Características
Introducción a la regresión
Clasificación con regresión logística en Scikit Learn
Ingeniería de Características
Clustering con KMeans
Introducción al análisis de series temporales
Codificación de variables categóricas
Clasificación de Texto con Scikit Learn
Métricas de Regresión
Aprendizaje automático
Clustering de densidad con DBSCAN
Métricas de clasificación
Técnicas avanzadas de extracción de características
Creación de pipelines básicos
Particionamiento de datos
Normalización de datos
Regresión con árboles DecisionTreeRegressor
Introducción e instalación de Scikit Learn
Representación de texto y extracción de características
Introducción a pipelines
Tutorial para resolver este ejercicio de programación
ScikitLearn
Preprocesamiento de datos con pipelines
Pipelines y despliegue