Descripción del curso Scikit Learn
Scikit-learn es la biblioteca de referencia para machine learning tabular en Python. En proyectos B2B cubre los casos más habituales fuera del deep learning: scoring crediticio, detección de fraude en transacciones, predicción de demanda y forecasting de series, recomendadores de catálogo, pricing dinámico, clasificación de tickets de soporte por NLP y segmentación de clientes por clustering. Se apoya en NumPy, SciPy y Matplotlib y se integra de forma nativa con Pandas 2.2+ y con el stack moderno de MLOps (MLflow, SHAP, ONNX).
La versión 1.5+ consolida patrones clave para producción: HistGradientBoostingClassifier y HistGradientBoostingRegressor con soporte nativo de valores faltantes y variables categóricas, HalvingRandomSearchCV para búsqueda de hiperparámetros que escala mejor que GridSearchCV, set_output(transform="pandas") en transformers para que el flujo mantenga DataFrames con nombres de columna, y la normalización de la API hacia el estándar Array API para interoperabilidad con PyTorch, JAX y CuPy.
Qué incluye este itinerario
- Preprocesado: imputación, escalado, codificación de categóricas (
OneHotEncoder,OrdinalEncoder,TargetEncoder), ingeniería y selección de features, particionamiento y tratamiento de desbalanceo conimbalanced-learn. - Regresión: lineal, polinomial, Ridge/Lasso, KNN, SVR, árboles y ensembles, con casos aplicados a predicción de demanda, forecasting y pricing.
- Clasificación: regresión logística, KNN, SVC, árboles, Random Forest y Gradient Boosting, con aplicaciones a scoring crediticio, detección de fraude y clasificación de incidencias.
- No supervisado: KMeans, clustering jerárquico, DBSCAN y reducción de dimensionalidad con PCA y t-SNE para segmentación de clientes y visualización.
- NLP con Scikit-learn:
TfidfVectorizer,CountVectorizer, pipelines de clasificación de texto y análisis de sentimiento para soporte técnico, categorización de correos y triage de tickets. - Series temporales: ingeniería de features de lag, validación cruzada temporal con
TimeSeriesSplit, normalización y casos aplicados a demanda minorista. - Validación y ajuste: métricas de clasificación y regresión, validación cruzada estratificada,
GridSearchCV,RandomizedSearchCVyHalvingRandomSearchCV. - Pipelines y despliegue:
Pipeline,ColumnTransformer, persistencia conjobliby patrones para empaquetar un modelo como servicio REST con FastAPI. - Boosting moderno y MLOps: XGBoost, LightGBM y CatBoost integrados como estimadores de Scikit-learn, explicabilidad con SHAP y tracking de experimentos con MLflow para auditoría y despliegue controlado.
Público objetivo
- Equipos de datos y data engineers que necesitan entregar modelos predictivos en producción.
- Científicos de datos que migran notebooks a servicios trazables con MLflow y validados con SHAP.
- Equipos de riesgo, operaciones y comercial que usan ML sobre datos tabulares para scoring, fraude, forecasting o recomendación.
- Desarrolladores backend que integran modelos Scikit-learn como microservicios FastAPI.
Lecciones y tutoriales de Scikit Learn
Ejercicios de programación de Scikit Learn
Módulos del curso
Explora todos los módulos disponibles en este curso de Scikit Learn
Explorar más tecnologías
Descubre más tecnologías de programación y desarrollo de software
Alan Sastre
Ingeniero de Software y formador, CEO en CertiDevs
Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, Scikit Learn es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.