Saltar al contenido principal
Scikit Learn
Librería Ciencia de Datos

Formación corporativa en Scikit Learn

Machine learning clásico en Python: clasificación, regresión y pipelines.

Evidencias FUNDAE Activación guiada Evaluación con IA Itinerario a medida

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

Resumen del itinerario en Scikit Learn

Para qué equipos

Equipos técnicos que incorporan Scikit Learn a su stack productivo o consolidan competencias antes de un proyecto crítico. Adaptamos el temario al nivel de partida y al stack acompañante.

Qué se trabaja

Lecciones aplicadas y ejercicios prácticos en Scikit Learn resueltos en el IDE del navegador, con corrección automática por IA y proyectos integradores revisados con rúbrica explícita.

Cómo se contrata

Propuesta concreta sobre teleformación, aula virtual o plan mixto. Sin coste de setup, sin permanencia, con evidencias FUNDAE exportables para la entidad organizadora.

Activación en 3 pasos

Diseñamos el itinerario, el alcance y el calendario según el nivel y el stack de tu equipo. Evidencias FUNDAE exportables, sin permanencia ni coste de setup.

  1. 1 Demo o llamada
    30 min con el fundador. Cuéntanos el stack, el nivel y el calendario.
  2. 2 Propuesta
    Itinerario y modalidad (teleformación, aula virtual o mixto) con evidencias FUNDAE exportables.
  3. 3 Tenant activo
    Tu equipo entra con SSO, asignaciones automáticas y panel admin completo.

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

Qué incluye la formación

Toda la plataforma CertiDevs disponible para tu equipo durante el itinerario. Sin costes ocultos ni módulos premium.

Entornos de programación online, sin instalar nada en el equipo del alumno.
Evaluación con IA de cada ejercicio de código, proyecto y ensayo, con feedback y nota.
Certificado verificable con NIF del alumno y firma digital de CertiDevs.
Panel admin de empresa: alta masiva CSV, asignaciones, foros y encuestas.
Rol inspector FUNDAE con acceso de solo lectura a actividad y resultados.
Reportes exportables en Excel: accesos, progreso, completion y satisfacción.
Integración con tu LMS: LTI 1.1 + 1.3 Deep Linking y exportación SCORM 1.2.
SSO con tu Active Directory (OIDC, Microsoft Entra, Google Workspace).
White-label opcional: subdominio propio, logo y tema de tu marca.
Pruebas técnicas: mismos exámenes para evaluar candidatos en selección.
Foros y mensajería tutorial integrados, requisito FUNDAE cubierto de serie.
Soporte directo de nuestro equipo durante toda la formación.

Cursos disponibles en Scikit Learn

Cada curso se puede asignar de forma independiente o combinar en un plan formativo.

Especialización Scikit Learn - Aprendizaje no supervisado

Curso de aprendizaje no supervisado con Scikit-learn para descubrir patrones y estructuras en datos sin etiquetar. Cubre clustering con K-Means, jerárquico y DBSCAN, reducción de dimensionalidad con PCA y t-SNE, métodos de densidad y selección del número óptimo de grupos. Al terminar segmentas clientes, detectas anomalías y comprimes datasets de alta dimensión con criterio metodológico.

Ver curso
Especialización Scikit Learn - Boosting moderno, explicabilidad y MLOps

Curso avanzado de machine learning con Scikit-learn y su ecosistema para cerrar el ciclo de vida completo de un modelo en producción. Cubre boosting moderno con librerías de gradiente como XGBoost, LightGBM y CatBoost, explicabilidad de modelos con SHAP, trazabilidad de experimentos con MLflow y prácticas de MLOps integradas. Al terminar despliegas modelos auditables, justificas sus predicciones y mantienes un registro reproducible del entrenamiento.

Ver curso
Especialización Scikit Learn - Clasificación

Curso de clasificación supervisada con Scikit-learn para predecir etiquetas discretas en problemas reales como detección de fraude, diagnóstico médico o segmentación de clientes. Cubre regresión logística, k-vecinos, máquinas de soporte vectorial, árboles de decisión y ensembles como Random Forest y Gradient Boosting, con métricas adecuadas para datos desbalanceados. Al terminar entregas clasificadores robustos y evalúas su rendimiento con criterio profesional.

Ver curso
Especialización Scikit Learn - NLP

Curso de procesamiento de lenguaje natural con Scikit-learn para clasificar documentos y extraer información de texto en proyectos empresariales. Cubre vectorización con CountVectorizer y TF-IDF, preprocesado lingüístico, clasificación de textos, análisis de sentimiento y técnicas avanzadas de extracción de características antes de saltar a transformers. Al terminar entregas modelos NLP sólidos para casos de uso como moderación, atención al cliente o categorización documental.

Ver curso
Especialización Scikit Learn - Pipelines y despliegue

Curso de pipelines y despliegue con Scikit-learn para industrializar modelos de machine learning con coherencia entre entrenamiento e inferencia. Cubre el diseño de pipelines reutilizables, la transformación de columnas heterogéneas, la búsqueda de hiperparámetros, la serialización de modelos y la integración en servicios productivos. Al terminar entregas pipelines reproducibles que evitan fugas de información y se despliegan en aplicaciones reales.

Ver curso
Especialización Scikit Learn - Preprocesamiento de datos

Curso de preprocesado de datos con Scikit-learn, la etapa que más impacta en el rendimiento final de cualquier modelo de machine learning. Cubre la detección y tratamiento de valores faltantes, el escalado y la normalización, la codificación de variables categóricas, la ingeniería y selección de características, el particionamiento entre entrenamiento y prueba y el manejo de datos desbalanceados. Al terminar dejas tus datasets listos para entrenar modelos robustos con criterio profesional.

Ver curso
Especialización Scikit Learn - Regresión

Curso de regresión supervisada con Scikit-learn para predecir valores continuos en casos como pronóstico de ventas, precios, demanda energética o riesgo financiero. Cubre regresión lineal y polinomial, regularización con Ridge y Lasso, modelos de vecinos próximos y de soporte vectorial, árboles de decisión y ensembles con Random Forest y Gradient Boosting. Al terminar entrenas modelos predictivos sobre datos tabulares y eliges la técnica adecuada para cada problema.

Ver curso
Especialización Scikit Learn - Series temporales

Curso de series temporales con Scikit-learn para hacer forecasting de ventas, consumo energético, métricas operacionales o indicadores de negocio que dependen del tiempo. Cubre ingeniería de características temporales, partición cronológica de datos, validación cruzada específica, modelos de regresión adaptados al tiempo y métricas de evaluación de pronósticos. Al terminar entregas predicciones temporales fiables y evitas los errores clásicos de generalización en datos secuenciales.

Ver curso
Especialización Scikit Learn - Validación de modelos

Curso de validación de modelos con Scikit-learn para estimar de forma fiable cómo se comportará un modelo de machine learning ante datos nuevos. Cubre la división entre entrenamiento y prueba, validación cruzada en sus distintas variantes, búsqueda sistemática de hiperparámetros, métricas adecuadas a cada tipo de problema y curvas de aprendizaje. Al terminar evitas el overfitting, defiendes tus resultados con criterio metodológico y entregas modelos que cumplen lo prometido en producción.

Ver curso
Curso completo Scikit-learn

Curso completo de machine learning clásico con Scikit-learn en Python para construir modelos predictivos en proyectos empresariales. Cubre preprocesado de datos, regresión, clasificación, clustering, reducción de dimensionalidad, NLP, series temporales, validación de modelos, pipelines y despliegue con MLOps. Al terminar entregas modelos productivos con rigor metodológico y te incorporas a equipos de datos con autonomía.

Ver curso

Ver todos los cursos del catálogo

Stacks habituales que las empresas combinan en sus planes formativos junto a Scikit Learn.

Estructura del itinerario

Módulos, lecciones y ejercicios del itinerario

Scikit Learn es una biblioteca de Python especializada en aprendizaje automático que ofrece un conjunto amplio de algoritmos y utilidades enfocadas a la clasificación, regresión, clustering y reducción de dimensionalidad. Su enfoque principal se basa en la facilidad de uso y la consistencia de sus interfaces, por lo que resulta adecuada para proyectos académicos y profesionales. El flujo de trabajo típico con Scikit Learn implica la carga y preparación de datos, la selección de un modelo, el entrenamiento y la posterior evaluación mediante métricas especializadas. La comunidad que mantiene esta biblioteca actualiza el proyecto constantemente y procura la integración con librerías populares como NumPy y pandas.

Scikit Learn ofrece una organización interna basada en módulos temáticos. Entre los más relevantes se encuentran sklearn.datasets para cargar conjuntos de datos, sklearn.preprocessing para el tratamiento de valores y escalas, sklearn.model_selection para la división y validación de datos, sklearn.metrics para la obtención de estadísticas de rendimiento, y una variedad de submódulos de algoritmos como sklearn.linear_model, sklearn.ensemble o sklearn.cluster. Esta estructura coherente posibilita que cada usuario de la biblioteca encuentre fácilmente la funcionalidad que necesita.

La instalación se realiza de manera sencilla con herramientas como pip (pip install scikit-learn) o conda (conda install scikit-learn). Además, se recomienda poseer una versión reciente de Python y actualizar NumPy, SciPy y pandas para garantizar la compatibilidad de las funciones avanzadas. Todas estas utilidades, en conjunto, proporcionan un entorno de trabajo robusto para el desarrollo de proyectos de análisis de datos y sistemas predictivos.

Carga y manipulación de datos

Scikit Learn incorpora el submódulo sklearn.datasets que contiene funciones para la carga de conjuntos de datos clásicos como Iris, Digits o Boston (actualmente reemplazado por conjuntos de datos sin información sensible). Para cargar estos datos se emplean métodos como load_iris() que devuelven un objeto tipo Bunch con los atributos data y target. Cuando se trata de datos personalizados, se suelen usar librerías como pandas para leer ficheros CSV y luego convertir el resultado en arrays de NumPy, compatibles con la mayoría de los estimadores de Scikit Learn.

Una vez cargados los datos, es habitual separar las características (X) de las etiquetas (y) y dividir los conjuntos de entrenamiento y validación. Un ejemplo sintético sería:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

La partición de los datos en subconjuntos de entrenamiento y prueba permite evaluar la capacidad del modelo de generalizar más allá de los datos vistos. El uso de train_test_split es frecuente y una de las formas más comunes de organizar el proceso de experimentación.

Preprocesamiento y escalado

El preprocesamiento es vital cuando se trabaja con datos en bruto, ya que a menudo requieren limpieza, normalización y manejo de valores faltantes. Dentro de Scikit Learn se dispone del submódulo sklearn.preprocessing, que proporciona transformadores como StandardScaler, MinMaxScaler, RobustScaler y herramientas para la codificación de variables categóricas.

StandardScaler ajusta la media y desviación típica de los datos para que cada característica se centre en torno a 0 y presente una varianza unitaria. Su uso puede verse reflejado en el siguiente ejemplo:

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train)  
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

La normalización de las variables hace que los algoritmos de optimizaciones numéricas converjan de forma más estable y equitativa. Asimismo, para valores categóricos, existen utilidades como OneHotEncoder que generan columnas binarias sin introducir sesgos al tratar valores nominales.

Selección y validación de modelos

El módulo sklearn.model_selection proporciona funciones esenciales para la evaluación y optimización de modelos. Entre ellas se encuentra GridSearchCV, que automatiza la búsqueda exhaustiva de hiperparámetros dentro de un rango definido, y RandomizedSearchCV, que selecciona aleatoriamente combinaciones específicas para optimizar el tiempo de cómputo.

Otra característica relevante es la validación cruzada, que se efectúa con métodos como KFold, StratifiedKFold o cross_val_score. Estas herramientas permiten estimar de forma más estable el rendimiento real de un modelo, dado que se utilizan distintos subconjuntos de entrenamiento y validación en iteraciones sucesivas.

La combinación de validación cruzada y búsqueda de hiperparámetros resulta una estrategia muy útil en la práctica, ya que se logra un mejor equilibrio entre ajuste (overfitting) y generalización. El siguiente ejemplo muestra una búsqueda en rejilla con un árbol de decisión:

from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier

param_grid = {'max_depth': [2, 4, 6, None], 
              'min_samples_split': [2, 5, 10]}

clf = DecisionTreeClassifier()
grid_search = GridSearchCV(clf, param_grid, cv=5)
grid_search.fit(X_train, y_train)
print("Mejor combinación de hiperparámetros:", grid_search.best_params_)
  • Aprendizaje automático Lección
  • Introducción e instalación Lección
  • Introducción e instalación de Scikit Learn Ejercicio

Modalidades de contratación

Elige la modalidad que mejor se adapte a tu organización. Sin permanencia ni coste de setup.

Teleformación

Acceso autónomo al itinerario en la plataforma: lecciones, vídeos, ejercicios evaluados por IA y proyecto integrador. Con tutorización y foro técnico.

Solicitar propuesta

Aula virtual privada

Sesiones en directo sobre cohorte cerrada del cliente. Práctica guiada, resolución de dudas, evaluación al cierre y evidencias exportables.

Solicitar propuesta

Plan mixto

Teleformación con sesiones en directo intercaladas. Equilibra autonomía del alumno con hitos guiados, revisión de proyectos y feedback síncrono.

Solicitar propuesta

Sobre Scikit Learn

David Cournapeau Desde 2007 Documentación oficial

Scikit-learn es la biblioteca de referencia para machine learning tabular en Python. En proyectos B2B cubre los casos más habituales fuera del deep learning: scoring crediticio, detección de fraude en transacciones, predicción de demanda y forecasting de series, recomendadores de catálogo, pricing dinámico, clasificación de tickets de soporte por NLP y segmentación de clientes por clustering. Se apoya en NumPy, SciPy y Matplotlib y se integra de forma nativa con Pandas 2.2+ y con el stack moderno de MLOps (MLflow, SHAP, ONNX).

La versión 1.5+ consolida patrones clave para producción: HistGradientBoostingClassifier y HistGradientBoostingRegressor con soporte nativo de valores faltantes y variables categóricas, HalvingRandomSearchCV para búsqueda de hiperparámetros que escala mejor que GridSearchCV, set_output(transform="pandas") en transformers para que el flujo mantenga DataFrames con nombres de columna, y la normalización de la API hacia el estándar Array API para interoperabilidad con PyTorch, JAX y CuPy.

Qué incluye este itinerario

  • Preprocesado: imputación, escalado, codificación de categóricas (OneHotEncoder, OrdinalEncoder, TargetEncoder), ingeniería y selección de features, particionamiento y tratamiento de desbalanceo con imbalanced-learn.
  • Regresión: lineal, polinomial, Ridge/Lasso, KNN, SVR, árboles y ensembles, con casos aplicados a predicción de demanda, forecasting y pricing.
  • Clasificación: regresión logística, KNN, SVC, árboles, Random Forest y Gradient Boosting, con aplicaciones a scoring crediticio, detección de fraude y clasificación de incidencias.
  • No supervisado: KMeans, clustering jerárquico, DBSCAN y reducción de dimensionalidad con PCA y t-SNE para segmentación de clientes y visualización.
  • NLP con Scikit-learn: TfidfVectorizer, CountVectorizer, pipelines de clasificación de texto y análisis de sentimiento para soporte técnico, categorización de correos y triage de tickets.
  • Series temporales: ingeniería de features de lag, validación cruzada temporal con TimeSeriesSplit, normalización y casos aplicados a demanda minorista.
  • Validación y ajuste: métricas de clasificación y regresión, validación cruzada estratificada, GridSearchCV, RandomizedSearchCV y HalvingRandomSearchCV.
  • Pipelines y despliegue: Pipeline, ColumnTransformer, persistencia con joblib y patrones para empaquetar un modelo como servicio REST con FastAPI.
  • Boosting moderno y MLOps: XGBoost, LightGBM y CatBoost integrados como estimadores de Scikit-learn, explicabilidad con SHAP y tracking de experimentos con MLflow para auditoría y despliegue controlado.

Público objetivo

  • Equipos de datos y data engineers que necesitan entregar modelos predictivos en producción.
  • Científicos de datos que migran notebooks a servicios trazables con MLflow y validados con SHAP.
  • Equipos de riesgo, operaciones y comercial que usan ML sobre datos tabulares para scoring, fraude, forecasting o recomendación.
  • Desarrolladores backend que integran modelos Scikit-learn como microservicios FastAPI.

¿Necesitas un itinerario completo?

Este curso puede formar parte de una carrera profesional que combine varias tecnologías. Explora nuestros itinerarios o te diseñamos uno a medida para tu equipo.

Plan formativo de Scikit Learn para tu equipo

Recibe una propuesta concreta: modalidad, alcance, calendario y evidencias FUNDAE exportables. Damos de alta a tu equipo, configuramos la plataforma con tus dominios y entregamos certificados verificables e informes para tu entidad organizadora. Sin coste de setup, sin permanencia.

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

Formación en Scikit Learn: preguntas frecuentes

¿La formación en Scikit Learn para empresas es bonificable por FUNDAE?
Puede ser bonificable cuando la acción cumple los requisitos aplicables. La plataforma aporta evidencias técnicas: seguimiento de tiempos, registro de conexiones, foros, encuestas y certificados para que tu entidad organizadora o gestoría revise la documentación.
¿En qué modalidades se imparte la formación en Scikit Learn?
En tres modalidades: teleformación (online asíncrona), aula virtual privada en directo y mixta. Adaptamos temario, calendario y modalidad al equipo.
¿Se adapta el temario de Scikit Learn al nivel de mi equipo?
Sí. Ajustamos el itinerario de Scikit Learn al nivel y al stack de tu equipo, con ejercicios evaluados por IA y certificado verificable. La activación corporativa se acuerda durante la fase de propuesta.
¿Cómo se evalúa a los alumnos?
Con ejercicios corregidos automáticamente por IA (test, puzle, código, proyecto y ensayo), detección de entregas generadas con IA y certificados verificables por URL.