Mapa de Machine Learning avanzado

Qué significa avanzar después del primer modelo

Un proyecto de Machine Learning avanzado no consiste solo en usar algoritmos más sofisticados. Consiste en resolver situaciones donde el flujo supervisado básico ya no basta: no siempre hay etiquetas, no siempre los datos son tabulares sencillos, no siempre una única métrica captura el riesgo y no siempre un notebook es suficiente para entregar el modelo.

La base sigue siendo la misma: datos, modelo, validación y decisión. Lo que cambia es la complejidad de cada pieza.

El salto avanzado empieza cuando el problema exige tomar decisiones sobre representación de datos, validación, explicabilidad, reproducibilidad y despliegue, no solo sobre qué estimador usar.

Un mapa útil del curso es este:

flowchart TB
    base["Flujo supervisado básico"] --> unsup["Datos sin etiquetas<br>PCA y clustering"]
    base --> text["Texto<br>TF-IDF y clasificación"]
    base --> time["Tiempo<br>lags y TimeSeriesSplit"]
    base --> search["Optimización<br>GridSearch y RandomizedSearch"]
    search --> prod["Pipelines y producción"]
    prod --> explain["SHAP y MLflow"]

Nuevos tipos de datos y de preguntas

En un curso introductorio suele trabajarse con tablas etiquetadas: X contiene variables predictoras e y contiene una respuesta conocida. En proyectos reales aparecen casos más amplios.

En aprendizaje no supervisado, no hay y. El objetivo puede ser segmentar clientes, descubrir grupos, visualizar datos de muchas dimensiones o reducir ruido antes de otro modelo.

En NLP, el dato original no es una tabla numérica sino texto. Antes de entrenar, hay que convertir documentos en vectores mediante CountVectorizer, TfidfVectorizer o representaciones más avanzadas.

En series temporales, el orden importa. No se puede mezclar pasado y futuro al validar, porque se produciría una fuga de información temporal.

problemas = {
    "segmentacion_clientes": "sin etiquetas",
    "clasificacion_tickets": "texto",
    "prediccion_demanda": "serie temporal",
    "scoring_crediticio": "supervisado tabular",
}

for nombre, tipo in problemas.items():
    print(nombre, "->", tipo)

Más rigor al comparar modelos

Cuando el número de modelos, hiperparámetros y transformaciones crece, comparar a ojo deja de ser suficiente. La validación cruzada y las búsquedas sistemáticas ayudan a evitar decisiones basadas en una partición afortunada.

En esta etapa aparecen herramientas como cross_validate, GridSearchCV, RandomizedSearchCV, learning_curve y validation_curve. Todas responden a la misma pregunta de fondo: si se cambia una decisión del pipeline, qué evidencia tenemos de que el modelo mejora de verdad.

from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier

modelo = RandomForestClassifier(random_state=42)
resultados = cross_validate(
    modelo,
    X,
    y,
    cv=5,
    scoring=["accuracy", "f1_macro"],
)

En el nivel avanzado, una mejora no se acepta solo porque sube una métrica una vez. Se mira estabilidad entre folds, coste computacional, interpretabilidad y riesgo de fuga de datos.

Del notebook al sistema trazable

El último salto consiste en convertir experimentos en artefactos reproducibles. Un modelo útil debe poder reconstruirse, explicarse, versionarse y desplegarse.

Por eso entran en juego Pipeline, ColumnTransformer, FeatureUnion, persistencia con joblib o skops, exportación a ONNX, explicabilidad con SHAP y tracking con MLflow.

Este enfoque permite responder preguntas que aparecen en entornos profesionales:

Qué versión del dataset y del código produjo este modelo.
Qué hiperparámetros se usaron.
Qué métrica justificó la elección.
Qué variables explican una predicción concreta.
Cómo se carga el modelo fuera del notebook.

El curso avanzado debe leerse como una ampliación ordenada del mismo ciclo: representar mejor los datos, validar mejor las decisiones y entregar mejor el resultado.

Alan Sastre

Ingeniero de Software y formador, CEO en CertiDevs

Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, Scikit Learn es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.

Más tutoriales de Scikit Learn

Explora más contenido relacionado con Scikit Learn y continúa aprendiendo con nuestros tutoriales gratuitos.

Ver más tutoriales de Scikit Learn Explorar todas las tecnologías

Aprendizajes de esta lección

Entender el mapa general del Machine Learning avanzado con Scikit-learn y ubicar cada bloque técnico dentro del ciclo de trabajo de un proyecto real.