Aprender PySpark Machine learning con MLlib

Módulo del curso de PySpark

PySpark
PySpark
Módulo del curso
Actualizado: 18/04/2026

Módulo: Machine learning con MLlib

Este módulo forma parte del curso de PySpark. .

MLlib es la biblioteca de machine learning de Apache Spark, diseñada para entrenar modelos sobre conjuntos de datos que superan la capacidad de memoria de una sola máquina. Proporciona algoritmos de clasificación, regresión, clustering y reducción de dimensionalidad, todos integrados con la API de DataFrames.

El concepto clave es el Pipeline, que encadena transformaciones (Transformer) y estimadores (Estimator) en un flujo de trabajo reproducible. Los Transformer aplican transformaciones (como VectorAssembler o StandardScaler) y los Estimator aprenden de los datos con fit() para producir un modelo que luego transforma nuevos datos con transform():

from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler, StandardScaler
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Construir el pipeline
assembler = VectorAssembler(inputCols=["col1", "col2", "col3"], outputCol="features_raw")
scaler = StandardScaler(inputCol="features_raw", outputCol="features")
rf = RandomForestClassifier(featuresCol="features", labelCol="label", numTrees=100)

pipeline = Pipeline(stages=[assembler, scaler, rf])

# Entrenar y evaluar
train, test = df.randomSplit([0.8, 0.2], seed=42)
modelo = pipeline.fit(train)
predicciones = modelo.transform(test)

evaluador = BinaryClassificationEvaluator(labelCol="label")
print(f"AUC: {evaluador.evaluate(predicciones):.4f}")

El módulo incluye algoritmos de clasificación (LogisticRegression, RandomForestClassifier, GBTClassifier, NaiveBayes), regresión (LinearRegression, RandomForestRegressor, GBTRegressor), clustering (KMeans, BisectingKMeans, GaussianMixture) y reducción de dimensionalidad con PCA. La búsqueda de hiperparámetros se realiza con CrossValidator y ParamGridBuilder.

Explora más sobre PySpark

Descubre más recursos de PySpark

Alan Sastre - Autor del curso

Alan Sastre

Ingeniero de Software y formador, CEO en CertiDevs

Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, PySpark es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.