Módulo: Machine learning con MLlib
Este módulo forma parte del curso de PySpark. .
MLlib es la biblioteca de machine learning de Apache Spark, diseñada para entrenar modelos sobre conjuntos de datos que superan la capacidad de memoria de una sola máquina. Proporciona algoritmos de clasificación, regresión, clustering y reducción de dimensionalidad, todos integrados con la API de DataFrames.
El concepto clave es el Pipeline, que encadena transformaciones (Transformer) y estimadores (Estimator) en un flujo de trabajo reproducible. Los Transformer aplican transformaciones (como VectorAssembler o StandardScaler) y los Estimator aprenden de los datos con fit() para producir un modelo que luego transforma nuevos datos con transform():
from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler, StandardScaler
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.evaluation import BinaryClassificationEvaluator
# Construir el pipeline
assembler = VectorAssembler(inputCols=["col1", "col2", "col3"], outputCol="features_raw")
scaler = StandardScaler(inputCol="features_raw", outputCol="features")
rf = RandomForestClassifier(featuresCol="features", labelCol="label", numTrees=100)
pipeline = Pipeline(stages=[assembler, scaler, rf])
# Entrenar y evaluar
train, test = df.randomSplit([0.8, 0.2], seed=42)
modelo = pipeline.fit(train)
predicciones = modelo.transform(test)
evaluador = BinaryClassificationEvaluator(labelCol="label")
print(f"AUC: {evaluador.evaluate(predicciones):.4f}")
El módulo incluye algoritmos de clasificación (LogisticRegression, RandomForestClassifier, GBTClassifier, NaiveBayes), regresión (LinearRegression, RandomForestRegressor, GBTRegressor), clustering (KMeans, BisectingKMeans, GaussianMixture) y reducción de dimensionalidad con PCA. La búsqueda de hiperparámetros se realiza con CrossValidator y ParamGridBuilder.
Otros módulos de este curso
Machine learning con MLlib
Todos los módulos del curso
Navega entre los módulos de PySpark
Machine learning con MLlib
Estás aquíExplora más sobre PySpark
Descubre más recursos de PySpark
Alan Sastre
Ingeniero de Software y formador, CEO en CertiDevs
Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, PySpark es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.