MLlib en PySpark: machine learning distribuido con Apache Spark

Módulo: Machine learning con MLlib

Este módulo forma parte del curso de PySpark. .

MLlib es la biblioteca de machine learning de Apache Spark, diseñada para entrenar modelos sobre conjuntos de datos que superan la capacidad de memoria de una sola máquina. Proporciona algoritmos de clasificación, regresión, clustering y reducción de dimensionalidad, todos integrados con la API de DataFrames.

El concepto clave es el Pipeline, que encadena transformaciones (Transformer) y estimadores (Estimator) en un flujo de trabajo reproducible. Los Transformer aplican transformaciones (como VectorAssembler o StandardScaler) y los Estimator aprenden de los datos con fit() para producir un modelo que luego transforma nuevos datos con transform():

from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler, StandardScaler
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Construir el pipeline
assembler = VectorAssembler(inputCols=["col1", "col2", "col3"], outputCol="features_raw")
scaler = StandardScaler(inputCol="features_raw", outputCol="features")
rf = RandomForestClassifier(featuresCol="features", labelCol="label", numTrees=100)

pipeline = Pipeline(stages=[assembler, scaler, rf])

# Entrenar y evaluar
train, test = df.randomSplit([0.8, 0.2], seed=42)
modelo = pipeline.fit(train)
predicciones = modelo.transform(test)

evaluador = BinaryClassificationEvaluator(labelCol="label")
print(f"AUC: {evaluador.evaluate(predicciones):.4f}")

El módulo incluye algoritmos de clasificación (LogisticRegression, RandomForestClassifier, GBTClassifier, NaiveBayes), regresión (LinearRegression, RandomForestRegressor, GBTRegressor), clustering (KMeans, BisectingKMeans, GaussianMixture) y reducción de dimensionalidad con PCA. La búsqueda de hiperparámetros se realiza con CrossValidator y ParamGridBuilder.

Otros módulos de este curso

Introducción y entorno

Transformación de datos

Aprendizaje automático

Integraciones

Evaluación

Fundamentos de Apache Spark

Instalación y entorno de trabajo

RDDs: Resilient Distributed Datasets

DataFrames: creación, esquema y operaciones

Spark SQL

Transformaciones avanzadas

Structured Streaming

Módulo actual

Machine learning con MLlib

Producción y optimización

Evaluación final

Todos los módulos del curso

Navega entre los módulos de PySpark

Introducción y entorno

Transformación de datos

Aprendizaje automático

Integraciones

Evaluación

Fundamentos de Apache Spark

Instalación y entorno de trabajo

RDDs: Resilient Distributed Datasets

DataFrames: creación, esquema y operaciones

Spark SQL

Transformaciones avanzadas

Structured Streaming

Machine learning con MLlib

Estás aquí

Producción y optimización

Evaluación final

Explora más sobre PySpark

Descubre más recursos de PySpark

Ver curso completo de PySpark Explorar todas las tecnologías

Alan Sastre

Ingeniero de Software y formador, CEO en CertiDevs

Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, PySpark es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.

Aprender PySpark Machine learning con MLlib

Módulo: Machine learning con MLlib

Otros módulos de este curso

Introducción y entorno

Transformación de datos

Aprendizaje automático

Integraciones

Evaluación

Fundamentos de Apache Spark

Instalación y entorno de trabajo

RDDs: Resilient Distributed Datasets

DataFrames: creación, esquema y operaciones

Spark SQL

Transformaciones avanzadas

Structured Streaming

Machine learning con MLlib

Producción y optimización

Evaluación final

Todos los módulos del curso

Introducción y entorno

Transformación de datos

Aprendizaje automático

Integraciones

Evaluación

Fundamentos de Apache Spark

Instalación y entorno de trabajo

RDDs: Resilient Distributed Datasets

DataFrames: creación, esquema y operaciones

Spark SQL

Transformaciones avanzadas

Structured Streaming

Machine learning con MLlib

Producción y optimización

Evaluación final

Explora más sobre PySpark

Alan Sastre