Aprender PySpark Transformaciones avanzadas

Módulo del curso de PySpark

PySpark
PySpark
Módulo del curso
Actualizado: 18/04/2026

Módulo: Transformaciones avanzadas

Este módulo forma parte del curso de PySpark. .

Las transformaciones avanzadas de PySpark cubren las necesidades más complejas de manipulación de datos estructurados y semiestructurados que van más allá de las operaciones básicas de selección y filtrado.

El pivoteo con pivot() y la operación inversa con stack() permiten reestructurar DataFrames para transformar filas en columnas o viceversa, operación habitual en la preparación de datos para análisis y reporting. Las funciones explode y posexplode convierten columnas de arrays o mapas en múltiples filas, facilitando el trabajo con datos anidados de JSON o formatos de eventos:

from pyspark.sql.functions import explode, col

# Explotar una columna de array en filas individuales
df_explodido = df.withColumn("etiqueta", explode(col("etiquetas")))
df_explodido.show()

Las funciones de fecha (year, month, dayofweek, datediff, date_add, to_timestamp, unix_timestamp) son esenciales para series temporales y análisis de logs. Las funciones de cadena (concat, substring, regexp_extract, split, trim, lower, upper) permiten limpiar y transformar texto a escala.

El manejo de nulos con isNull, isNotNull, coalesce, fillna, dropna y la función condicional when/otherwise son herramientas indispensables para la limpieza y calidad de datos en pipelines de producción.

Explora más sobre PySpark

Descubre más recursos de PySpark

Alan Sastre - Autor del curso

Alan Sastre

Ingeniero de Software y formador, CEO en CertiDevs

Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, PySpark es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.