Módulo: Transformaciones avanzadas
Este módulo forma parte del curso de PySpark. .
Las transformaciones avanzadas de PySpark cubren las necesidades más complejas de manipulación de datos estructurados y semiestructurados que van más allá de las operaciones básicas de selección y filtrado.
El pivoteo con pivot() y la operación inversa con stack() permiten reestructurar DataFrames para transformar filas en columnas o viceversa, operación habitual en la preparación de datos para análisis y reporting. Las funciones explode y posexplode convierten columnas de arrays o mapas en múltiples filas, facilitando el trabajo con datos anidados de JSON o formatos de eventos:
from pyspark.sql.functions import explode, col
# Explotar una columna de array en filas individuales
df_explodido = df.withColumn("etiqueta", explode(col("etiquetas")))
df_explodido.show()
Las funciones de fecha (year, month, dayofweek, datediff, date_add, to_timestamp, unix_timestamp) son esenciales para series temporales y análisis de logs. Las funciones de cadena (concat, substring, regexp_extract, split, trim, lower, upper) permiten limpiar y transformar texto a escala.
El manejo de nulos con isNull, isNotNull, coalesce, fillna, dropna y la función condicional when/otherwise son herramientas indispensables para la limpieza y calidad de datos en pipelines de producción.
Otros módulos de este curso
Transformaciones avanzadas
Todos los módulos del curso
Navega entre los módulos de PySpark
Transformaciones avanzadas
Estás aquíExplora más sobre PySpark
Descubre más recursos de PySpark
Alan Sastre
Ingeniero de Software y formador, CEO en CertiDevs
Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, PySpark es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.