Aprender PySpark Fundamentos de Apache Spark

Módulo del curso de PySpark

PySpark
PySpark
Módulo del curso
Actualizado: 18/04/2026

Módulo: Fundamentos de Apache Spark

Este módulo forma parte del curso de PySpark. .

Apache Spark es el motor de procesamiento distribuido de datos más utilizado en entornos de Big Data. Su arquitectura se basa en un modelo driver-executor donde el driver coordina la ejecución y los executors procesan los datos en paralelo sobre los nodos del clúster.

El modelo de ejecución de Spark utiliza lazy evaluation: las transformaciones se acumulan en un grafo dirigido acíclico (DAG) y solo se ejecutan cuando se invoca una acción. Esto permite al optimizador Catalyst reorganizar y optimizar el plan de ejecución automáticamente antes de lanzar los cálculos.

Spark puede gestionar sus recursos con distintos cluster managers: Standalone (integrado), YARN (Hadoop), Apache Mesos y Kubernetes. Cada uno ofrece diferentes capacidades de escalado y integración con el ecosistema de infraestructura existente en la organización.

from pyspark.sql import SparkSession

# El driver crea la SparkSession y coordina el clúster
spark = SparkSession.builder \
    .appName("FundamentosSpark") \
    .master("local[*]") \
    .getOrCreate()

# Cada transformación es lazy: se acumula en el DAG
df = spark.range(1000000)
df_transformado = df.filter(df.id % 2 == 0).selectExpr("id * 2 AS id_doble")

# La acción 'count' desencadena la ejecución del DAG
print(df_transformado.count())

PySpark ofrece la misma API que Scala Spark pero desde Python, usando la capa de comunicación Py4J para interactuar con la JVM. Para la mayoría de los casos de uso en ingeniería de datos y machine learning, PySpark es la opción preferida por su ecosistema Python y la facilidad de integración con pandas, scikit-learn o TensorFlow.

En este módulo se estudian los conceptos fundamentales que sustentan todo el ecosistema Spark: arquitectura, modelo de ejecución, tipos de operaciones y la elección entre PySpark y Scala según los requisitos del proyecto.

Explora más sobre PySpark

Descubre más recursos de PySpark

Alan Sastre - Autor del curso

Alan Sastre

Ingeniero de Software y formador, CEO en CertiDevs

Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, PySpark es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.