Aprender PySpark Instalación y entorno de trabajo

Módulo del curso de PySpark

PySpark
PySpark
Módulo del curso
Actualizado: 18/04/2026

Módulo: Instalación y entorno de trabajo

Este módulo forma parte del curso de PySpark. .

Configurar correctamente el entorno de trabajo es el primer paso para desarrollar con PySpark. La instalación más sencilla se realiza con pip install pyspark, que incluye una distribución de Apache Spark y gestiona automáticamente las dependencias de Java necesarias para ejecutar la JVM.

La SparkSession es el punto de entrada principal de cualquier aplicación PySpark. Se crea mediante el patrón builder y permite configurar parámetros como el nombre de la aplicación, el modo de ejecución (local[*] para desarrollo, yarn o k8s para producción) y opciones avanzadas de memoria y paralelismo.

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("MiAplicacion") \
    .master("local[*]") \
    .config("spark.executor.memory", "2g") \
    .config("spark.driver.memory", "1g") \
    .getOrCreate()

print(f"Versión de Spark: {spark.version}")

La Spark UI (accesible en http://localhost:4040 durante la ejecución) proporciona información detallada sobre jobs, stages, tasks, uso de almacenamiento y variables de entorno. Es la herramienta principal para diagnosticar problemas de rendimiento y entender cómo Spark ejecuta las operaciones.

Para flujos de trabajo interactivos, PySpark se integra perfectamente con Jupyter Notebooks, Databricks y Google Colab, que proporcionan entornos preconfigurados con soporte para visualización y exploración de datos distribuidos.

Explora más sobre PySpark

Descubre más recursos de PySpark

Alan Sastre - Autor del curso

Alan Sastre

Ingeniero de Software y formador, CEO en CertiDevs

Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, PySpark es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.