¿La formación en PySpark para empresas es bonificable por FUNDAE?

Puede ser bonificable cuando la acción cumple los requisitos aplicables. La plataforma aporta evidencias técnicas: seguimiento de tiempos, registro de conexiones, foros, encuestas y certificados para que tu entidad organizadora o gestoría revise la documentación.

¿En qué modalidades se imparte la formación en PySpark?

En tres modalidades: teleformación (online asíncrona), aula virtual privada en directo y mixta. Adaptamos temario, calendario y modalidad al equipo.

¿Se adapta el temario de PySpark al nivel de mi equipo?

Sí. Ajustamos el itinerario de PySpark al nivel y al stack de tu equipo, con ejercicios evaluados por IA y certificado verificable. La activación corporativa se acuerda durante la fase de propuesta.

¿Cómo se evalúa a los alumnos?

Con ejercicios corregidos automáticamente por IA (test, puzle, código, proyecto y ensayo), detección de entregas generadas con IA y certificados verificables por URL.

Framework Big Data Ciencia de Datos

Formación corporativa en PySpark

Procesamiento distribuido de big data con Spark y Python.

Evidencias FUNDAE Activación guiada Evaluación con IA Itinerario a medida

Solicitar formación en PySpark Probar la plataforma

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

Para qué equipos

Equipos técnicos que incorporan PySpark a su stack productivo o consolidan competencias antes de un proyecto crítico. Adaptamos el temario al nivel de partida y al stack acompañante.

Qué se trabaja

Lecciones aplicadas y ejercicios prácticos en PySpark resueltos en el IDE del navegador, con corrección automática por IA y proyectos integradores revisados con rúbrica explícita.

Cómo se contrata

Propuesta concreta sobre teleformación, aula virtual o plan mixto. Sin coste de setup, sin permanencia, con evidencias FUNDAE exportables para la entidad organizadora.

Teleformación Aula virtual FUNDAE LTI / SCORM

Activación en 3 pasos

Diseñamos el itinerario, el alcance y el calendario según el nivel y el stack de tu equipo. Evidencias FUNDAE exportables, sin permanencia ni coste de setup.

1 Demo o llamada
30 min con el fundador. Cuéntanos el stack, el nivel y el calendario.
2 Propuesta
Itinerario y modalidad (teleformación, aula virtual o mixto) con evidencias FUNDAE exportables.
3 Tenant activo
Tu equipo entra con SSO, asignaciones automáticas y panel admin completo.

Solicitar formación en PySpark Probar la plataforma

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

Qué incluye la formación

Toda la plataforma CertiDevs disponible para tu equipo durante el itinerario. Sin costes ocultos ni módulos premium.

Entornos de programación online, sin instalar nada en el equipo del alumno.

Evaluación con IA de cada ejercicio de código, proyecto y ensayo, con feedback y nota.

Certificado verificable con NIF del alumno y firma digital de CertiDevs.

Panel admin de empresa: alta masiva CSV, asignaciones, foros y encuestas.

Rol inspector FUNDAE con acceso de solo lectura a actividad y resultados.

Reportes exportables en Excel: accesos, progreso, completion y satisfacción.

Integración con tu LMS: LTI 1.1 + 1.3 Deep Linking y exportación SCORM 1.2.

SSO con tu Active Directory (OIDC, Microsoft Entra, Google Workspace).

White-label opcional: subdominio propio, logo y tema de tu marca.

Pruebas técnicas: mismos exámenes para evaluar candidatos en selección.

Foros y mensajería tutorial integrados, requisito FUNDAE cubierto de serie.

Soporte directo de nuestro equipo durante toda la formación.

Cursos disponibles en PySpark

Cada curso se puede asignar de forma independiente o combinar en un plan formativo.

Curso completo PySpark / Apache Spark

Curso integral de PySpark para procesar grandes volúmenes de datos con Apache Spark y Python en entornos empresariales y plataformas cloud. Cubre arquitectura distribuida, RDDs, DataFrames y Spark SQL, transformaciones avanzadas, Structured Streaming para datos en tiempo real, machine learning con MLlib y formatos lakehouse como Delta Lake. Al terminar construyes pipelines de datos escalables, dominas optimización y despliegue, y eres autónomo en proyectos de big data de banca, telco, retail o energía.

Ver curso Especialización PySpark - Fundamentos

Curso de fundamentos de Apache Spark con PySpark, dirigido a profesionales que arrancan con procesamiento distribuido en proyectos empresariales. Cubre el modelo de ejecución de Spark, instalación y SparkSession, RDDs como abstracción base y DataFrames con esquemas, lecturas de datos y operaciones de transformación. Al terminar entiendes la arquitectura distribuida y puedes construir tus primeros pipelines escalables sobre clústeres Spark gestionados o on-premise.

Ver curso Especialización PySpark - Producción y optimización

Curso centrado en llevar aplicaciones PySpark a producción con criterios profesionales de rendimiento y operación. Aprendes particionamiento eficiente, planificación de joins, gestión de memoria y caché, testing de pipelines de datos y despliegue sobre clústeres Spark gestionados u on-premise. Al terminar puedes optimizar trabajos lentos, anticipar cuellos de botella y dejar pipelines estables y observables en entornos empresariales reales.

Ver curso Especialización PySpark - Spark SQL y Transformaciones avanzadas

Curso avanzado de PySpark dedicado a Spark SQL y a las transformaciones complejas que aparecen en proyectos reales de datos. Profundizas en consultas SQL distribuidas, funciones de ventana, joins entre grandes tablas, agregaciones complejas, manejo de datos anidados y patrones de transformación que combinan API DataFrame y SQL. Al terminar resuelves con soltura los casos de analítica avanzada y migración SQL → Spark típicos de proyectos empresariales de big data.

Ver curso Especialización PySpark - Structured Streaming y Machine learning con MLlib

Curso de PySpark centrado en procesamiento de datos en tiempo real y machine learning a gran escala con MLlib. Aprendes Structured Streaming para construir pipelines reactivos sobre fuentes continuas, ventanas temporales, gestión de estado y exactly-once, y MLlib para entrenar modelos distribuidos de clasificación, regresión, recomendación y clustering. Al terminar puedes diseñar sistemas analíticos que combinan streaming y ML en proyectos empresariales de datos a gran escala.

Ver curso

Ver todos los cursos del catálogo

Stacks habituales que las empresas combinan en sus planes formativos junto a PySpark.

Estructura del itinerario

Módulos, lecciones y ejercicios del itinerario

Fundamentos de Apache Spark

Apache Spark es el motor de procesamiento distribuido de datos más utilizado en entornos de Big Data.

Apache Spark es el motor de procesamiento distribuido de datos más utilizado en entornos de Big Data. Su arquitectura se basa en un modelo driver-executor donde el driver coordina la ejecución y los executors procesan los datos en paralelo sobre los nodos del clúster.

El modelo de ejecución de Spark utiliza lazy evaluation: las transformaciones se acumulan en un grafo dirigido acíclico (DAG) y solo se ejecutan cuando se invoca una acción. Esto permite al optimizador Catalyst reorganizar y optimizar el plan de ejecución automáticamente antes de lanzar los cálculos.

Spark puede gestionar sus recursos con distintos cluster managers: Standalone (integrado), YARN (Hadoop), Apache Mesos y Kubernetes. Cada uno ofrece diferentes capacidades de escalado y integración con el ecosistema de infraestructura existente en la organización.

from pyspark.sql import SparkSession

# El driver crea la SparkSession y coordina el clúster
spark = SparkSession.builder \
    .appName("FundamentosSpark") \
    .master("local[*]") \
    .getOrCreate()

# Cada transformación es lazy: se acumula en el DAG
df = spark.range(1000000)
df_transformado = df.filter(df.id % 2 == 0).selectExpr("id * 2 AS id_doble")

# La acción 'count' desencadena la ejecución del DAG
print(df_transformado.count())

PySpark ofrece la misma API que Scala Spark pero desde Python, usando la capa de comunicación Py4J para interactuar con la JVM. Para la mayoría de los casos de uso en ingeniería de datos y machine learning, PySpark es la opción preferida por su ecosistema Python y la facilidad de integración con pandas, scikit-learn o TensorFlow.

En este módulo se estudian los conceptos fundamentales que sustentan todo el ecosistema Spark: arquitectura, modelo de ejecución, tipos de operaciones y la elección entre PySpark y Scala según los requisitos del proyecto.

Introducción a Apache Spark Lección
Arquitectura de Apache Spark Lección
Modelo de ejecución de Spark Lección
PySpark vs Spark Scala Lección
Test de fundamentos de Apache Spark Test

Instalación y entorno de trabajo

Configurar correctamente el entorno de trabajo es el primer paso para desarrollar con PySpark.

Configurar correctamente el entorno de trabajo es el primer paso para desarrollar con PySpark. La instalación más sencilla se realiza con pip install pyspark, que incluye una distribución de Apache Spark y gestiona automáticamente las dependencias de Java necesarias para ejecutar la JVM.

La SparkSession es el punto de entrada principal de cualquier aplicación PySpark. Se crea mediante el patrón builder y permite configurar parámetros como el nombre de la aplicación, el modo de ejecución (local[*] para desarrollo, yarn o k8s para producción) y opciones avanzadas de memoria y paralelismo.

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("MiAplicacion") \
    .master("local[*]") \
    .config("spark.executor.memory", "2g") \
    .config("spark.driver.memory", "1g") \
    .getOrCreate()

print(f"Versión de Spark: {spark.version}")

La Spark UI (accesible en http://localhost:4040 durante la ejecución) proporciona información detallada sobre jobs, stages, tasks, uso de almacenamiento y variables de entorno. Es la herramienta principal para diagnosticar problemas de rendimiento y entender cómo Spark ejecuta las operaciones.

Para flujos de trabajo interactivos, PySpark se integra perfectamente con Jupyter Notebooks, Databricks y Google Colab, que proporcionan entornos preconfigurados con soporte para visualización y exploración de datos distribuidos.

Instalación de PySpark con pip, conda y Docker Lección
SparkSession: creación y configuración Lección
Spark Connect: conexión remota cliente-servidor Lección
Spark UI: diagnóstico y monitorización Lección
PySpark en Jupyter, Databricks y Google Colab Lección
Test de instalación y entorno de trabajo PySpark Test

RDDs: Resilient Distributed Datasets

Los RDDs (Resilient Distributed Datasets) son la abstracción de datos fundamental de Apache Spark.

Los RDDs (Resilient Distributed Datasets) son la abstracción de datos fundamental de Apache Spark. Representan colecciones inmutables y tolerantes a fallos de elementos distribuidos entre los nodos del clúster. Aunque en la práctica moderna se prefieren los DataFrames, los RDDs siguen siendo el sustrato subyacente y son esenciales para comprender el funcionamiento interno de Spark.

Se pueden crear RDDs de dos formas principales: mediante parallelize() a partir de colecciones Python en memoria, o mediante textFile() para leer datos desde el sistema de ficheros o HDFS:

sc = spark.sparkContext

# Crear RDD desde una colección Python
rdd_numeros = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], numSlices=4)

# Crear RDD desde un fichero de texto
rdd_texto = sc.textFile("hdfs://ruta/al/archivo.txt")

Las transformaciones son operaciones perezosas que producen un nuevo RDD: map, filter, flatMap, distinct, union, reduceByKey, groupByKey, sortByKey, join y cogroup. Las acciones desencadenan la ejecución del DAG y devuelven un resultado: collect, count, first, take, reduce, saveAsTextFile y foreach.

La persistencia permite mantener RDDs en memoria o disco para reutilizarlos eficientemente en múltiples acciones. Los niveles MEMORY_ONLY, MEMORY_AND_DISK y DISK_ONLY controlan dónde se almacenan los datos. unpersist() libera el espacio cuando el RDD ya no es necesario.

Creación de RDDs Lección
Transformaciones básicas de RDDs Lección
RDDs de clave-valor Lección
Acciones de RDDs Lección
Persistencia y caché de RDDs Lección
Test de RDDs en PySpark Test

DataFrames: creación, esquema y operaciones

Los DataFrames son la API principal de PySpark para trabajar con datos estructurados.

Los DataFrames son la API principal de PySpark para trabajar con datos estructurados. A diferencia de los RDDs, los DataFrames tienen un esquema definido y se benefician del optimizador Catalyst, que genera planes de ejecución más eficientes de forma automática.

Se pueden crear DataFrames desde múltiples fuentes: listas de tuplas Python, diccionarios, RDDs existentes o DataFrames de pandas. La definición explícita del esquema con StructType y StructField es recomendable en producción para evitar inferencias costosas y garantizar la corrección de tipos:

from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DoubleType

schema = StructType([
    StructField("nombre", StringType(), nullable=False),
    StructField("edad", IntegerType(), nullable=True),
    StructField("salario", DoubleType(), nullable=True)
])

df = spark.createDataFrame([("Ana", 30, 45000.0), ("Luis", 25, 38000.0)], schema)
df.printSchema()
df.show()

Las operaciones básicas incluyen select para proyección de columnas, filter/where para filtrado, withColumn para añadir o transformar columnas, alias para renombrar, drop para eliminar y withColumnRenamed para cambios de nombre. Para agrupaciones se usa groupBy con funciones de agregación (count, sum, avg, min, max). La ordenación se realiza con orderBy/sort y la deduplicación con distinct y dropDuplicates.

Creación de DataFrames Lección
Esquemas y tipos de datos en PySpark Lección
Lectura de datos en PySpark Lección
Operaciones básicas con DataFrames Lección
Agrupación y agregación de DataFrames Lección
Ordenación, conjuntos y operaciones de filas Lección
Pandas API on Spark Lección
Test de DataFrames en PySpark Test
Ejercicio de código: DataFrames en PySpark Ejercicio
Ejercicio de código: DataFrame API avanzada con lazy, groupBy y window functions Ejercicio

Spark SQL

Spark SQL permite ejecutar consultas SQL estándar directamente sobre DataFrames, combinando la expresividad del lenguaje SQL con la potencia del procesamiento distribuido de Spark.

Spark SQL permite ejecutar consultas SQL estándar directamente sobre DataFrames, combinando la expresividad del lenguaje SQL con la potencia del procesamiento distribuido de Spark. Esta integración facilita la adopción de PySpark por equipos con experiencia en SQL y permite reutilizar consultas existentes.

Para ejecutar SQL, primero se registra el DataFrame como vista temporal con createOrReplaceTempView() y después se lanza la consulta con spark.sql():

df.createOrReplaceTempView("empleados")

resultado = spark.sql("""
    SELECT departamento, AVG(salario) AS salario_medio, COUNT(*) AS total
    FROM empleados
    WHERE activo = true
    GROUP BY departamento
    ORDER BY salario_medio DESC
""")
resultado.show()

Los joins combinan DataFrames por una condición: inner, left, right, full, cross, left_semi y left_anti. Las window functions (row_number, rank, dense_rank, lag, lead, sum acumulado) permiten cálculos sobre ventanas de filas definidas con partitionBy y orderBy.

Las UDFs extienden el motor SQL con lógica Python personalizada. Las pandas_udf (vectorizadas con Apache Arrow) ofrecen un rendimiento significativamente mayor que las UDFs clásicas de Python al procesar datos en lotes en lugar de fila a fila. El optimizador Catalyst analiza y reescribe el plan lógico para generar el plan físico más eficiente posible.

Vistas temporales y Spark SQL Lección
Joins en PySpark Lección
Window Functions en PySpark Lección
UDFs y Pandas UDFs en PySpark Lección
Optimizador Catalyst y explain() Lección
Test de Spark SQL en PySpark Test
Ejercicio de código: SQL en PySpark Ejercicio
Ejercicio de código: Spark SQL avanzado con joins, CTE y pivot Ejercicio

Transformaciones avanzadas

Las transformaciones avanzadas de PySpark cubren las necesidades más complejas de manipulación de datos estructurados y semiestructurados que van más allá de las operaciones básicas de selección y filtrado.

Las transformaciones avanzadas de PySpark cubren las necesidades más complejas de manipulación de datos estructurados y semiestructurados que van más allá de las operaciones básicas de selección y filtrado.

El pivoteo con pivot() y la operación inversa con stack() permiten reestructurar DataFrames para transformar filas en columnas o viceversa, operación habitual en la preparación de datos para análisis y reporting. Las funciones explode y posexplode convierten columnas de arrays o mapas en múltiples filas, facilitando el trabajo con datos anidados de JSON o formatos de eventos:

from pyspark.sql.functions import explode, col

# Explotar una columna de array en filas individuales
df_explodido = df.withColumn("etiqueta", explode(col("etiquetas")))
df_explodido.show()

Las funciones de fecha (year, month, dayofweek, datediff, date_add, to_timestamp, unix_timestamp) son esenciales para series temporales y análisis de logs. Las funciones de cadena (concat, substring, regexp_extract, split, trim, lower, upper) permiten limpiar y transformar texto a escala.

El manejo de nulos con isNull, isNotNull, coalesce, fillna, dropna y la función condicional when/otherwise son herramientas indispensables para la limpieza y calidad de datos en pipelines de producción.

Pivot y Unpivot en PySpark Lección
Arrays y explode en PySpark Lección
Maps y Structs en PySpark Lección
Funciones de fecha y tiempo en PySpark Lección
Funciones de cadena de texto en PySpark Lección
Nulos y condicionales en PySpark Lección
Test de transformaciones avanzadas en PySpark Test
Ejercicio de código: Transformaciones avanzadas en PySpark Ejercicio

Structured Streaming

Structured Streaming es el motor de procesamiento en tiempo real de Spark.

Structured Streaming es el motor de procesamiento en tiempo real de Spark. A diferencia de los enfoques tradicionales de streaming, utiliza la misma API de DataFrames que el procesamiento por lotes, lo que facilita la reutilización de código y la curva de aprendizaje.

El modelo de ejecución es microbatch por defecto: Spark procesa los datos en pequeños lotes a intervalos configurables mediante trigger. También existe el modo continuo para latencias muy bajas. Las fuentes de datos disponibles incluyen archivos en directorios, sockets TCP, rate (para pruebas) y Apache Kafka:

# Leer un stream desde Kafka
stream_df = spark.readStream \
    .format("kafka") \
    .option("kafka.bootstrap.servers", "localhost:9092") \
    .option("subscribe", "eventos") \
    .load()

# Procesar: deserializar el valor y agregar por ventana de tiempo
from pyspark.sql.functions import window, col, from_json
from pyspark.sql.types import StructType, StringType, DoubleType

schema = StructType().add("producto", StringType()).add("precio", DoubleType())
df_parsed = stream_df.select(from_json(col("value").cast("string"), schema).alias("data")).select("data.*")

df_ventana = df_parsed.groupBy(window(col("timestamp"), "5 minutes"), "producto").sum("precio")

# Escribir el resultado
query = df_ventana.writeStream.outputMode("update").format("console").start()

Los watermarks gestionan los datos que llegan con retraso, definiendo cuánto tiempo esperar antes de considerar una ventana temporal completa. Los modos de salida append, complete y update controlan qué filas se emiten en cada microbatch. El checkpointing garantiza la recuperación ante fallos con semántica exactly-once.

Introducción a Structured Streaming Lección
readStream: lectura de streams en PySpark Lección
writeStream: escritura de streams y output modes Lección
Watermarks y ventanas temporales en Structured Streaming Lección
PySpark Structured Streaming con Apache Kafka Lección
Test de Structured Streaming en PySpark Test
Ejercicio de código: Streaming en PySpark Ejercicio
Ejercicio de código: Structured Streaming con Kafka y watermarks Ejercicio

Machine learning con MLlib

MLlib es la biblioteca de machine learning de Apache Spark, diseñada para entrenar modelos sobre conjuntos de datos que superan la capacidad de memoria de una sola máquina.

MLlib es la biblioteca de machine learning de Apache Spark, diseñada para entrenar modelos sobre conjuntos de datos que superan la capacidad de memoria de una sola máquina. Proporciona algoritmos de clasificación, regresión, clustering y reducción de dimensionalidad, todos integrados con la API de DataFrames.

El concepto clave es el Pipeline, que encadena transformaciones (Transformer) y estimadores (Estimator) en un flujo de trabajo reproducible. Los Transformer aplican transformaciones (como VectorAssembler o StandardScaler) y los Estimator aprenden de los datos con fit() para producir un modelo que luego transforma nuevos datos con transform():

from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler, StandardScaler
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.evaluation import BinaryClassificationEvaluator

# Construir el pipeline
assembler = VectorAssembler(inputCols=["col1", "col2", "col3"], outputCol="features_raw")
scaler = StandardScaler(inputCol="features_raw", outputCol="features")
rf = RandomForestClassifier(featuresCol="features", labelCol="label", numTrees=100)

pipeline = Pipeline(stages=[assembler, scaler, rf])

# Entrenar y evaluar
train, test = df.randomSplit([0.8, 0.2], seed=42)
modelo = pipeline.fit(train)
predicciones = modelo.transform(test)

evaluador = BinaryClassificationEvaluator(labelCol="label")
print(f"AUC: {evaluador.evaluate(predicciones):.4f}")

El módulo incluye algoritmos de clasificación (LogisticRegressión, RandomForestClassifier, GBTClassifier, NaiveBayes), regresión (LinearRegressión, RandomForestRegressor, GBTRegressor), clustering (KMeans, BisectingKMeans, GaussianMixture) y reducción de dimensionalidad con PCA. La búsqueda de hiperparámetros se realiza con CrossValidator y ParamGridBuilder.

Pipelines de MLlib en PySpark Lección
Feature Engineering con MLlib Lección
Clasificación con MLlib en PySpark Lección
Regresión con MLlib en PySpark Lección
Clustering y PCA con MLlib en PySpark Lección
Evaluación y Tuning de modelos con MLlib en PySpark Lección
Sistemas de recomendación con ALS Lección
Integración con scikit-learn, PyTorch y XGBoost Lección
Test de MLlib en PySpark Test
Ejercicio de código: Machine Learning con PySpark MLlib Ejercicio

Producción y optimización

Llevar aplicaciones PySpark a producción implica dominar técnicas de particionamiento, optimización de rendimiento y despliegue en clúster.

Llevar aplicaciones PySpark a producción implica dominar técnicas de particionamiento, optimización de rendimiento y despliegue en clúster. La eficiencia de una aplicación Spark depende en gran medida de cómo se distribuyen los datos y de las decisiones de configuración tomadas durante el desarrollo.

El particionamiento controla cómo se distribuyen los datos entre los executors. repartition(n) redistribuye todos los datos con un shuffle completo (útil para aumentar el paralelismo), mientras que coalesce(n) reduce particiones sin shuffle (más eficiente para escribir ficheros). El partitionBy en la escritura organiza los datos en directorios por columna, acelerando las lecturas posteriores con predicado pushdown:

# Escribir con particionamiento por año y mes
df.write \
    .mode("overwrite") \
    .partitionBy("anio", "mes") \
    .parquet("s3://mi-bucket/datos/")

Las broadcast variables comparten datos de solo lectura (típicamente tablas de dimensión pequeñas) con todos los executors sin enviarlos en cada tarea. Los accumulators permiten agregar métricas desde los executors al driver de forma segura. La función broadcast() también optimiza los joins cuando una de las tablas es pequeña, evitando un shuffle costoso.

La Adaptive Query Execution (AQE) en Spark 3.x ajusta automáticamente el plan de ejecución en tiempo real según las estadísticas reales de los datos. spark-submit es la herramienta de línea de comandos para enviar aplicaciones a clústeres Standalone, YARN o Kubernetes con control total sobre recursos y configuración.

Particionamiento en PySpark Lección
Escritura de datos en PySpark Lección
Delta Lake con PySpark Lección
Broadcast Variables y Accumulators en PySpark Lección
Optimización del rendimiento en PySpark Lección
Testing de aplicaciones PySpark Lección
spark-submit y despliegue en producción Lección
Test de Producción y Optimización en PySpark Test
Ejercicio de código: PySpark en producción Ejercicio
Proyecto ETL end-to-end con PySpark Proyecto

Modalidades de contratación

Elige la modalidad que mejor se adapte a tu organización. Sin permanencia ni coste de setup.

Teleformación

Acceso autónomo al itinerario en la plataforma: lecciones, vídeos, ejercicios evaluados por IA y proyecto integrador. Con tutorización y foro técnico.

Solicitar propuesta

Aula virtual privada

Sesiones en directo sobre cohorte cerrada del cliente. Práctica guiada, resolución de dudas, evaluación al cierre y evidencias exportables.

Solicitar propuesta

Plan mixto

Teleformación con sesiones en directo intercaladas. Equilibra autonomía del alumno con hitos guiados, revisión de proyectos y feedback síncrono.

Solicitar propuesta

Sobre PySpark

Apache Software Foundation Desde 2009 Documentación oficial

PySpark es la interfaz de Python para Apache Spark, el motor de procesamiento distribuido de datos más utilizado en entornos de Big Data. Con PySpark es posible manipular grandes volúmenes de datos de forma eficiente utilizando código Python, aprovechando la ejecución paralela en clústeres de máquinas sin necesidad de gestionar manualmente la distribución de tareas ni la tolerancia a fallos.

La arquitectura de Spark se basa en un modelo driver-executor donde el driver coordina la ejecución y los executors procesan los datos en paralelo. Su motor de ejecución utiliza lazy evaluation: las transformaciones se acumulan en un grafo dirigido acíclico (DAG) y solo se ejecutan cuando se invoca una acción, lo que permite al optimizador Catalyst reorganizar y optimizar las operaciones automáticamente.

PySpark ofrece dos niveles de abstracción para trabajar con datos distribuidos. Los RDDs (Resilient Distributed Datasets) proporcionan una API de bajo nivel con transformaciones como map, filter y reduceByKey. Los DataFrames, más utilizados en la práctica, ofrecen una API declarativa similar a SQL con operaciones como select, filter, groupBy, join y funciones de ventana, y se benefician de la optimización automática del motor Catalyst y del formato columnar en memoria de Tungsten, así como de la reoptimización en tiempo de ejecución de Adaptive Query Execution (AQE) ya activa por defecto.

A partir de Spark 4.0, Spark Connect separa de forma definitiva el cliente del servidor: el código PySpark se ejecuta en cualquier proceso ligero (un laptop, un notebook, un servicio) y se comunica por gRPC con un servidor Spark remoto, sin arrastrar la JVM ni el runtime completo. La Pandas API on Spark (pyspark.pandas) permite migrar código pandas existente a ejecución distribuida casi sin cambios, el modo ANSI SQL es el comportamiento por defecto (errores estrictos en overflow y casts) y los Python UDFs Arrow-optimized reducen al mínimo el coste de serialización Python-JVM.

El ecosistema de PySpark incluye Spark SQL para ejecutar consultas SQL sobre DataFrames, Structured Streaming para procesamiento de datos en tiempo real, MLlib para aprendizaje automático distribuido (clasificación, regresión, clustering, pipelines) y una integración nativa con Delta Lake 3+ como formato estándar para data lakehouse (transacciones ACID, time travel, schema evolution). En plataformas gestionadas, motores vectorizados como Photon en Databricks aceleran las consultas sobre el mismo código PySpark sin requerir cambios en la aplicación.

Qué incluye este itinerario

Fundamentos: qué es Apache Spark, arquitectura driver-executor, modelo de ejecución (jobs, stages, tasks, DAG), lazy evaluation y comparativa PySpark vs Scala.
Instalación y entorno: instalación con pip/conda/Docker, SparkSession, Spark Connect (arquitectura cliente-servidor), Spark UI y entornos interactivos (Jupyter, Databricks).
RDDs: creación con parallelize y textFile, transformaciones (map, filter, flatMap, reduceByKey, sortByKey), acciones (collect, count, take) y persistencia.
DataFrames: creación, esquemas con StructType, lectura de datos (CSV, JSON, Parquet, JDBC), operaciones básicas (select, filter, withColumn, groupBy, agg), ordenación, conjuntos y Pandas API on Spark (pyspark.pandas).
Spark SQL: vistas temporales, consultas SQL, joins, window functions (row_number, rank, lag, lead), UDFs y el optimizador Catalyst.
Transformaciones avanzadas: pivot/unpivot, explode, funciones de array y map, funciones de fecha y cadena, manejo de nulos y condicionales con when/otherwise.
Structured Streaming: readStream, writeStream, modos de salida, triggers, watermarks, ventanas temporales e integración con Kafka.
MLlib: Pipeline, Transformer, Estimator, feature engineering, clasificación, regresión, clustering, PCA, evaluación, cross-validation, sistemas de recomendación con ALS e integraciones con scikit-learn, PyTorch y XGBoost.
Producción: particionamiento, escritura de datos, Delta Lake (transacciones ACID, time travel, merge), broadcast variables, accumulators, optimización de rendimiento, testing de pipelines con assertDataFrameEqual, spark-submit y despliegue en clúster.

Público objetivo

Ingenieros de datos que procesan grandes volúmenes de información en entornos distribuidos.
Científicos de datos que necesitan escalar sus análisis y modelos de machine learning a Big Data.
Desarrolladores Python que trabajan con ETL, pipelines de datos o procesamiento en tiempo real.
Profesionales de analítica y Business Intelligence que necesitan dominar herramientas de procesamiento distribuido modernas.

¿Necesitas un itinerario completo?

Este curso puede formar parte de una carrera profesional que combine varias tecnologías. Explora nuestros itinerarios o te diseñamos uno a medida para tu equipo.

Ver carreras Solicitar itinerario a medida

Plan formativo de PySpark para tu equipo

Recibe una propuesta concreta: modalidad, alcance, calendario y evidencias FUNDAE exportables. Damos de alta a tu equipo, configuramos la plataforma con tus dominios y entregamos certificados verificables e informes para tu entidad organizadora. Sin coste de setup, sin permanencia.

Solicitar formación en PySpark Probar plataforma

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

Formación en PySpark: preguntas frecuentes

¿La formación en PySpark para empresas es bonificable por FUNDAE?: Puede ser bonificable cuando la acción cumple los requisitos aplicables. La plataforma aporta evidencias técnicas: seguimiento de tiempos, registro de conexiones, foros, encuestas y certificados para que tu entidad organizadora o gestoría revise la documentación.
¿En qué modalidades se imparte la formación en PySpark?: En tres modalidades: teleformación (online asíncrona), aula virtual privada en directo y mixta. Adaptamos temario, calendario y modalidad al equipo.
¿Se adapta el temario de PySpark al nivel de mi equipo?: Sí. Ajustamos el itinerario de PySpark al nivel y al stack de tu equipo, con ejercicios evaluados por IA y certificado verificable. La activación corporativa se acuerda durante la fase de propuesta.
¿Cómo se evalúa a los alumnos?: Con ejercicios corregidos automáticamente por IA (test, puzle, código, proyecto y ensayo), detección de entregas generadas con IA y certificados verificables por URL.

Formación corporativa en PySpark

Resumen del itinerario en PySpark

Para qué equipos

Qué se trabaja

Cómo se contrata

Activación en 3 pasos

Qué incluye la formación

Cursos disponibles en PySpark

Tecnologías relacionadas con PySpark

Estructura del itinerario

Fundamentos de Apache Spark

Instalación y entorno de trabajo

RDDs: Resilient Distributed Datasets

DataFrames: creación, esquema y operaciones

Spark SQL

Transformaciones avanzadas

Structured Streaming

Machine learning con MLlib

Producción y optimización

Modalidades de contratación

Teleformación

Aula virtual privada

Plan mixto

Sobre PySpark

Qué incluye este itinerario

Público objetivo

¿Necesitas un itinerario completo?

Plan formativo de PySpark para tu equipo

Formación en PySpark: preguntas frecuentes