Saltar al contenido principal
PySpark
Framework Big Data Ciencia de Datos

Formación corporativa en PySpark

Procesamiento distribuido de big data con Spark y Python.

Evidencias FUNDAE Activación guiada Evaluación con IA Itinerario a medida

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

Resumen del itinerario en PySpark

Para qué equipos

Equipos técnicos que incorporan PySpark a su stack productivo o consolidan competencias antes de un proyecto crítico. Adaptamos el temario al nivel de partida y al stack acompañante.

Qué se trabaja

Lecciones aplicadas y ejercicios prácticos en PySpark resueltos en el IDE del navegador, con corrección automática por IA y proyectos integradores revisados con rúbrica explícita.

Cómo se contrata

Propuesta concreta sobre teleformación, aula virtual o plan mixto. Sin coste de setup, sin permanencia, con evidencias FUNDAE exportables para la entidad organizadora.

Activación en 3 pasos

Diseñamos el itinerario, el alcance y el calendario según el nivel y el stack de tu equipo. Evidencias FUNDAE exportables, sin permanencia ni coste de setup.

  1. 1 Demo o llamada
    30 min con el fundador. Cuéntanos el stack, el nivel y el calendario.
  2. 2 Propuesta
    Itinerario y modalidad (teleformación, aula virtual o mixto) con evidencias FUNDAE exportables.
  3. 3 Tenant activo
    Tu equipo entra con SSO, asignaciones automáticas y panel admin completo.

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

Qué incluye la formación

Toda la plataforma CertiDevs disponible para tu equipo durante el itinerario. Sin costes ocultos ni módulos premium.

Entornos de programación online, sin instalar nada en el equipo del alumno.
Evaluación con IA de cada ejercicio de código, proyecto y ensayo, con feedback y nota.
Certificado verificable con NIF del alumno y firma digital de CertiDevs.
Panel admin de empresa: alta masiva CSV, asignaciones, foros y encuestas.
Rol inspector FUNDAE con acceso de solo lectura a actividad y resultados.
Reportes exportables en Excel: accesos, progreso, completion y satisfacción.
Integración con tu LMS: LTI 1.1 + 1.3 Deep Linking y exportación SCORM 1.2.
SSO con tu Active Directory (OIDC, Microsoft Entra, Google Workspace).
White-label opcional: subdominio propio, logo y tema de tu marca.
Pruebas técnicas: mismos exámenes para evaluar candidatos en selección.
Foros y mensajería tutorial integrados, requisito FUNDAE cubierto de serie.
Soporte directo de nuestro equipo durante toda la formación.

Cursos disponibles en PySpark

Cada curso se puede asignar de forma independiente o combinar en un plan formativo.

Curso completo PySpark / Apache Spark

Curso integral de PySpark para procesar grandes volúmenes de datos con Apache Spark y Python en entornos empresariales y plataformas cloud. Cubre arquitectura distribuida, RDDs, DataFrames y Spark SQL, transformaciones avanzadas, Structured Streaming para datos en tiempo real, machine learning con MLlib y formatos lakehouse como Delta Lake. Al terminar construyes pipelines de datos escalables, dominas optimización y despliegue, y eres autónomo en proyectos de big data de banca, telco, retail o energía.

Ver curso
Especialización PySpark - Fundamentos

Curso de fundamentos de Apache Spark con PySpark, dirigido a profesionales que arrancan con procesamiento distribuido en proyectos empresariales. Cubre el modelo de ejecución de Spark, instalación y SparkSession, RDDs como abstracción base y DataFrames con esquemas, lecturas de datos y operaciones de transformación. Al terminar entiendes la arquitectura distribuida y puedes construir tus primeros pipelines escalables sobre clústeres Spark gestionados o on-premise.

Ver curso
Especialización PySpark - Producción y optimización

Curso centrado en llevar aplicaciones PySpark a producción con criterios profesionales de rendimiento y operación. Aprendes particionamiento eficiente, planificación de joins, gestión de memoria y caché, testing de pipelines de datos y despliegue sobre clústeres Spark gestionados u on-premise. Al terminar puedes optimizar trabajos lentos, anticipar cuellos de botella y dejar pipelines estables y observables en entornos empresariales reales.

Ver curso
Especialización PySpark - Spark SQL y Transformaciones avanzadas

Curso avanzado de PySpark dedicado a Spark SQL y a las transformaciones complejas que aparecen en proyectos reales de datos. Profundizas en consultas SQL distribuidas, funciones de ventana, joins entre grandes tablas, agregaciones complejas, manejo de datos anidados y patrones de transformación que combinan API DataFrame y SQL. Al terminar resuelves con soltura los casos de analítica avanzada y migración SQL → Spark típicos de proyectos empresariales de big data.

Ver curso
Especialización PySpark - Structured Streaming y Machine learning con MLlib

Curso de PySpark centrado en procesamiento de datos en tiempo real y machine learning a gran escala con MLlib. Aprendes Structured Streaming para construir pipelines reactivos sobre fuentes continuas, ventanas temporales, gestión de estado y exactly-once, y MLlib para entrenar modelos distribuidos de clasificación, regresión, recomendación y clustering. Al terminar puedes diseñar sistemas analíticos que combinan streaming y ML en proyectos empresariales de datos a gran escala.

Ver curso

Ver todos los cursos del catálogo

Stacks habituales que las empresas combinan en sus planes formativos junto a PySpark.

Estructura del itinerario

Módulos, lecciones y ejercicios del itinerario

Apache Spark es el motor de procesamiento distribuido de datos más utilizado en entornos de Big Data. Su arquitectura se basa en un modelo driver-executor donde el driver coordina la ejecución y los executors procesan los datos en paralelo sobre los nodos del clúster.

El modelo de ejecución de Spark utiliza lazy evaluation: las transformaciones se acumulan en un grafo dirigido acíclico (DAG) y solo se ejecutan cuando se invoca una acción. Esto permite al optimizador Catalyst reorganizar y optimizar el plan de ejecución automáticamente antes de lanzar los cálculos.

Spark puede gestionar sus recursos con distintos cluster managers: Standalone (integrado), YARN (Hadoop), Apache Mesos y Kubernetes. Cada uno ofrece diferentes capacidades de escalado y integración con el ecosistema de infraestructura existente en la organización.

from pyspark.sql import SparkSession

# El driver crea la SparkSession y coordina el clúster
spark = SparkSession.builder \
    .appName("FundamentosSpark") \
    .master("local[*]") \
    .getOrCreate()

# Cada transformación es lazy: se acumula en el DAG
df = spark.range(1000000)
df_transformado = df.filter(df.id % 2 == 0).selectExpr("id * 2 AS id_doble")

# La acción 'count' desencadena la ejecución del DAG
print(df_transformado.count())

PySpark ofrece la misma API que Scala Spark pero desde Python, usando la capa de comunicación Py4J para interactuar con la JVM. Para la mayoría de los casos de uso en ingeniería de datos y machine learning, PySpark es la opción preferida por su ecosistema Python y la facilidad de integración con pandas, scikit-learn o TensorFlow.

En este módulo se estudian los conceptos fundamentales que sustentan todo el ecosistema Spark: arquitectura, modelo de ejecución, tipos de operaciones y la elección entre PySpark y Scala según los requisitos del proyecto.

  • Introducción a Apache Spark Lección
  • Arquitectura de Apache Spark Lección
  • Modelo de ejecución de Spark Lección
  • PySpark vs Spark Scala Lección
  • Test de fundamentos de Apache Spark Test

Modalidades de contratación

Elige la modalidad que mejor se adapte a tu organización. Sin permanencia ni coste de setup.

Teleformación

Acceso autónomo al itinerario en la plataforma: lecciones, vídeos, ejercicios evaluados por IA y proyecto integrador. Con tutorización y foro técnico.

Solicitar propuesta

Aula virtual privada

Sesiones en directo sobre cohorte cerrada del cliente. Práctica guiada, resolución de dudas, evaluación al cierre y evidencias exportables.

Solicitar propuesta

Plan mixto

Teleformación con sesiones en directo intercaladas. Equilibra autonomía del alumno con hitos guiados, revisión de proyectos y feedback síncrono.

Solicitar propuesta

Sobre PySpark

Apache Software Foundation Desde 2009 Documentación oficial

PySpark es la interfaz de Python para Apache Spark, el motor de procesamiento distribuido de datos más utilizado en entornos de Big Data. Con PySpark es posible manipular grandes volúmenes de datos de forma eficiente utilizando código Python, aprovechando la ejecución paralela en clústeres de máquinas sin necesidad de gestionar manualmente la distribución de tareas ni la tolerancia a fallos.

La arquitectura de Spark se basa en un modelo driver-executor donde el driver coordina la ejecución y los executors procesan los datos en paralelo. Su motor de ejecución utiliza lazy evaluation: las transformaciones se acumulan en un grafo dirigido acíclico (DAG) y solo se ejecutan cuando se invoca una acción, lo que permite al optimizador Catalyst reorganizar y optimizar las operaciones automáticamente.

PySpark ofrece dos niveles de abstracción para trabajar con datos distribuidos. Los RDDs (Resilient Distributed Datasets) proporcionan una API de bajo nivel con transformaciones como map, filter y reduceByKey. Los DataFrames, más utilizados en la práctica, ofrecen una API declarativa similar a SQL con operaciones como select, filter, groupBy, join y funciones de ventana, y se benefician de la optimización automática del motor Catalyst y del formato columnar en memoria de Tungsten, así como de la reoptimización en tiempo de ejecución de Adaptive Query Execution (AQE) ya activa por defecto.

A partir de Spark 4.0, Spark Connect separa de forma definitiva el cliente del servidor: el código PySpark se ejecuta en cualquier proceso ligero (un laptop, un notebook, un servicio) y se comunica por gRPC con un servidor Spark remoto, sin arrastrar la JVM ni el runtime completo. La Pandas API on Spark (pyspark.pandas) permite migrar código pandas existente a ejecución distribuida casi sin cambios, el modo ANSI SQL es el comportamiento por defecto (errores estrictos en overflow y casts) y los Python UDFs Arrow-optimized reducen al mínimo el coste de serialización Python-JVM.

El ecosistema de PySpark incluye Spark SQL para ejecutar consultas SQL sobre DataFrames, Structured Streaming para procesamiento de datos en tiempo real, MLlib para aprendizaje automático distribuido (clasificación, regresión, clustering, pipelines) y una integración nativa con Delta Lake 3+ como formato estándar para data lakehouse (transacciones ACID, time travel, schema evolution). En plataformas gestionadas, motores vectorizados como Photon en Databricks aceleran las consultas sobre el mismo código PySpark sin requerir cambios en la aplicación.

Qué incluye este itinerario

  • Fundamentos: qué es Apache Spark, arquitectura driver-executor, modelo de ejecución (jobs, stages, tasks, DAG), lazy evaluation y comparativa PySpark vs Scala.
  • Instalación y entorno: instalación con pip/conda/Docker, SparkSession, Spark Connect (arquitectura cliente-servidor), Spark UI y entornos interactivos (Jupyter, Databricks).
  • RDDs: creación con parallelize y textFile, transformaciones (map, filter, flatMap, reduceByKey, sortByKey), acciones (collect, count, take) y persistencia.
  • DataFrames: creación, esquemas con StructType, lectura de datos (CSV, JSON, Parquet, JDBC), operaciones básicas (select, filter, withColumn, groupBy, agg), ordenación, conjuntos y Pandas API on Spark (pyspark.pandas).
  • Spark SQL: vistas temporales, consultas SQL, joins, window functions (row_number, rank, lag, lead), UDFs y el optimizador Catalyst.
  • Transformaciones avanzadas: pivot/unpivot, explode, funciones de array y map, funciones de fecha y cadena, manejo de nulos y condicionales con when/otherwise.
  • Structured Streaming: readStream, writeStream, modos de salida, triggers, watermarks, ventanas temporales e integración con Kafka.
  • MLlib: Pipeline, Transformer, Estimator, feature engineering, clasificación, regresión, clustering, PCA, evaluación, cross-validation, sistemas de recomendación con ALS e integraciones con scikit-learn, PyTorch y XGBoost.
  • Producción: particionamiento, escritura de datos, Delta Lake (transacciones ACID, time travel, merge), broadcast variables, accumulators, optimización de rendimiento, testing de pipelines con assertDataFrameEqual, spark-submit y despliegue en clúster.

Público objetivo

  • Ingenieros de datos que procesan grandes volúmenes de información en entornos distribuidos.
  • Científicos de datos que necesitan escalar sus análisis y modelos de machine learning a Big Data.
  • Desarrolladores Python que trabajan con ETL, pipelines de datos o procesamiento en tiempo real.
  • Profesionales de analítica y Business Intelligence que necesitan dominar herramientas de procesamiento distribuido modernas.

¿Necesitas un itinerario completo?

Este curso puede formar parte de una carrera profesional que combine varias tecnologías. Explora nuestros itinerarios o te diseñamos uno a medida para tu equipo.

Plan formativo de PySpark para tu equipo

Recibe una propuesta concreta: modalidad, alcance, calendario y evidencias FUNDAE exportables. Damos de alta a tu equipo, configuramos la plataforma con tus dominios y entregamos certificados verificables e informes para tu entidad organizadora. Sin coste de setup, sin permanencia.

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

Formación en PySpark: preguntas frecuentes

¿La formación en PySpark para empresas es bonificable por FUNDAE?
Puede ser bonificable cuando la acción cumple los requisitos aplicables. La plataforma aporta evidencias técnicas: seguimiento de tiempos, registro de conexiones, foros, encuestas y certificados para que tu entidad organizadora o gestoría revise la documentación.
¿En qué modalidades se imparte la formación en PySpark?
En tres modalidades: teleformación (online asíncrona), aula virtual privada en directo y mixta. Adaptamos temario, calendario y modalidad al equipo.
¿Se adapta el temario de PySpark al nivel de mi equipo?
Sí. Ajustamos el itinerario de PySpark al nivel y al stack de tu equipo, con ejercicios evaluados por IA y certificado verificable. La activación corporativa se acuerda durante la fase de propuesta.
¿Cómo se evalúa a los alumnos?
Con ejercicios corregidos automáticamente por IA (test, puzle, código, proyecto y ensayo), detección de entregas generadas con IA y certificados verificables por URL.