Saltar al contenido principal
PySpark
Curso completo Nivel medio certificado-completo-pyspark-apache-spark

PySpark / Apache Spark

PySpark ·Big Data·Ciencia de Datos

Curso integral de PySpark para procesar grandes volúmenes de datos con Apache Spark y Python en entornos empresariales y plataformas cloud. Cubre arquitectura distribuida, RDDs, DataFrames y Spark SQL, transformaciones avanzadas, Structured Streaming para datos en tiempo real, machine learning con MLlib y formatos lakehouse como Delta Lake. Al terminar construyes pipelines de datos escalables, dominas optimización y despliegue, y eres autónomo en proyectos de big data de banca, telco, retail o energía.

Evidencias FUNDAE Activación guiada Evaluación con IA Sin permanencia

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

Formación corporativa: este curso se activa bajo pedido para tu organización. Adaptamos temario, calendario y modalidad (teleformación, aula virtual o mixto).

Contenido del curso

Procesamiento distribuido de big data con Spark y Python.

9 módulos 52 lecciones 10 ejercicios evaluados por IA 9 tests
  • Introducción a Apache Spark Lección
  • Arquitectura de Apache Spark Lección
  • Modelo de ejecución de Spark Lección
  • PySpark vs Spark Scala Lección
  • Test de fundamentos de Apache Spark Test

Detalles del curso

Público objetivo

  • Ingenieros de datos que procesan grandes volúmenes de información en entornos distribuidos.
  • Científicos de datos que necesitan escalar sus análisis y modelos de machine learning a Big Data.
  • Desarrolladores Python que trabajan con ETL, pipelines de datos o procesamiento en tiempo real.
  • Profesionales de analítica y Business Intelligence que necesitan dominar herramientas de procesamiento distribuido modernas.

Contenido del certificado

Módulo 1: Fundamentos de Apache Spark Introducción a Apache Spark Arquitectura de Spark Modelo de ejecución PySpark vs Scala Módulo 2: Instalación y entorno de trabajo Instalación de PySpark SparkSession Spark Connect Spark UI Jupyter y Databricks Módulo 3: RDDs: Resilient Distributed Datasets Creación de RDDs Transformaciones de RDDs RDDs clave valor Acciones sobre RDDs Persistencia de RDDs Módulo 4: DataFrames Creación de DataFrames Esquemas y tipos de datos Lectura de datos Operaciones básicas con DataFrames Agrupación y agregación Ordenación y conjuntos Pandas API on Spark Módulo 5: Spark SQL Vistas temporales y SQL Joins Window functions UDFs Catalyst Optimizer Módulo 6: Transformaciones avanzadas Pivot y unpivot Arrays y explode Maps y structs Funciones de fecha Funciones de cadena Nulos y condicionales Módulo 7: Structured Streaming Introducción a Streaming readStream writeStream Watermarks y ventanas Streaming con Kafka Módulo 8: Machine Learning con MLlib Pipelines ML Feature engineering Clasificación Regresión Clustering y PCA Evaluación y tuning Sistemas de recomendación Integraciones ML Módulo 9: Producción y optimización Particionamiento Escritura de datos Delta Lake Broadcast y accumulators Optimización de rendimiento Testing spark submit y despliegue en producción

Este curso completo de PySpark recorre la API de Python para Apache Spark de principio a fin: desde la arquitectura driver executor, Spark Connect y el modelo de ejecución hasta el despliegue en producción con spark submit, pasando por RDDs, DataFrames, Pandas API on Spark, Spark SQL con joins y window functions, UDFs, transformaciones avanzadas (pivot, explode, funciones de fecha y cadena), Structured Streaming con integración Kafka, machine learning distribuido con MLlib (pipelines, clasificación, regresión, clustering, sistemas de recomendación, evaluación e integraciones con scikit learn, PyTorch y XGBoost), Delta Lake para data lakehouse, testing de pipelines y optimización de rendimiento con particionamiento, broadcast y caché.

Objetivos de aprendizaje

  • Dominar la arquitectura de Apache Spark y configurar entornos de trabajo con PySpark.
  • Trabajar con RDDs y DataFrames para procesamiento de datos a gran escala.
  • Escribir consultas complejas con Spark SQL, joins, window functions y UDFs.
  • Aplicar transformaciones avanzadas sobre datos estructurados y semiestructurados.
  • Implementar pipelines de procesamiento en tiempo real con Structured Streaming.
  • Construir modelos de machine learning distribuidos con MLlib.
  • Optimizar y desplegar aplicaciones PySpark en entornos de producción.

Otros cursos de PySpark

Especialización ·Nivel medio

PySpark - Fundamentos

Curso de fundamentos de Apache Spark con PySpark, dirigido a profesionales que arrancan con procesamiento distribuido en proyectos empresariales. Cubre el modelo de ejecución de Spark, instalación y SparkSession, RDDs como abstracción base y DataFrames con esquemas, lecturas de datos y operaciones de transformación. Al terminar entiendes la arquitectura distribuida y puedes construir tus primeros pipelines escalables sobre clústeres Spark gestionados o on-premise.

Especialización ·Nivel medio

PySpark - Producción y optimización

Curso centrado en llevar aplicaciones PySpark a producción con criterios profesionales de rendimiento y operación. Aprendes particionamiento eficiente, planificación de joins, gestión de memoria y caché, testing de pipelines de datos y despliegue sobre clústeres Spark gestionados u on-premise. Al terminar puedes optimizar trabajos lentos, anticipar cuellos de botella y dejar pipelines estables y observables en entornos empresariales reales.

Especialización ·Nivel medio

PySpark - Spark SQL y Transformaciones avanzadas

Curso avanzado de PySpark dedicado a Spark SQL y a las transformaciones complejas que aparecen en proyectos reales de datos. Profundizas en consultas SQL distribuidas, funciones de ventana, joins entre grandes tablas, agregaciones complejas, manejo de datos anidados y patrones de transformación que combinan API DataFrame y SQL. Al terminar resuelves con soltura los casos de analítica avanzada y migración SQL → Spark típicos de proyectos empresariales de big data.

Especialización ·Nivel medio

PySpark - Structured Streaming y Machine learning con MLlib

Curso de PySpark centrado en procesamiento de datos en tiempo real y machine learning a gran escala con MLlib. Aprendes Structured Streaming para construir pipelines reactivos sobre fuentes continuas, ventanas temporales, gestión de estado y exactly-once, y MLlib para entrenar modelos distribuidos de clasificación, regresión, recomendación y clustering. Al terminar puedes diseñar sistemas analíticos que combinan streaming y ML en proyectos empresariales de datos a gran escala.

Llave en mano para empresas

¿Formación para tu equipo en esta tecnología?

Tú nos dices a quién formar y nosotros configuramos la plataforma con tu marca, damos de alta a tu gente, evaluamos las entregas con IA y te entregamos los certificados y los informes técnicos para tu gestor FUNDAE. Catálogo amplio con teleformación, aula virtual o mixto. Sin permanencia, sin coste de setup.

¿Prefieres verlo en directo? Agenda una demo.

Preguntas frecuentes

¿PySpark / Apache Spark es bonificable por FUNDAE para mi empresa?
Puede ser bonificable cuando la acción cumple los requisitos aplicables. La plataforma aporta evidencias técnicas: seguimiento de tiempos, registro de conexiones, foros, encuestas y certificados para que tu entidad organizadora o gestoría revise la documentación.
¿En qué modalidades se imparte PySpark / Apache Spark?
En tres modalidades: teleformación (online asíncrona), aula virtual privada en directo y mixta. Adaptamos temario, calendario y modalidad al equipo.
¿Se adapta PySpark / Apache Spark al nivel de mi equipo?
Sí. Adaptamos temario, calendario y modalidad al nivel y al stack del equipo, con ejercicios evaluados por IA y certificado verificable.
¿Cuánto tarda en activarse para mi empresa?
La activación corporativa estándar es rápida, sin coste de setup ni permanencia.