PySpark / Apache Spark
PySpark ·Big Data·Ciencia de Datos
Curso integral de PySpark para procesar grandes volúmenes de datos con Apache Spark y Python en entornos empresariales y plataformas cloud. Cubre arquitectura distribuida, RDDs, DataFrames y Spark SQL, transformaciones avanzadas, Structured Streaming para datos en tiempo real, machine learning con MLlib y formatos lakehouse como Delta Lake. Al terminar construyes pipelines de datos escalables, dominas optimización y despliegue, y eres autónomo en proyectos de big data de banca, telco, retail o energía.
¿Prefieres verlo en directo? Agenda una demo sin compromiso.
Formación corporativa: este curso se activa bajo pedido para tu organización. Adaptamos temario, calendario y modalidad (teleformación, aula virtual o mixto).
Contenido del curso
Procesamiento distribuido de big data con Spark y Python.
-
Introducción a Apache Spark Lección
-
Arquitectura de Apache Spark Lección
-
Modelo de ejecución de Spark Lección
-
PySpark vs Spark Scala Lección
-
Test de fundamentos de Apache Spark Test
Detalles del curso
Público objetivo
- Ingenieros de datos que procesan grandes volúmenes de información en entornos distribuidos.
- Científicos de datos que necesitan escalar sus análisis y modelos de machine learning a Big Data.
- Desarrolladores Python que trabajan con ETL, pipelines de datos o procesamiento en tiempo real.
- Profesionales de analítica y Business Intelligence que necesitan dominar herramientas de procesamiento distribuido modernas.
Contenido del certificado
Módulo 1: Fundamentos de Apache Spark Introducción a Apache Spark Arquitectura de Spark Modelo de ejecución PySpark vs Scala Módulo 2: Instalación y entorno de trabajo Instalación de PySpark SparkSession Spark Connect Spark UI Jupyter y Databricks Módulo 3: RDDs: Resilient Distributed Datasets Creación de RDDs Transformaciones de RDDs RDDs clave valor Acciones sobre RDDs Persistencia de RDDs Módulo 4: DataFrames Creación de DataFrames Esquemas y tipos de datos Lectura de datos Operaciones básicas con DataFrames Agrupación y agregación Ordenación y conjuntos Pandas API on Spark Módulo 5: Spark SQL Vistas temporales y SQL Joins Window functions UDFs Catalyst Optimizer Módulo 6: Transformaciones avanzadas Pivot y unpivot Arrays y explode Maps y structs Funciones de fecha Funciones de cadena Nulos y condicionales Módulo 7: Structured Streaming Introducción a Streaming readStream writeStream Watermarks y ventanas Streaming con Kafka Módulo 8: Machine Learning con MLlib Pipelines ML Feature engineering Clasificación Regresión Clustering y PCA Evaluación y tuning Sistemas de recomendación Integraciones ML Módulo 9: Producción y optimización Particionamiento Escritura de datos Delta Lake Broadcast y accumulators Optimización de rendimiento Testing spark submit y despliegue en producción
Este curso completo de PySpark recorre la API de Python para Apache Spark de principio a fin: desde la arquitectura driver executor, Spark Connect y el modelo de ejecución hasta el despliegue en producción con spark submit, pasando por RDDs, DataFrames, Pandas API on Spark, Spark SQL con joins y window functions, UDFs, transformaciones avanzadas (pivot, explode, funciones de fecha y cadena), Structured Streaming con integración Kafka, machine learning distribuido con MLlib (pipelines, clasificación, regresión, clustering, sistemas de recomendación, evaluación e integraciones con scikit learn, PyTorch y XGBoost), Delta Lake para data lakehouse, testing de pipelines y optimización de rendimiento con particionamiento, broadcast y caché.
Objetivos de aprendizaje
- Dominar la arquitectura de Apache Spark y configurar entornos de trabajo con PySpark.
- Trabajar con RDDs y DataFrames para procesamiento de datos a gran escala.
- Escribir consultas complejas con Spark SQL, joins, window functions y UDFs.
- Aplicar transformaciones avanzadas sobre datos estructurados y semiestructurados.
- Implementar pipelines de procesamiento en tiempo real con Structured Streaming.
- Construir modelos de machine learning distribuidos con MLlib.
- Optimizar y desplegar aplicaciones PySpark en entornos de producción.
Otros cursos de PySpark
PySpark - Fundamentos
Curso de fundamentos de Apache Spark con PySpark, dirigido a profesionales que arrancan con procesamiento distribuido en proyectos empresariales. Cubre el modelo de ejecución de Spark, instalación y SparkSession, RDDs como abstracción base y DataFrames con esquemas, lecturas de datos y operaciones de transformación. Al terminar entiendes la arquitectura distribuida y puedes construir tus primeros pipelines escalables sobre clústeres Spark gestionados o on-premise.
PySpark - Producción y optimización
Curso centrado en llevar aplicaciones PySpark a producción con criterios profesionales de rendimiento y operación. Aprendes particionamiento eficiente, planificación de joins, gestión de memoria y caché, testing de pipelines de datos y despliegue sobre clústeres Spark gestionados u on-premise. Al terminar puedes optimizar trabajos lentos, anticipar cuellos de botella y dejar pipelines estables y observables en entornos empresariales reales.
PySpark - Spark SQL y Transformaciones avanzadas
Curso avanzado de PySpark dedicado a Spark SQL y a las transformaciones complejas que aparecen en proyectos reales de datos. Profundizas en consultas SQL distribuidas, funciones de ventana, joins entre grandes tablas, agregaciones complejas, manejo de datos anidados y patrones de transformación que combinan API DataFrame y SQL. Al terminar resuelves con soltura los casos de analítica avanzada y migración SQL → Spark típicos de proyectos empresariales de big data.
PySpark - Structured Streaming y Machine learning con MLlib
Curso de PySpark centrado en procesamiento de datos en tiempo real y machine learning a gran escala con MLlib. Aprendes Structured Streaming para construir pipelines reactivos sobre fuentes continuas, ventanas temporales, gestión de estado y exactly-once, y MLlib para entrenar modelos distribuidos de clasificación, regresión, recomendación y clustering. Al terminar puedes diseñar sistemas analíticos que combinan streaming y ML en proyectos empresariales de datos a gran escala.
Forma equipos completos con un itinerario
Este curso aparece dentro de las siguientes carreras corporativas.
Data Engineering
Carrera profesional de Data Engineering para equipos que construyen plataformas de datos corporativas: Python, SQL, pandas, streaming con Kafka, orquestación con Airflow, transformación con dbt, procesamiento distribuido con PySpark y Databricks para implantar data lakehouses y pipelines ETL/ELT robustos.
IA para Ciencia de Datos
Carrera profesional de ciencia de datos e IA para equipos que construyen modelos predictivos, sistemas de ML y pipelines de deep learning en producción: Python, SQL, análisis con NumPy y pandas, visualización, machine learning con scikit-learn, deep learning con TensorFlow y PyTorch, Transformers de Hugging Face, PySpark y MLOps.
¿Formación para tu equipo en esta tecnología?
Tú nos dices a quién formar y nosotros configuramos la plataforma con tu marca, damos de alta a tu gente, evaluamos las entregas con IA y te entregamos los certificados y los informes técnicos para tu gestor FUNDAE. Catálogo amplio con teleformación, aula virtual o mixto. Sin permanencia, sin coste de setup.
¿Prefieres verlo en directo? Agenda una demo.
Preguntas frecuentes
- ¿PySpark / Apache Spark es bonificable por FUNDAE para mi empresa?
- Puede ser bonificable cuando la acción cumple los requisitos aplicables. La plataforma aporta evidencias técnicas: seguimiento de tiempos, registro de conexiones, foros, encuestas y certificados para que tu entidad organizadora o gestoría revise la documentación.
- ¿En qué modalidades se imparte PySpark / Apache Spark?
- En tres modalidades: teleformación (online asíncrona), aula virtual privada en directo y mixta. Adaptamos temario, calendario y modalidad al equipo.
- ¿Se adapta PySpark / Apache Spark al nivel de mi equipo?
- Sí. Adaptamos temario, calendario y modalidad al nivel y al stack del equipo, con ejercicios evaluados por IA y certificado verificable.
- ¿Cuánto tarda en activarse para mi empresa?
- La activación corporativa estándar es rápida, sin coste de setup ni permanencia.