PySpark / Apache Spark
Curso integral de PySpark para procesar grandes volúmenes de datos con Apache Spark y Python en entornos empresariales y plataformas cloud. Cubre arquitectura distribuida, RDDs, DataFrames y Spark SQL, transformaciones avanzadas, Structured Streaming para datos en tiempo real, machine learning con MLlib y formatos lakehouse como Delta Lake. Al terminar construyes pipelines de datos escalables, dominas optimización y despliegue, y eres autónomo en proyectos de big data de banca, telco, retail o energía.
Estructura del curso
- Introducción a Apache Spark Lección
- Arquitectura de Apache Spark Lección
- Modelo de ejecución de Spark Lección
- PySpark vs Spark Scala Lección
- Test de fundamentos de Apache Spark Test
Detalles del curso
Público objetivo
- Ingenieros de datos que procesan grandes volúmenes de información en entornos distribuidos.
- Científicos de datos que necesitan escalar sus análisis y modelos de machine learning a Big Data.
- Desarrolladores Python que trabajan con ETL, pipelines de datos o procesamiento en tiempo real.
- Profesionales de analítica y Business Intelligence que necesitan dominar herramientas de procesamiento distribuido modernas.
Contenido del certificado
Módulo 1: Fundamentos de Apache Spark Introducción a Apache Spark Arquitectura de Spark Modelo de ejecución PySpark vs Scala Módulo 2: Instalación y entorno de trabajo Instalación de PySpark SparkSession Spark Connect Spark UI Jupyter y Databricks Módulo 3: RDDs: Resilient Distributed Datasets Creación de RDDs Transformaciones de RDDs RDDs clave valor Acciones sobre RDDs Persistencia de RDDs Módulo 4: DataFrames Creación de DataFrames Esquemas y tipos de datos Lectura de datos Operaciones básicas con DataFrames Agrupación y agregación Ordenación y conjuntos Pandas API on Spark Módulo 5: Spark SQL Vistas temporales y SQL Joins Window functions UDFs Catalyst Optimizer Módulo 6: Transformaciones avanzadas Pivot y unpivot Arrays y explode Maps y structs Funciones de fecha Funciones de cadena Nulos y condicionales Módulo 7: Structured Streaming Introducción a Streaming readStream writeStream Watermarks y ventanas Streaming con Kafka Módulo 8: Machine Learning con MLlib Pipelines ML Feature engineering Clasificación Regresión Clustering y PCA Evaluación y tuning Sistemas de recomendación Integraciones ML Módulo 9: Producción y optimización Particionamiento Escritura de datos Delta Lake Broadcast y accumulators Optimización de rendimiento Testing spark submit y despliegue en producción
Este curso completo de PySpark recorre la API de Python para Apache Spark de principio a fin: desde la arquitectura driver executor, Spark Connect y el modelo de ejecución hasta el despliegue en producción con spark submit, pasando por RDDs, DataFrames, Pandas API on Spark, Spark SQL con joins y window functions, UDFs, transformaciones avanzadas (pivot, explode, funciones de fecha y cadena), Structured Streaming con integración Kafka, machine learning distribuido con MLlib (pipelines, clasificación, regresión, clustering, sistemas de recomendación, evaluación e integraciones con scikit learn, PyTorch y XGBoost), Delta Lake para data lakehouse, testing de pipelines y optimización de rendimiento con particionamiento, broadcast y caché.
Objetivos de aprendizaje
- Dominar la arquitectura de Apache Spark y configurar entornos de trabajo con PySpark.
- Trabajar con RDDs y DataFrames para procesamiento de datos a gran escala.
- Escribir consultas complejas con Spark SQL, joins, window functions y UDFs.
- Aplicar transformaciones avanzadas sobre datos estructurados y semiestructurados.
- Implementar pipelines de procesamiento en tiempo real con Structured Streaming.
- Construir modelos de machine learning distribuidos con MLlib.
- Optimizar y desplegar aplicaciones PySpark en entornos de producción.
Antes de comprar
¿Cuánto dura el acceso?
Acceso permanente. El curso queda asociado a tu cuenta para siempre, con todas las lecciones, ejercicios y certificado.
¿Incluye certificado?
Sí. Al superar el curso recibes un certificado con QR público verificable. La URL del certificado es pública: puedes compartirla en LinkedIn o con un empleador sin que necesiten una cuenta CertiDevs.
¿Puedo pedir factura con NIF?
Sí. En el proceso de compra puedes indicar datos de facturación con NIF español o europeo. Stripe emite la factura electrónica automáticamente.
¿Hay devolución?
Sí. Devolución íntegra dentro de los 14 días naturales desde la compra siempre que no se haya consumido el contenido. Escríbenos a hola@certidevs.com con el correo de tu cuenta y procesamos el reembolso.
Otras formas de aprender
Toma de contacto con una tecnología antes de comprometerte con el itinerario completo.
Currículo completo por tecnología con ejercicios evaluados por IA y certificado verificable.
1, 3, 6 o 12 meses de acceso a todo el catálogo. El plan anual (120 €) equivale a 6 cursos sueltos.
Itinerario diseñado por ingenieros con varios cursos integrados y certificado de carrera.
¿Te lo paga tu empresa o lo quieres para tu equipo? Tenemos modelos corporativos sin permanencia.
Ver propuesta para empresas