Saltar al contenido principal
PySpark
19 € 40h Nivel medio

PySpark / Apache Spark

Curso integral de PySpark para procesar grandes volúmenes de datos con Apache Spark y Python en entornos empresariales y plataformas cloud. Cubre arquitectura distribuida, RDDs, DataFrames y Spark SQL, transformaciones avanzadas, Structured Streaming para datos en tiempo real, machine learning con MLlib y formatos lakehouse como Delta Lake. Al terminar construyes pipelines de datos escalables, dominas optimización y despliegue, y eres autónomo en proyectos de big data de banca, telco, retail o energía.

Certificado incluido Ejercicios evaluados por IA Acceso permanente Sin contrato ni cuotas

Estructura del curso

  • Introducción a Apache Spark Lección
  • Arquitectura de Apache Spark Lección
  • Modelo de ejecución de Spark Lección
  • PySpark vs Spark Scala Lección
  • Test de fundamentos de Apache Spark Test

Detalles del curso

Público objetivo

  • Ingenieros de datos que procesan grandes volúmenes de información en entornos distribuidos.
  • Científicos de datos que necesitan escalar sus análisis y modelos de machine learning a Big Data.
  • Desarrolladores Python que trabajan con ETL, pipelines de datos o procesamiento en tiempo real.
  • Profesionales de analítica y Business Intelligence que necesitan dominar herramientas de procesamiento distribuido modernas.

Contenido del certificado

Módulo 1: Fundamentos de Apache Spark Introducción a Apache Spark Arquitectura de Spark Modelo de ejecución PySpark vs Scala Módulo 2: Instalación y entorno de trabajo Instalación de PySpark SparkSession Spark Connect Spark UI Jupyter y Databricks Módulo 3: RDDs: Resilient Distributed Datasets Creación de RDDs Transformaciones de RDDs RDDs clave valor Acciones sobre RDDs Persistencia de RDDs Módulo 4: DataFrames Creación de DataFrames Esquemas y tipos de datos Lectura de datos Operaciones básicas con DataFrames Agrupación y agregación Ordenación y conjuntos Pandas API on Spark Módulo 5: Spark SQL Vistas temporales y SQL Joins Window functions UDFs Catalyst Optimizer Módulo 6: Transformaciones avanzadas Pivot y unpivot Arrays y explode Maps y structs Funciones de fecha Funciones de cadena Nulos y condicionales Módulo 7: Structured Streaming Introducción a Streaming readStream writeStream Watermarks y ventanas Streaming con Kafka Módulo 8: Machine Learning con MLlib Pipelines ML Feature engineering Clasificación Regresión Clustering y PCA Evaluación y tuning Sistemas de recomendación Integraciones ML Módulo 9: Producción y optimización Particionamiento Escritura de datos Delta Lake Broadcast y accumulators Optimización de rendimiento Testing spark submit y despliegue en producción

Este curso completo de PySpark recorre la API de Python para Apache Spark de principio a fin: desde la arquitectura driver executor, Spark Connect y el modelo de ejecución hasta el despliegue en producción con spark submit, pasando por RDDs, DataFrames, Pandas API on Spark, Spark SQL con joins y window functions, UDFs, transformaciones avanzadas (pivot, explode, funciones de fecha y cadena), Structured Streaming con integración Kafka, machine learning distribuido con MLlib (pipelines, clasificación, regresión, clustering, sistemas de recomendación, evaluación e integraciones con scikit learn, PyTorch y XGBoost), Delta Lake para data lakehouse, testing de pipelines y optimización de rendimiento con particionamiento, broadcast y caché.

Objetivos de aprendizaje

  • Dominar la arquitectura de Apache Spark y configurar entornos de trabajo con PySpark.
  • Trabajar con RDDs y DataFrames para procesamiento de datos a gran escala.
  • Escribir consultas complejas con Spark SQL, joins, window functions y UDFs.
  • Aplicar transformaciones avanzadas sobre datos estructurados y semiestructurados.
  • Implementar pipelines de procesamiento en tiempo real con Structured Streaming.
  • Construir modelos de machine learning distribuidos con MLlib.
  • Optimizar y desplegar aplicaciones PySpark en entornos de producción.

Antes de comprar

¿Cuánto dura el acceso?

Acceso permanente. El curso queda asociado a tu cuenta para siempre, con todas las lecciones, ejercicios y certificado.

¿Incluye certificado?

Sí. Al superar el curso recibes un certificado con QR público verificable. La URL del certificado es pública: puedes compartirla en LinkedIn o con un empleador sin que necesiten una cuenta CertiDevs.

¿Puedo pedir factura con NIF?

Sí. En el proceso de compra puedes indicar datos de facturación con NIF español o europeo. Stripe emite la factura electrónica automáticamente.

¿Hay devolución?

Sí. Devolución íntegra dentro de los 14 días naturales desde la compra siempre que no se haya consumido el contenido. Escríbenos a hola@certidevs.com con el correo de tu cuenta y procesamos el reembolso.

¿Te lo paga tu empresa o lo quieres para tu equipo? Tenemos modelos corporativos sin permanencia.

Ver propuesta para empresas