¿PySpark / Apache Spark es bonificable por FUNDAE para mi empresa?

Puede ser bonificable cuando la acción cumple los requisitos aplicables. La plataforma aporta evidencias técnicas: seguimiento de tiempos, registro de conexiones, foros, encuestas y certificados para que tu entidad organizadora o gestoría revise la documentación.

¿En qué modalidades se imparte PySpark / Apache Spark?

En tres modalidades: teleformación (online asíncrona), aula virtual privada en directo y mixta. Adaptamos temario, calendario y modalidad al equipo.

¿Se adapta PySpark / Apache Spark al nivel de mi equipo?

Sí. Adaptamos temario, calendario y modalidad al nivel y al stack del equipo, con ejercicios evaluados por IA y certificado verificable.

¿Cuánto tarda en activarse para mi empresa?

La activación corporativa estándar es rápida, sin coste de setup ni permanencia.

Curso completo Nivel medio certificado-completo-pyspark-apache-spark

PySpark / Apache Spark

Name: PySpark / Apache Spark
Availability: InStock

PySpark ·Big Data·Ciencia de Datos

Curso integral de PySpark para procesar grandes volúmenes de datos con Apache Spark y Python en entornos empresariales y plataformas cloud. Cubre arquitectura distribuida, RDDs, DataFrames y Spark SQL, transformaciones avanzadas, Structured Streaming para datos en tiempo real, machine learning con MLlib y formatos lakehouse como Delta Lake. Al terminar construyes pipelines de datos escalables, dominas optimización y despliegue, y eres autónomo en proyectos de big data de banca, telco, retail o energía.

Evidencias FUNDAE Activación guiada Evaluación con IA Sin permanencia

Solicitar este curso para mi equipo Probar la plataforma

¿Prefieres verlo en directo? Agenda una demo sin compromiso.

Formación corporativa: este curso se activa bajo pedido para tu organización. Adaptamos temario, calendario y modalidad (teleformación, aula virtual o mixto).

Contenido del curso

Procesamiento distribuido de big data con Spark y Python.

9 módulos 52 lecciones 10 ejercicios evaluados por IA 9 tests

1 Fundamentos de Apache Spark 4 1

Introducción a Apache Spark Lección
Arquitectura de Apache Spark Lección
Modelo de ejecución de Spark Lección
PySpark vs Spark Scala Lección
Test de fundamentos de Apache Spark Test

2 Instalación y entorno de trabajo 5 1

3 RDDs: Resilient Distributed Datasets 5 1

4 DataFrames: creación, esquema y operaciones 7 2 1

5 Spark SQL 5 2 1

6 Transformaciones avanzadas 6 1 1

7 Structured Streaming 5 2 1

8 Machine learning con MLlib 8 1 1

9 Producción y optimización 7 2 1

Público objetivo

Ingenieros de datos que procesan grandes volúmenes de información en entornos distribuidos.
Científicos de datos que necesitan escalar sus análisis y modelos de machine learning a Big Data.
Desarrolladores Python que trabajan con ETL, pipelines de datos o procesamiento en tiempo real.
Profesionales de analítica y Business Intelligence que necesitan dominar herramientas de procesamiento distribuido modernas.

Contenido del certificado

Módulo 1: Fundamentos de Apache Spark Introducción a Apache Spark Arquitectura de Spark Modelo de ejecución PySpark vs Scala Módulo 2: Instalación y entorno de trabajo Instalación de PySpark SparkSession Spark Connect Spark UI Jupyter y Databricks Módulo 3: RDDs: Resilient Distributed Datasets Creación de RDDs Transformaciones de RDDs RDDs clave valor Acciones sobre RDDs Persistencia de RDDs Módulo 4: DataFrames Creación de DataFrames Esquemas y tipos de datos Lectura de datos Operaciones básicas con DataFrames Agrupación y agregación Ordenación y conjuntos Pandas API on Spark Módulo 5: Spark SQL Vistas temporales y SQL Joins Window functions UDFs Catalyst Optimizer Módulo 6: Transformaciones avanzadas Pivot y unpivot Arrays y explode Maps y structs Funciones de fecha Funciones de cadena Nulos y condicionales Módulo 7: Structured Streaming Introducción a Streaming readStream writeStream Watermarks y ventanas Streaming con Kafka Módulo 8: Machine Learning con MLlib Pipelines ML Feature engineering Clasificación Regresión Clustering y PCA Evaluación y tuning Sistemas de recomendación Integraciones ML Módulo 9: Producción y optimización Particionamiento Escritura de datos Delta Lake Broadcast y accumulators Optimización de rendimiento Testing spark submit y despliegue en producción

Este curso completo de PySpark recorre la API de Python para Apache Spark de principio a fin: desde la arquitectura driver executor, Spark Connect y el modelo de ejecución hasta el despliegue en producción con spark submit, pasando por RDDs, DataFrames, Pandas API on Spark, Spark SQL con joins y window functions, UDFs, transformaciones avanzadas (pivot, explode, funciones de fecha y cadena), Structured Streaming con integración Kafka, machine learning distribuido con MLlib (pipelines, clasificación, regresión, clustering, sistemas de recomendación, evaluación e integraciones con scikit learn, PyTorch y XGBoost), Delta Lake para data lakehouse, testing de pipelines y optimización de rendimiento con particionamiento, broadcast y caché.

Objetivos de aprendizaje

Dominar la arquitectura de Apache Spark y configurar entornos de trabajo con PySpark.
Trabajar con RDDs y DataFrames para procesamiento de datos a gran escala.
Escribir consultas complejas con Spark SQL, joins, window functions y UDFs.
Aplicar transformaciones avanzadas sobre datos estructurados y semiestructurados.
Implementar pipelines de procesamiento en tiempo real con Structured Streaming.
Construir modelos de machine learning distribuidos con MLlib.
Optimizar y desplegar aplicaciones PySpark en entornos de producción.

Otros cursos de PySpark

Especialización ·Nivel medio

PySpark - Fundamentos

Curso de fundamentos de Apache Spark con PySpark, dirigido a profesionales que arrancan con procesamiento distribuido en proyectos empresariales. Cubre el modelo de ejecución de Spark, instalación y SparkSession, RDDs como abstracción base y DataFrames con esquemas, lecturas de datos y operaciones de transformación. Al terminar entiendes la arquitectura distribuida y puedes construir tus primeros pipelines escalables sobre clústeres Spark gestionados o on-premise.

Especialización ·Nivel medio

PySpark - Producción y optimización

Curso centrado en llevar aplicaciones PySpark a producción con criterios profesionales de rendimiento y operación. Aprendes particionamiento eficiente, planificación de joins, gestión de memoria y caché, testing de pipelines de datos y despliegue sobre clústeres Spark gestionados u on-premise. Al terminar puedes optimizar trabajos lentos, anticipar cuellos de botella y dejar pipelines estables y observables en entornos empresariales reales.

Especialización ·Nivel medio

PySpark - Spark SQL y Transformaciones avanzadas

Curso avanzado de PySpark dedicado a Spark SQL y a las transformaciones complejas que aparecen en proyectos reales de datos. Profundizas en consultas SQL distribuidas, funciones de ventana, joins entre grandes tablas, agregaciones complejas, manejo de datos anidados y patrones de transformación que combinan API DataFrame y SQL. Al terminar resuelves con soltura los casos de analítica avanzada y migración SQL → Spark típicos de proyectos empresariales de big data.

Especialización ·Nivel medio

PySpark - Structured Streaming y Machine learning con MLlib

Curso de PySpark centrado en procesamiento de datos en tiempo real y machine learning a gran escala con MLlib. Aprendes Structured Streaming para construir pipelines reactivos sobre fuentes continuas, ventanas temporales, gestión de estado y exactly-once, y MLlib para entrenar modelos distribuidos de clasificación, regresión, recomendación y clustering. Al terminar puedes diseñar sistemas analíticos que combinan streaming y ML en proyectos empresariales de datos a gran escala.

Carreras que incluyen este curso

Forma equipos completos con un itinerario

Este curso aparece dentro de las siguientes carreras corporativas.

Itinerario completo

Data Engineering

Carrera profesional de Data Engineering para equipos que construyen plataformas de datos corporativas: Python, SQL, pandas, streaming con Kafka, orquestación con Airflow, transformación con dbt, procesamiento distribuido con PySpark y Databricks para implantar data lakehouses y pipelines ETL/ELT robustos.

Itinerario completo

IA para Ciencia de Datos

Carrera profesional de ciencia de datos e IA para equipos que construyen modelos predictivos, sistemas de ML y pipelines de deep learning en producción: Python, SQL, análisis con NumPy y pandas, visualización, machine learning con scikit-learn, deep learning con TensorFlow y PyTorch, Transformers de Hugging Face, PySpark y MLOps.

Llave en mano para empresas

¿Formación para tu equipo en esta tecnología?

Tú nos dices a quién formar y nosotros configuramos la plataforma con tu marca, damos de alta a tu gente, evaluamos las entregas con IA y te entregamos los certificados y los informes técnicos para tu gestor FUNDAE. Catálogo amplio con teleformación, aula virtual o mixto. Sin permanencia, sin coste de setup.

Solicitar formación para tu equipo Probar la plataforma

¿Prefieres verlo en directo? Agenda una demo.

Preguntas frecuentes

¿PySpark / Apache Spark es bonificable por FUNDAE para mi empresa?: Puede ser bonificable cuando la acción cumple los requisitos aplicables. La plataforma aporta evidencias técnicas: seguimiento de tiempos, registro de conexiones, foros, encuestas y certificados para que tu entidad organizadora o gestoría revise la documentación.
¿En qué modalidades se imparte PySpark / Apache Spark?: En tres modalidades: teleformación (online asíncrona), aula virtual privada en directo y mixta. Adaptamos temario, calendario y modalidad al equipo.
¿Se adapta PySpark / Apache Spark al nivel de mi equipo?: Sí. Adaptamos temario, calendario y modalidad al nivel y al stack del equipo, con ejercicios evaluados por IA y certificado verificable.
¿Cuánto tarda en activarse para mi empresa?: La activación corporativa estándar es rápida, sin coste de setup ni permanencia.

PySpark / Apache Spark

Contenido del curso

Detalles del curso

Público objetivo

Contenido del certificado

Objetivos de aprendizaje

Otros cursos de PySpark

PySpark - Fundamentos

PySpark - Producción y optimización

PySpark - Spark SQL y Transformaciones avanzadas

PySpark - Structured Streaming y Machine learning con MLlib

Forma equipos completos con un itinerario

Data Engineering

IA para Ciencia de Datos

¿Formación para tu equipo en esta tecnología?

Preguntas frecuentes