Databricks es la plataforma lakehouse unificada de datos e inteligencia artificial, basada en Apache Spark y fundada por sus creadores. Ofrece un entorno colaborativo multi-lenguaje (Python, SQL, Scala y R) sobre notebooks, con compute clásico y serverless, para consolidar data engineering, analítica, machine learning e IA generativa sobre una única plataforma gobernada.
La plataforma se apoya en varios pilares. Unity Catalog en disponibilidad general centraliza la gobernanza sobre un único metastore por región con jerarquía de catálogos, esquemas, tablas, volumes y modelos, linaje automático de columnas, Lakehouse Federation hacia fuentes externas y Delta Sharing para compartir datos entre organizaciones. Delta Lake 3+ aporta transacciones ACID, time travel, schema evolution y Delta UniForm para interoperar con Apache Iceberg sin duplicar datos. Delta Live Tables define pipelines declarativos con expectations de calidad, streaming y despliegue serverless, y se apoya en Auto Loader con cloudFiles para ingesta incremental sobre volumes gestionados.
El stack de analítica e IA incluye DBSQL Serverless y dashboards, Databricks AI/BI con Genie rooms para analítica conversacional sobre tablas gobernadas, Databricks Assistant como copiloto integrado en notebooks, MLflow 2+ con Model Registry en Unity Catalog (aliases champion/challenger y linaje), Feature Store con online tables, Mosaic AI Model Serving con endpoints serverless y scale-to-zero para modelos propios, Foundation Model APIs (DBRX, Llama, Mixtral) y modelos externos, y Vector Search con índices gestionados sobre Delta y sincronización automática.
Este curso te guía desde los fundamentos de la arquitectura lakehouse hasta el despliegue de pipelines de datos e IA en producción con Databricks Workflows serverless y Databricks Asset Bundles. Aprenderás a procesar datos con Spark SQL y DataFrames, diseñar pipelines ETL con la medallion architecture, gobernar datos con Unity Catalog, entrenar y desplegar modelos con MLflow, construir aplicaciones de IA generativa con RAG, y entregar un proyecto integrador completo.
Qué incluye este itinerario
- Fundamentos: qué es Databricks, lakehouse architecture, workspace, clusters y notebooks multi-lenguaje.
- Instalación y entorno: Community Edition, configuración del workspace, notebooks y DBFS heredado frente a volumes.
- Spark SQL y DataFrames: consultas SQL, DataFrames con PySpark, transformaciones, acciones y lectura/escritura de datos.
- Delta Lake 3+: transacciones ACID, time travel, schema evolution, MERGE/UPDATE/DELETE, OPTIMIZE, Z-ORDER y Delta UniForm.
- ETL pipelines: medallion architecture (bronze/silver/gold), Auto Loader y Delta Live Tables serverless con data quality.
- Unity Catalog GA: metastore, catálogos, esquemas, tablas, volumes, gobernanza, linaje y Delta Sharing.
- Machine Learning: MLflow 2+, experiment tracking, Model Registry en UC, Feature Store y AutoML.
- GenAI: Mosaic AI Model Serving, Foundation Model APIs, Vector Search, RAG, AI Playground y Databricks Assistant.
- Producción: Workflows serverless, scheduling, observabilidad, gestión de costes y Databricks Asset Bundles.
- Proyecto integrador: pipeline end-to-end con Unity Catalog, Auto Loader, DLT, MLflow y AI/BI Genie orquestado con Workflows serverless.
Público objetivo
- Data engineers que necesitan construir y orquestar pipelines de datos escalables con Spark y Delta Lake.
- Data analysts que quieren aprovechar Spark SQL, notebooks y dashboards en una plataforma unificada.
- Data scientists e ingenieros de ML que buscan gestionar el ciclo de vida completo de modelos con MLflow y Feature Store.
- Arquitectos de datos que diseñan plataformas lakehouse con gobernanza, linaje y cumplimiento normativo.
- Equipos de plataforma que administran entornos Databricks y optimizan costes e infraestructura.
Prerrequisitos: conocimientos básicos de SQL y Python, familiaridad con conceptos de datos (tablas, transformaciones, ETL) y nociones de cloud computing.