Hugging Face Transformers es la biblioteca de referencia para trabajar con modelos transformer preentrenados en tareas de procesamiento de lenguaje natural, visión por computador y multimodalidad. Con acceso a miles de modelos en el Hugging Face Hub, Transformers proporciona una API unificada para cargar, ejecutar, ajustar y desplegar modelos de última generación como BERT, GPT, T5, LLaMA, Mistral, ViT y CLIP.
La biblioteca abstrae la complejidad de las diferentes arquitecturas transformer detrás de clases Auto (AutoModel, AutoTokenizer) y una API de pipeline que permite ejecutar tareas complejas en pocas líneas de código. Para casos que requieren personalización, ofrece el Trainer API para fine-tuning completo e integración con PEFT para técnicas eficientes como LoRA y QLoRA que permiten adaptar modelos grandes con recursos limitados.
Este itinerario cubre Transformers de principio a fin: desde los fundamentos teóricos de la arquitectura transformer hasta el despliegue optimizado en producción, pasando por pipeline, modelos y tokenizers, fine-tuning, generación de texto, NLP avanzado con RAG y modelos multimodales de visión.
Qué incluye este itinerario
- Fundamentos: arquitectura transformer, mecanismo de atención, evolución de modelos y ecosistema Hugging Face (Hub, Spaces, Datasets).
- Instalación y entorno: instalación, Hub API, descarga de modelos, configuración de GPU y Accelerate.
- Pipeline API: interfaz de alto nivel para clasificación, NER, QA, summarization, translation y generación de texto.
- Modelos y tokenizers: AutoModel, AutoTokenizer, arquitecturas (BERT, GPT, T5, LLaMA) y estrategias de tokenización (BPE, WordPiece, SentencePiece).
- Fine-tuning: Trainer API, preparación de datasets, fine-tuning para clasificación y LoRA/QLoRA con PEFT.
- Generación de texto: sampling (temperature, top_k, top_p), beam search, stopping criteria, streaming y chat templates.
- NLP avanzado: embeddings, sentence-transformers, búsqueda semántica, zero-shot classification y RAG.
- Visión y multimodal: Visión Transformers (ViT), detección de objetos, CLIP, LLaVA y modelos multimodales.
- Producción: cuantización (bitsandbytes, GPTQ, AWQ), exportación ONNX, servidores de inferencia (TGI, vLLM) e Inference Endpoints.
Público objetivo
- Desarrolladores Python que quieren integrar modelos de IA de última generación en sus aplicaciones.
- Científicos de datos e ingenieros de machine learning que necesitan fine-tuning y despliegue de modelos transformer.
- Investigadores que buscan experimentar con arquitecturas preentrenadas y técnicas de NLP avanzado.
- Equipos de MLOps que necesitan optimizar y desplegar modelos en producción con baja latencia y alto throughput.
Prerrequisitos: conocimientos de Python, familiaridad con conceptos básicos de machine learning (entrenamiento, validación, métricas) y nociones de PyTorch o TensorFlow.