Modelos

Intermedio
OpenAI
OpenAI
Actualizado: 22/11/2025

OpenAI Model Spec

El Model Spec es la especificación pública que define cómo OpenAI espera que sus modelos se comporten, tanto en ChatGPT como en los modelos disponibles mediante API. Este documento no constituye un paper técnico sobre arquitectura de redes neuronales, sino una guía de comportamiento que establece objetivos, reglas y comportamientos predeterminados.

La especificación aborda aspectos críticos como la priorización de instrucciones, el manejo de datos potencialmente no confiables, las respuestas apropiadas en conversaciones sensibles relacionadas con salud mental, autolesiones o asesoramiento financiero, y la utilización adecuada de salidas de herramientas externas. Esta documentación resulta fundamental para desarrolladores que necesitan comprender las limitaciones y capacidades esperadas de los modelos en diferentes contextos.

Puedes consultar la especificación completa en model-spec.openai.com y su repositorio en GitHub. La documentación técnica actualizada de todos los modelos disponibles se encuentra en platform.openai.com/docs/models.

Modelos GPT

La familia GPT representa los modelos de propósito general de OpenAI, diseñados para una amplia variedad de tareas de procesamiento de lenguaje natural. La serie GPT-5, lanzada en 2025, introduce mejoras significativas en razonamiento, capacidades multimodales y ventanas de contexto ampliadas.

GPT-5 y GPT-5.1

GPT-5 es el modelo principal de OpenAI, lanzado en agosto de 2025. Este modelo destaca por su ventana de contexto de un millón de tokens, capacidades multimodales (texto, imagen, audio y vídeo) y memoria persistente que mejora la coherencia en conversaciones largas:

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5",
    messages=[
        {"role": "user", "content": "Explica las diferencias entre programación funcional y orientada a objetos"}
    ]
)

print(response.choices[0].message.content)

GPT-5 mini proporciona una versión optimizada para aplicaciones que requieren equilibrio entre rendimiento y coste. Mantiene gran parte de las capacidades del modelo principal pero con tiempos de respuesta más rápidos y menor precio, siendo ideal para chatbots, clasificación de textos y procesamiento de alto volumen.

GPT-5 nano es la versión más ligera de la serie, diseñada específicamente para aplicaciones que priorizan la velocidad y la eficiencia de recursos. Resulta especialmente útil para dispositivos con restricciones de memoria o aplicaciones que requieren latencia mínima.

GPT-5.1, lanzado en noviembre de 2025, es una versión especializada enfocada en razonamiento avanzado y generación de código. Este modelo introduce dos modos de operación:

  • GPT-5.1 Instant: Optimizado para respuestas rápidas cuando el razonamiento profundo no es necesario.
  • GPT-5.1 Thinking: Diseñado para problemas que requieren análisis multi-etapa y razonamiento complejo.
response = client.chat.completions.create(
    model="gpt-5.1",
    messages=[
        {"role": "user", "content": "Desarrolla un algoritmo para optimizar rutas de entrega considerando tráfico en tiempo real"}
    ]
)

print(response.choices[0].message.content)

El modelo descompone problemas complejos paso a paso, generando una cadena de razonamiento interna que mejora la calidad de las soluciones. Además, permite personalización del tono y estilo de respuesta según las necesidades de cada aplicación.

Modelos Open Source

OpenAI ha liberado modelos open source bajo licencia Apache 2.0, permitiendo a desarrolladores, empresas y académicos ejecutar modelos de lenguaje localmente sin depender exclusivamente de APIs en la nube. Esta iniciativa democratiza el acceso a tecnología de inteligencia artificial avanzada.

GPT-OSS-120B es el modelo más avanzado de código abierto, con 117 mil millones de parámetros totales. Utiliza arquitectura Transformer con técnica mixture-of-experts (MoE), permitiendo razonamiento eficiente con contextos de hasta 128.000 tokens. Puede ejecutarse en una sola GPU de 80 GB, haciéndolo accesible para organizaciones medianas:

# Ejemplo de uso local con GPT-OSS-120B utilizando la librería huggingface transformers
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-120b")
tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-120b")

inputs = tokenizer("Explica machine learning", return_tensors="pt")
outputs = model.generate(**inputs, max_length=200)

print(tokenizer.decode(outputs[0]))

GPT-OSS-20B proporciona una alternativa más ligera optimizada para entornos con recursos limitados, requiriendo solo 16 GB de memoria. Mantiene capacidades sólidas de comprensión y generación de texto, siendo ideal para aplicaciones en dispositivos edge o infraestructuras con restricciones hardware.

Estos modelos pueden descargarse y ejecutarse localmente, permitiendo privacidad completa de datos, personalización mediante fine-tuning con datos propios, y eliminación de dependencias de servicios externos. Son especialmente útiles para organizaciones con requisitos estrictos de confidencialidad, sectores regulados o entornos desconectados de internet.

Modelos de imagen

OpenAI ofrece modelos especializados en generación de imágenes a partir de descripciones textuales, permitiendo crear visualizaciones originales para múltiples aplicaciones.

DALL-E 3 es el modelo de tercera generación que proporciona capacidades avanzadas de generación de imágenes con mayor fidelidad a las instrucciones textuales y mejor comprensión de conceptos complejos:

response = client.images.generate(
    model="dall-e-3",
    prompt="Un espacio de trabajo moderno con múltiples pantallas mostrando código Python, iluminación natural, estilo fotorrealista",
    size="1024x1024",
    quality="standard",
    n=1
)

image_url = response.data[0].url
print(f"Imagen generada: {image_url}")

GPT-Image-1 representa un modelo integrado que combina capacidades de comprensión y generación de imágenes dentro del ecosistema GPT, permitiendo flujos de trabajo más cohesivos donde el análisis y generación visual se integran directamente con procesamiento de lenguaje natural.

Modelos de vídeo

Sora 2 constituye el modelo de OpenAI para generación de vídeo a partir de descripciones textuales. Este modelo permite crear secuencias de vídeo coherentes con duración de hasta un minuto, manteniendo consistencia visual y temporal.

El modelo comprende física básica, movimiento de objetos y comportamientos realistas, permitiendo generar escenas complejas con múltiples personajes, movimientos de cámara específicos y estilos visuales diversos. Las aplicaciones incluyen prototipado rápido de conceptos visuales, generación de contenido educativo, y exploración creativa de ideas.

Modelos de embeddings

Los modelos de embeddings transforman texto en representaciones vectoriales numéricas que capturan el significado semántico, facilitando tareas de búsqueda, clasificación, agrupación y análisis de similitud. La serie 3 representa los modelos actuales, ofreciendo mejoras sustanciales frente a generaciones anteriores.

text-embedding-3-large es el modelo de embeddings más avanzado disponible, generando vectores de hasta 3072 dimensiones que capturan matices semánticos complejos. Ofrece rendimiento superior en benchmarks como MIRACL y MTEB:

response = client.embeddings.create(
    model="text-embedding-3-large",
    input="El aprendizaje automático transforma datos en conocimiento accionable"
)

embedding = response.data[0].embedding
print(f"Dimensiones del vector: {len(embedding)}")

El modelo permite ajustar la dimensionalidad mediante el parámetro dimensions, ofreciendo flexibilidad para equilibrar precisión y uso de recursos:

# Reducir dimensionalidad para optimizar costes
response = client.embeddings.create(
    model="text-embedding-3-large",
    input="Texto para análisis",
    dimensions=1024  # Reducido desde 3072
)

text-embedding-3-small ofrece una alternativa más eficiente con menor dimensionalidad y coste reducido, ideal para aplicaciones que procesan grandes volúmenes de texto donde la velocidad y el presupuesto son prioritarios. Mantiene rendimiento competitivo en la mayoría de casos de uso.

Modelos de audio

Whisper es el modelo de OpenAI para transcripción y traducción de audio. Este modelo soporta múltiples idiomas y ofrece robustez frente a ruido de fondo, acentos diversos y calidad variable de audio:

audio_file = open("conferencia.mp3", "rb")

transcript = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
    language="es"
)

print(transcript.text)

El modelo puede transcribir audio en el idioma original o traducir automáticamente a inglés, facilitando la accesibilidad de contenido multimedia y la creación de subtítulos automáticos.

Model snapshots

Los model snapshots representan versiones específicas y fijas de modelos en momentos concretos de su evolución. Utilizar snapshots en lugar de alias genéricos resulta fundamental para garantizar reproducibilidad y estabilidad en aplicaciones productivas.

Por ejemplo, especificar gpt-5-2025-08-07 en lugar de simplemente gpt-5 asegura que tu aplicación utilizará exactamente esa versión del modelo, independientemente de futuras actualizaciones. Si usas el alias genérico gpt-5, este apuntará automáticamente a la versión más reciente de esa familia, lo que podría introducir cambios de comportamiento inesperados en producción sin previo aviso.

# Recomendado: snapshot específico para producción
response = client.chat.completions.create(
    model="gpt-5-2025-08-07",
    messages=[{"role": "user", "content": "Analiza este código"}]
)

# Evitar en producción: alias genérico
response = client.chat.completions.create(
    model="gpt-5",  # Podría apuntar a una nueva versión en cualquier momento
    messages=[{"role": "user", "content": "Analiza este código"}]
)

Esta práctica resulta especialmente crítica en aplicaciones donde la consistencia es importante: sistemas de clasificación automática, generación de informes estructurados, pipelines de procesamiento de datos, o cualquier flujo que dependa de formatos específicos de salida. Los snapshots garantizan que tu aplicación se comporte de manera predecible incluso cuando OpenAI lance nuevas versiones.

La documentación oficial de OpenAI proporciona información actualizada sobre los snapshots disponibles, sus capacidades específicas y las fechas de discontinuación planificadas, permitiendo planificar migraciones con antelación.

Fuentes y referencias

Documentación oficial y recursos externos para profundizar en OpenAI

Documentación oficial de OpenAI
Alan Sastre - Autor del tutorial

Alan Sastre

Ingeniero de Software y formador, CEO en CertiDevs

Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, OpenAI es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.

Más tutoriales de OpenAI

Explora más contenido relacionado con OpenAI y continúa aprendiendo con nuestros tutoriales gratuitos.

Aprendizajes de esta lección

  • Conocer las principales familias de modelos de OpenAI y sus características.
  • Diferenciar entre modelos de propósito general y modelos especializados en razonamiento.
  • Comprender cómo seleccionar un modelo según la naturaleza y complejidad de la tarea.
  • Evaluar la importancia de la velocidad, coste y precisión en la elección del modelo.
  • Aplicar estrategias prácticas para optimizar recursos combinando diferentes modelos.

Cursos que incluyen esta lección

Esta lección forma parte de los siguientes cursos estructurados con rutas de aprendizaje