Parámetros de configuración en OpenAI para ajustar modelos

Parámetros principales: temperature, max_tokens, top_p, top_k

Los parámetros de configuración son valores que controlan el comportamiento del modelo durante la generación de texto. Cada parámetro influye en aspectos específicos como la creatividad, longitud y coherencia de las respuestas. Comprender estos parámetros te permitirá ajustar finamente el comportamiento del modelo según tus necesidades específicas.

Temperature

El parámetro temperature controla la aleatoriedad y creatividad en las respuestas del modelo. Su valor oscila entre 0.0 y 2.0, donde valores más bajos producen respuestas más deterministas y predecibles, mientras que valores más altos generan respuestas más creativas y variadas.

from openai import OpenAI

client = OpenAI()

# Temperature baja (0.2) - Respuestas más conservadoras
response_conservative = client.responses.create(
    model="gpt-4.1",
    input="Explica qué es la fotosíntesis",
    temperature=0.2
)

# Temperature alta (1.5) - Respuestas más creativas
response_creative = client.responses.create(
    model="gpt-4.1", 
    input="Explica qué es la fotosíntesis",
    temperature=1.5
)

Con temperature=0.2, obtendrás explicaciones técnicas precisas y consistentes. Con temperature=1.5, las respuestas serán más variadas, posiblemente usando analogías creativas o enfoques menos convencionales.

La temperatura controla la aleatoriedad y creatividad de las respuestas. Valores bajos hacen que el modelo sea más determinista y conservador, valores altos lo hacen más creativo pero menos predecible.

0.0 - 0.3: Tareas que requieren precisión (matemáticas, código, análisis técnico, traducción)
0.7 - 1.0: Escritura creativa, lluvia de ideas, conversación general
1.2 - 2.0: Experimentación extrema, poetry, contenido muy creativo

Max Tokens

El parámetro max_tokens establece el límite máximo de tokens que puede generar el modelo en su respuesta. Un token puede ser una palabra, parte de una palabra, o incluso un carácter, dependiendo del contexto.

# Respuesta corta limitada a 50 tokens
response_short = client.responses.create(
    model="gpt-4.1",
    input="Resume los beneficios del ejercicio físico",
    max_tokens=50
)

# Respuesta más extensa con límite de 300 tokens
response_long = client.responses.create(
    model="gpt-4.1",
    input="Resume los beneficios del ejercicio físico", 
    max_tokens=300
)

Es importante considerar que max_tokens incluye tanto el input como el output en el cómputo total. Si necesitas respuestas específicamente cortas o largas, este parámetro te permite controlar la extensión de manera precisa.

Top P (Nucleus Sampling) y Top K

Cuando un LLM genera la siguiente palabra, calcula una probabilidad para cada palabra posible del vocabulario.

Por ejemplo:

 Palabras candidatas:    Probabilidad
"gato"          →       35%
"perro"         →       25% 
"animal"        →       15%
"mamífero"      →       10%
"felino"        →        8%
"mascota"       →        4%
"cachorro"      →        2%
"león"          →        1%
...miles más...         →       0.001% cada una`

Top-K: Filtro por cantidad. Top-K corta por cantidad fija de candidatos más probables:

# Con Top-K = 3, solo considera las 3 más probables:
Candidatos finales:
"gato"     → 35%  ✓
"perro"    → 25%  ✓  
"animal"   → 15%  ✓
"mamífero" → 10%  ✗ (descartado)
"felino"   →  8%  ✗ (descartado)

Problema: Es rígido. A veces las top 3 suman 95% (muy claro qué elegir), otras veces suman solo 40% (mucha incertidumbre), pero siempre usa exactamente 3.

Top-P: Filtro por probabilidad acumulada. Top-P es dinámico. Suma probabilidades hasta alcanzar el umbral:

# Con Top-P = 0.75 (75%), suma hasta llegar a ese %:
"gato"     → 35%  (acumulado: 35%)  ✓
"perro"    → 25%  (acumulado: 60%)  ✓  
"animal"   → 15%  (acumulado: 75%)  ✓ ← Llega al 75%
"mamífero" → 10%  ✗ (se detiene aquí)

Ventaja: Se adapta al contexto. Si hay mucha certeza, usa pocas palabras. Si hay incertidumbre, considera más opciones. Top-P es generalmente mejor porque se adapta al contexto.

En la práctica:

Solo Top-P: Valor típico 0.9 (considera el 90% de probabilidad acumulada)
Top-K + Top-P: Primero filtra Top-K, luego aplica Top-P sobre ese subconjunto
Solo Top-K: Menos común, valores típicos 20-50

El parámetro top_p implementa el muestreo nucleus, seleccionando tokens cuya probabilidad acumulada alcance el valor especificado. Los valores oscilan entre 0.0 y 1.0, donde valores más bajos resultan en respuestas más enfocadas y valores más altos permiten mayor diversidad.

# Top_p bajo (0.1) - Selección muy enfocada
response_focused = client.responses.create(
    model="gpt-4.1",
    input="¿Cuál es la capital de Francia?",
    top_p=0.1
)

# Top_p alto (0.9) - Mayor diversidad en la selección
response_diverse = client.responses.create(
    model="gpt-4.1",
    input="Escribe un párrafo sobre viajes",
    top_p=0.9
)

Con top_p=0.1, el modelo considerará únicamente los tokens más probables, resultando en respuestas muy predecibles. Con top_p=0.9, se incluyen tokens menos probables, permitiendo respuestas más variadas y creativas.

El parámetro top_k limita la selección a los K tokens más probables en cada paso de generación. A diferencia de top_p, que considera probabilidades acumuladas, top_k establece un número fijo de opciones candidatas.

Con top_k=10, el modelo elegirá entre las 10 palabras más probables en cada paso, creando texto más predecible. Con top_k=100, tendrá 100 opciones disponibles, permitiendo mayor variabilidad léxica.

Por resumir:

top_p: también llamado "nucleus sampling". Selecciona tokens cuya probabilidad acumulativa alcance este umbral. Es más dinámico que Top-K porque se adapta al contexto.
- 0.1-0.3: Respuestas muy focalizadas y consistentes
- 0.8-0.95: Balance entre coherencia y diversidad (valor típico)
- 0.95-1.0: Máxima diversidad
top_k: limita la selección a los K tokens más probables. Número fijo independientemente del contexto.
- 1-10: Respuestas muy deterministas
- 20-40: Balance general para la mayoría de tareas
- 50-100: Más variedad, útil para creatividad
- -1 o muy alto: Desactivado (usar solo Top-P)

NOTA: Ciertos proveedores como openai no soportan el parámetro top_k pero sí el top_p, por tanto a la hora de configurar el modelo es habitual poner top_p.

En el caso de Anthropic:

En el caso de Google AI Studio permite también configurar temperatura:

y también el parámetro top_p:

Combinación de parámetros

Los parámetros funcionan de manera complementaria y su combinación determina el comportamiento final del modelo. Puedes ajustar múltiples parámetros simultáneamente para lograr el equilibrio deseado:

Fuentes y referencias

Documentación oficial y recursos externos para profundizar en OpenAI

Documentación oficial de OpenAI

Alan Sastre

Ingeniero de Software y formador, CEO en CertiDevs

Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, OpenAI es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.

Más tutoriales de OpenAI

Explora más contenido relacionado con OpenAI y continúa aprendiendo con nuestros tutoriales gratuitos.

Ver más tutoriales de OpenAI Explorar todas las tecnologías

Aprendizajes de esta lección

Comprender el propósito y efecto de los parámetros temperature, max_tokens, top_p y top_k en la generación de texto.
Aprender a ajustar estos parámetros para controlar la creatividad, coherencia, longitud y estilo de las respuestas.
Analizar cómo la combinación de parámetros afecta la precisión factual y la repetitividad del contenido.
Identificar configuraciones óptimas según el tipo de contenido deseado (técnico, creativo, equilibrado).
Entender la interacción entre parámetros para personalizar el comportamiento del modelo según necesidades específicas.