Parámetros principales: temperature, max_tokens, top_p, top_k
Los parámetros de configuración son valores que controlan el comportamiento del modelo durante la generación de texto. Cada parámetro influye en aspectos específicos como la creatividad, longitud y coherencia de las respuestas. Comprender estos parámetros te permitirá ajustar finamente el comportamiento del modelo según tus necesidades específicas.
Temperature
El parámetro temperature controla la aleatoriedad y creatividad en las respuestas del modelo. Su valor oscila entre 0.0 y 2.0, donde valores más bajos producen respuestas más deterministas y predecibles, mientras que valores más altos generan respuestas más creativas y variadas.
from openai import OpenAI
client = OpenAI()
# Temperature baja (0.2) - Respuestas más conservadoras
response_conservative = client.responses.create(
model="gpt-4.1",
input="Explica qué es la fotosíntesis",
temperature=0.2
)
# Temperature alta (1.5) - Respuestas más creativas
response_creative = client.responses.create(
model="gpt-4.1",
input="Explica qué es la fotosíntesis",
temperature=1.5
)
Con temperature=0.2, obtendrás explicaciones técnicas precisas y consistentes. Con temperature=1.5, las respuestas serán más variadas, posiblemente usando analogías creativas o enfoques menos convencionales.
La temperatura controla la aleatoriedad y creatividad de las respuestas. Valores bajos hacen que el modelo sea más determinista y conservador, valores altos lo hacen más creativo pero menos predecible.
0.0 - 0.3
: Tareas que requieren precisión (matemáticas, código, análisis técnico, traducción)0.7 - 1.0
: Escritura creativa, lluvia de ideas, conversación general1.2 - 2.0
: Experimentación extrema, poetry, contenido muy creativo
Max Tokens
El parámetro max_tokens establece el límite máximo de tokens que puede generar el modelo en su respuesta. Un token puede ser una palabra, parte de una palabra, o incluso un carácter, dependiendo del contexto.
# Respuesta corta limitada a 50 tokens
response_short = client.responses.create(
model="gpt-4.1",
input="Resume los beneficios del ejercicio físico",
max_tokens=50
)
# Respuesta más extensa con límite de 300 tokens
response_long = client.responses.create(
model="gpt-4.1",
input="Resume los beneficios del ejercicio físico",
max_tokens=300
)
Es importante considerar que max_tokens incluye tanto el input como el output en el cómputo total. Si necesitas respuestas específicamente cortas o largas, este parámetro te permite controlar la extensión de manera precisa.
Top P (Nucleus Sampling) y Top K
Cuando un LLM genera la siguiente palabra, calcula una probabilidad para cada palabra posible del vocabulario.
Por ejemplo:
Palabras candidatas: Probabilidad
"gato" → 35%
"perro" → 25%
"animal" → 15%
"mamífero" → 10%
"felino" → 8%
"mascota" → 4%
"cachorro" → 2%
"león" → 1%
...miles más... → 0.001% cada una`
Top-K: Filtro por cantidad. Top-K corta por cantidad fija de candidatos más probables:
# Con Top-K = 3, solo considera las 3 más probables:
Candidatos finales:
"gato" → 35% ✓
"perro" → 25% ✓
"animal" → 15% ✓
"mamífero" → 10% ✗ (descartado)
"felino" → 8% ✗ (descartado)
Problema: Es rígido. A veces las top 3 suman 95% (muy claro qué elegir), otras veces suman solo 40% (mucha incertidumbre), pero siempre usa exactamente 3.
Top-P: Filtro por probabilidad acumulada. Top-P es dinámico. Suma probabilidades hasta alcanzar el umbral:
# Con Top-P = 0.75 (75%), suma hasta llegar a ese %:
"gato" → 35% (acumulado: 35%) ✓
"perro" → 25% (acumulado: 60%) ✓
"animal" → 15% (acumulado: 75%) ✓ ← Llega al 75%
"mamífero" → 10% ✗ (se detiene aquí)
Ventaja: Se adapta al contexto. Si hay mucha certeza, usa pocas palabras. Si hay incertidumbre, considera más opciones. Top-P es generalmente mejor porque se adapta al contexto.
En la práctica:
- Solo Top-P: Valor típico 0.9 (considera el 90% de probabilidad acumulada)
- Top-K + Top-P: Primero filtra Top-K, luego aplica Top-P sobre ese subconjunto
- Solo Top-K: Menos común, valores típicos 20-50
El parámetro top_p implementa el muestreo nucleus, seleccionando tokens cuya probabilidad acumulada alcance el valor especificado. Los valores oscilan entre 0.0 y 1.0, donde valores más bajos resultan en respuestas más enfocadas y valores más altos permiten mayor diversidad.
# Top_p bajo (0.1) - Selección muy enfocada
response_focused = client.responses.create(
model="gpt-4.1",
input="¿Cuál es la capital de Francia?",
top_p=0.1
)
# Top_p alto (0.9) - Mayor diversidad en la selección
response_diverse = client.responses.create(
model="gpt-4.1",
input="Escribe un párrafo sobre viajes",
top_p=0.9
)
Con top_p=0.1, el modelo considerará únicamente los tokens más probables, resultando en respuestas muy predecibles. Con top_p=0.9, se incluyen tokens menos probables, permitiendo respuestas más variadas y creativas.
El parámetro top_k limita la selección a los K tokens más probables en cada paso de generación. A diferencia de top_p, que considera probabilidades acumuladas, top_k establece un número fijo de opciones candidatas.
Con top_k=10, el modelo elegirá entre las 10 palabras más probables en cada paso, creando texto más predecible. Con top_k=100, tendrá 100 opciones disponibles, permitiendo mayor variabilidad léxica.
Por resumir:
top_p
: también llamado "nucleus sampling". Selecciona tokens cuya probabilidad acumulativa alcance este umbral. Es más dinámico que Top-K porque se adapta al contexto.0.1-0.3
: Respuestas muy focalizadas y consistentes0.8-0.95
: Balance entre coherencia y diversidad (valor típico)0.95-1.0
: Máxima diversidad
top_k
: limita la selección a los K tokens más probables. Número fijo independientemente del contexto.1-10:
Respuestas muy deterministas20-40
: Balance general para la mayoría de tareas50-100
: Más variedad, útil para creatividad-1 o muy alto
: Desactivado (usar solo Top-P)
NOTA: Ciertos proveedores como openai no soportan el parámetro top_k pero sí el top_p, por tanto a la hora de configurar el modelo es habitual poner top_p.
En el caso de Anthropic:
En el caso de Google AI Studio permite también configurar temperatura:
y también el parámetro top_p:
Combinación de parámetros
Los parámetros funcionan de manera complementaria y su combinación determina el comportamiento final del modelo. Puedes ajustar múltiples parámetros simultáneamente para lograr el equilibrio deseado:
Fuentes y referencias
Documentación oficial y recursos externos para profundizar en OpenAI
Documentación oficial de OpenAI
Alan Sastre
Ingeniero de Software y formador, CEO en CertiDevs
Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, OpenAI es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.
Más tutoriales de OpenAI
Explora más contenido relacionado con OpenAI y continúa aprendiendo con nuestros tutoriales gratuitos.
Aprendizajes de esta lección
- Comprender el propósito y efecto de los parámetros temperature, max_tokens, top_p y top_k en la generación de texto.
- Aprender a ajustar estos parámetros para controlar la creatividad, coherencia, longitud y estilo de las respuestas.
- Analizar cómo la combinación de parámetros afecta la precisión factual y la repetitividad del contenido.
- Identificar configuraciones óptimas según el tipo de contenido deseado (técnico, creativo, equilibrado).
- Entender la interacción entre parámetros para personalizar el comportamiento del modelo según necesidades específicas.