Parámetros principales: temperature, max_tokens, top_p, top_k
Los parámetros de configuración son valores que controlan el comportamiento del modelo durante la generación de texto. Cada parámetro influye en aspectos específicos como la creatividad, longitud y coherencia de las respuestas. Comprender estos parámetros te permitirá ajustar finamente el comportamiento del modelo según tus necesidades específicas.
Temperature
El parámetro temperature controla la aleatoriedad y creatividad en las respuestas del modelo. Su valor oscila entre 0.0 y 2.0, donde valores más bajos producen respuestas más deterministas y predecibles, mientras que valores más altos generan respuestas más creativas y variadas.
from openai import OpenAI
client = OpenAI()
# Temperature baja (0.2) - Respuestas más conservadoras
response_conservative = client.responses.create(
model="gpt-4.1",
input="Explica qué es la fotosíntesis",
temperature=0.2
)
# Temperature alta (1.5) - Respuestas más creativas
response_creative = client.responses.create(
model="gpt-4.1",
input="Explica qué es la fotosíntesis",
temperature=1.5
)
Con temperature=0.2, obtendrás explicaciones técnicas precisas y consistentes. Con temperature=1.5, las respuestas serán más variadas, posiblemente usando analogías creativas o enfoques menos convencionales.
La temperatura controla la aleatoriedad y creatividad de las respuestas. Valores bajos hacen que el modelo sea más determinista y conservador, valores altos lo hacen más creativo pero menos predecible.
0.0 - 0.3
: Tareas que requieren precisión (matemáticas, código, análisis técnico, traducción)0.7 - 1.0
: Escritura creativa, lluvia de ideas, conversación general1.2 - 2.0
: Experimentación extrema, poetry, contenido muy creativo
Max Tokens
El parámetro max_tokens establece el límite máximo de tokens que puede generar el modelo en su respuesta. Un token puede ser una palabra, parte de una palabra, o incluso un carácter, dependiendo del contexto.
# Respuesta corta limitada a 50 tokens
response_short = client.responses.create(
model="gpt-4.1",
input="Resume los beneficios del ejercicio físico",
max_tokens=50
)
# Respuesta más extensa con límite de 300 tokens
response_long = client.responses.create(
model="gpt-4.1",
input="Resume los beneficios del ejercicio físico",
max_tokens=300
)
Es importante considerar que max_tokens incluye tanto el input como el output en el cómputo total. Si necesitas respuestas específicamente cortas o largas, este parámetro te permite controlar la extensión de manera precisa.
Top P (Nucleus Sampling) y Top K
Guarda tu progreso
Inicia sesión para no perder tu progreso y accede a miles de tutoriales, ejercicios prácticos y nuestro asistente de IA.
Más de 25.000 desarrolladores ya confían en CertiDevs
Cuando un LLM genera la siguiente palabra, calcula una probabilidad para cada palabra posible del vocabulario.
Por ejemplo:
Palabras candidatas: Probabilidad
"gato" → 35%
"perro" → 25%
"animal" → 15%
"mamífero" → 10%
"felino" → 8%
"mascota" → 4%
"cachorro" → 2%
"león" → 1%
...miles más... → 0.001% cada una`
Top-K: Filtro por cantidad. Top-K corta por cantidad fija de candidatos más probables:
# Con Top-K = 3, solo considera las 3 más probables:
Candidatos finales:
"gato" → 35% ✓
"perro" → 25% ✓
"animal" → 15% ✓
"mamífero" → 10% ✗ (descartado)
"felino" → 8% ✗ (descartado)
Problema: Es rígido. A veces las top 3 suman 95% (muy claro qué elegir), otras veces suman solo 40% (mucha incertidumbre), pero siempre usa exactamente 3.
Top-P: Filtro por probabilidad acumulada. Top-P es dinámico. Suma probabilidades hasta alcanzar el umbral:
# Con Top-P = 0.75 (75%), suma hasta llegar a ese %:
"gato" → 35% (acumulado: 35%) ✓
"perro" → 25% (acumulado: 60%) ✓
"animal" → 15% (acumulado: 75%) ✓ ← Llega al 75%
"mamífero" → 10% ✗ (se detiene aquí)
Ventaja: Se adapta al contexto. Si hay mucha certeza, usa pocas palabras. Si hay incertidumbre, considera más opciones. Top-P es generalmente mejor porque se adapta al contexto.
En la práctica:
- Solo Top-P: Valor típico 0.9 (considera el 90% de probabilidad acumulada)
- Top-K + Top-P: Primero filtra Top-K, luego aplica Top-P sobre ese subconjunto
- Solo Top-K: Menos común, valores típicos 20-50
El parámetro top_p implementa el muestreo nucleus, seleccionando tokens cuya probabilidad acumulada alcance el valor especificado. Los valores oscilan entre 0.0 y 1.0, donde valores más bajos resultan en respuestas más enfocadas y valores más altos permiten mayor diversidad.
# Top_p bajo (0.1) - Selección muy enfocada
response_focused = client.responses.create(
model="gpt-4.1",
input="¿Cuál es la capital de Francia?",
top_p=0.1
)
# Top_p alto (0.9) - Mayor diversidad en la selección
response_diverse = client.responses.create(
model="gpt-4.1",
input="Escribe un párrafo sobre viajes",
top_p=0.9
)
Con top_p=0.1, el modelo considerará únicamente los tokens más probables, resultando en respuestas muy predecibles. Con top_p=0.9, se incluyen tokens menos probables, permitiendo respuestas más variadas y creativas.
El parámetro top_k limita la selección a los K tokens más probables en cada paso de generación. A diferencia de top_p, que considera probabilidades acumuladas, top_k establece un número fijo de opciones candidatas.
Con top_k=10, el modelo elegirá entre las 10 palabras más probables en cada paso, creando texto más predecible. Con top_k=100, tendrá 100 opciones disponibles, permitiendo mayor variabilidad léxica.
Por resumir:
top_p
: también llamado "nucleus sampling". Selecciona tokens cuya probabilidad acumulativa alcance este umbral. Es más dinámico que Top-K porque se adapta al contexto.0.1-0.3
: Respuestas muy focalizadas y consistentes0.8-0.95
: Balance entre coherencia y diversidad (valor típico)0.95-1.0
: Máxima diversidad
top_k
: limita la selección a los K tokens más probables. Número fijo independientemente del contexto.1-10:
Respuestas muy deterministas20-40
: Balance general para la mayoría de tareas50-100
: Más variedad, útil para creatividad-1 o muy alto
: Desactivado (usar solo Top-P)
NOTA: Ciertos proveedores como openai no soportan el parámetro top_k pero sí el top_p, por tanto a la hora de configurar el modelo es habitual poner top_p.
En el caso de Anthropic:
En el caso de Google AI Studio permite también configurar temperatura:
y también el parámetro top_p:
Combinación de parámetros
Los parámetros funcionan de manera complementaria y su combinación determina el comportamiento final del modelo. Puedes ajustar múltiples parámetros simultáneamente para lograr el equilibrio deseado:
Aprendizajes de esta lección
- Comprender el propósito y efecto de los parámetros temperature, max_tokens, top_p y top_k en la generación de texto.
- Aprender a ajustar estos parámetros para controlar la creatividad, coherencia, longitud y estilo de las respuestas.
- Analizar cómo la combinación de parámetros afecta la precisión factual y la repetitividad del contenido.
- Identificar configuraciones óptimas según el tipo de contenido deseado (técnico, creativo, equilibrado).
- Entender la interacción entre parámetros para personalizar el comportamiento del modelo según necesidades específicas.
Completa OpenAI y certifícate
Únete a nuestra plataforma y accede a miles de tutoriales, ejercicios prácticos, proyectos reales y nuestro asistente de IA personalizado para acelerar tu aprendizaje.
Asistente IA
Resuelve dudas al instante
Ejercicios
Practica con proyectos reales
Certificados
Valida tus conocimientos
Más de 25.000 desarrolladores ya se han certificado con CertiDevs