Hardware, longitud de contexto y resolución de problemas

Uso de GPU y recursos

Ollama puede ejecutar modelos usando solo CPU o aprovechando una GPU cuando está disponible. Con GPU, la inferencia suele ser mucho más rápida y permite usar modelos más grandes con fluidez. Ollama detecta y usa automáticamente:

NVIDIA (CUDA) en Windows y Linux.
AMD (ROCm) en Linux.
Apple Silicon (Metal) en Mac con chip M1/M2/M3 o posteriores.

Si tienes una GPU compatible instalada y con los controladores correctos, Ollama la utilizará sin configuración adicional en la mayoría de los casos. Si no hay GPU o los controladores no están bien configurados, los modelos se ejecutan en CPU: sigue funcionando, pero la generación será más lenta, sobre todo en modelos grandes.

flowchart TD
    A["Ollama detecta hardware"] --> B{"¿GPU compatible?"}
    B -->|"NVIDIA · AMD<br/>Apple Silicon"| C["Inferencia acelerada<br/>por GPU"]
    B -->|"No disponible"| D["Inferencia en CPU<br/>más lenta"]
    C --> E{"¿Suficiente VRAM?"}
    E -->|"Sí"| F["Modelo cargado<br/>correctamente"]
    E -->|"No"| G["Elegir modelo más pequeño,<br/>reducir contexto<br/>o usar Ollama Cloud"]
    D --> F

La memoria de la GPU (VRAM) determina qué modelos caben y con qué tamaño de contexto. Un modelo de 7B en cuantización puede necesitar unos 4–6 GB de VRAM, y los modelos de 70B o más exigen mucha más VRAM o RAM del sistema. Si no hay suficiente memoria, Ollama puede devolver un error al cargar el modelo o al iniciar la generación. En esos casos conviene elegir un modelo más pequeño, una cuantización menor (si está disponible) o usar Ollama Cloud para ese modelo.

Longitud del contexto

El contexto (context length) es la cantidad de texto (tokens) que el modelo puede tener en cuenta a la vez: el mensaje actual más el historial de la conversación o el documento que le pases. Cada modelo tiene un límite de contexto (por ejemplo 8K, 32K, 128K tokens). Si superas ese límite, las partes más antiguas se pierden o el modelo deja de aceptar más entrada.

Un contexto más largo implica que el modelo usa más memoria (RAM o VRAM). Si tu equipo tiene poca memoria, puede que no puedas usar el contexto máximo del modelo: tendrás que limitar el número de tokens de contexto en la configuración o en la API. Reducir el contexto es una forma habitual de hacer que un modelo grande funcione en máquinas con menos recursos.

Ajustar la longitud del contexto no cambia la "inteligencia" del modelo, pero sí cuánta información reciente puede considerar y cuánta memoria consume en tu máquina.

Problemas habituales y qué revisar

Tras instalar Ollama, algunos problemas recurrentes son:

El modelo no arranca o da error de memoria: suele indicar que no hay suficiente RAM o VRAM para ese modelo y ese tamaño de contexto. Prueba con un modelo más pequeño o reduce el contexto. En equipos con poca RAM, limita el número de modelos cargados a la vez.
La GPU no se usa: comprueba que los controladores de la GPU estén instalados y actualizados (NVIDIA, AMD o los de Apple). En Linux, ROCm o CUDA deben estar correctamente configurados. La documentación de Ollama indica los requisitos por plataforma.
El servidor no responde o no se conecta: verifica que el servidor esté en marcha (por ejemplo que la aplicación de escritorio o un ollama run previo lo hayan iniciado). Si cambiaste el puerto o la interfaz con variables de entorno, asegúrate de que el cliente use la misma dirección y puerto.
Descargas muy lentas o fallidas: la primera vez que usas un modelo, Ollama lo descarga desde internet. Si la red es lenta o inestable, la descarga puede tardar o fallar. Comprueba la conexión y, si es necesario, vuelve a lanzar la descarga.
Comportamiento extraño o respuestas incoherentes: puede deberse al modelo elegido, a la temperatura u otros parámetros, o a un contexto insuficiente. Prueba otro modelo o ajusta los parámetros de generación según la documentación de la API.

Para depurar, conviene revisar los logs del servidor (en la terminal si lo has arrancado con ollama serve, o en los registros que indique la documentación para tu sistema). Los mensajes de error suelen indicar si el fallo es por memoria, por GPU no detectada o por conexión. La documentación oficial y las preguntas frecuentes (FAQ) en el sitio de Ollama y en el repositorio de GitHub recogen soluciones para los casos más comunes según el sistema operativo y el hardware. Ante dudas sobre requisitos mínimos, compatibilidad de GPU o variables de entorno, la documentación en ollama.com y en el repositorio oficial es la referencia a consultar.

Alan Sastre

Ingeniero de Software y formador, CEO en CertiDevs

Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, Ollama es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.

Más tutoriales de Ollama

Explora más contenido relacionado con Ollama y continúa aprendiendo con nuestros tutoriales gratuitos.

Ver más tutoriales de Ollama Explorar todas las tecnologías

Aprendizajes de esta lección

Conocer los requisitos de hardware para Ollama, el papel del contexto y cómo abordar problemas habituales tras la instalación.

Cursos que incluyen esta lección

Esta lección forma parte de los siguientes cursos estructurados con rutas de aprendizaje

Ollama: modelos LLM en local y en la nube

Ruta de aprendizaje completa con lecciones y ejercicios