El servidor de Ollama
En la arquitectura de Ollama, el servidor es el proceso que carga los modelos, ejecuta la inferencia y atiende las peticiones de la CLI y de la API. Cuando usas la aplicación de escritorio o un comando como ollama run, el cliente se comunica con ese servidor. En una instalación típica en tu máquina, el servidor se inicia en segundo plano de forma automática la primera vez que lo necesitas, no hace falta arrancarlo manualmente para el uso diario.
flowchart LR
A["Cliente<br/>CLI, API, app"] -->|"HTTP<br/>puerto 11434"| B["Servidor Ollama"]
B --> C["Modelo cargado<br/>en memoria"]
subgraph Despliegue["Opciones de despliegue"]
direction TB
D["Nativo<br/>ollama serve"]
E["Docker<br/>ollama/ollama"]
F["Servicio del sistema<br/>systemd, etc."]
end
D --> B
E --> B
F --> B
Si quieres control explícito (por ejemplo en un servidor sin interfaz gráfica o para asegurarte de que escucha en una interfaz concreta), puedes lanzar el servidor con:
ollama serve
El proceso queda en primer plano y escucha las peticiones. En este modo es útil ver los logs en la terminal para depurar o comprobar qué modelos se cargan. En entornos de producción o en máquinas dedicadas, suele configurarse como servicio del sistema (systemd en Linux, servicio de Windows, etc.) para que el servidor arranque al iniciar el equipo y se reinicie si falla.
Puerto y dirección por defecto
Por defecto el servidor de Ollama escucha en localhost en el puerto 11434. Cualquier cliente (navegador, script, aplicación) que quiera usar la API debe enviar las peticiones a esa dirección, por ejemplo http://localhost:11434.
La variable de entorno OLLAMA_HOST controla en qué dirección y puerto se enlaza el servidor. Si necesitas que acepte peticiones desde otros equipos de la red (por ejemplo, para servir la API desde una máquina en la LAN), puedes configurar OLLAMA_HOST con la interfaz y el puerto deseados (por ejemplo 0.0.0.0:11434 para escuchar en todas las interfaces). Si cambias el puerto o la interfaz, todos los clientes (CLI, aplicación de escritorio, código que use la API) deben conocer la nueva base URL para conectarse al servidor.
Ejecución en Docker
Ejecutar Ollama dentro de un contenedor Docker es útil cuando quieres aislar el entorno, desplegarlo en un servidor sin instalar el binario directamente o tener varias instancias con distintas configuraciones. La imagen oficial de Ollama en Docker Hub permite arrancar el servidor en un contenedor con un comando similar a:
docker run -d -v ollama:/root/.ollama -p 11434:11434 ollama/ollama
El flag -v ollama:/root/.ollama persiste los modelos descargados en un volumen con nombre, de modo que no se pierden al eliminar el contenedor. El flag -p 11434:11434 expone el puerto del servidor en el host. Desde la máquina host, la API queda disponible en http://localhost:11434 como en una instalación nativa. Si quieres que el servidor dentro del contenedor acepte conexiones desde fuera del host (por ejemplo desde otra máquina de la red), puedes pasar además la variable de entorno OLLAMA_HOST=0.0.0.0 en el docker run para que el servidor escuche en todas las interfaces del contenedor.
Si tu host tiene GPU y quieres que el contenedor la use para acelerar la inferencia, hay que añadir los flags correspondientes (por ejemplo --gpus all en Docker con NVIDIA). La documentación de Ollama y de Docker describe las opciones exactas según el tipo de GPU y el sistema operativo.
Usar Docker no es obligatorio: en un equipo de desarrollo o personal, la instalación nativa suele ser más sencilla. Docker compensa cuando necesitas el servidor en un servidor remoto, en un entorno reproducible o junto con otros servicios en una pila de contenedores.
Alan Sastre
Ingeniero de Software y formador, CEO en CertiDevs
Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, Ollama es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.
Más tutoriales de Ollama
Explora más contenido relacionado con Ollama y continúa aprendiendo con nuestros tutoriales gratuitos.
Aprendizajes de esta lección
Entender cómo funciona el servidor de Ollama, en qué puerto escucha y cómo ejecutarlo en Docker cuando convenga.
Cursos que incluyen esta lección
Esta lección forma parte de los siguientes cursos estructurados con rutas de aprendizaje