Panorama de modelos open source

Modelos open source en Ollama

Ollama no entrena modelos propios: actúa como runtime para ejecutar modelos en formato compatible (por ejemplo GGUF) publicados por laboratorios y comunidades. El catálogo incluye decenas de modelos de Meta (Llama), Google (Gemma), Mistral AI, Alibaba (Qwen), Microsoft (Phi) y otros. Todos ellos son open source o con licencias que permiten uso local y, en muchos casos, comercial. La lista actualizada de modelos está en ollama.com/search, donde puedes filtrar por etiquetas como Cloud, Embedding, Vision, Tools o Thinking.

Conocer las familias principales y cómo se comparan te ayuda a elegir el modelo adecuado para cada tarea (chat general, código, razonamiento, multilingüe, visión, etc.).

Panorama de modelos open source: familias principales y criterios de selección

Familias principales

Las familias más representativas en el catálogo de Ollama son:

Qwen (Alibaba): la serie Qwen 3.5 y Qwen3 incluye modelos multimodales (visión, herramientas, razonamiento) en tamaños desde 0.8B hasta 122B. Qwen3-Coder-Next está orientado a código y flujos agentes. Qwen3-VL es la línea de visión-lenguaje. Qwen3-Embedding se usa para embeddings. Muy presentes en benchmarks de programación y tareas técnicas.
Llama (Meta): modelos como Llama 3.x y variantes. Buenos en conversación, instrucciones y multilingüe, con tamaños desde 8B hasta 70B+ parámetros. Los más grandes exigen más RAM y suelen usarse con GPU.
Gemma (Google): línea derivada de la experiencia de Google. Gemma 3 y variantes como Translategemma (traducción sobre Gemma 3) ofrecen buenas relaciones calidad/tamaño para entornos con recursos limitados (4B, 12B, 27B).
Mistral (Mistral AI): Ministral 3 está pensado para despliegue en edge (3B, 8B, 14B) con soporte de visión y herramientas. Mistral 7B y Mixtral siguen siendo opciones habituales por velocidad y calidad en tareas generales y de código.
LFM2 / LFM2.5 (hybrid): familias híbridas para despliegue en dispositivo. LFM2.5-Thinking (1.2B) y LFM2 (24B) ofrecen razonamiento y herramientas en tamaños contenidos.
GLM (Z.ai): GLM-4.7-Flash (30B) y GLM-5 (744B total, 40B activos) destacan en razonamiento y tareas agentes. GLM-5 está disponible sobre todo vía cloud. También hay modelos especializados como GLM-OCR para documentos.
Nemotron (NVIDIA): Nemotron 3 Super (120B MoE, 12B activos) para aplicaciones multiagente, y Nemotron 3 Nano (30B) para agentes eficientes. Incluyen herramientas y razonamiento.
Phi (Microsoft), DeepSeek, Granite (IBM), Devstral, Kimi, RNJ y otras familias completan un catálogo muy amplio. Conviene consultar ollama.com/search para ver la oferta actual y filtrar por capacidad (vision, tools, thinking, embedding, cloud).

Cada familia tiene variantes por tamaño (0.8B, 3B, 8B, 24B, 80B, 122B…) y por especialización (código, visión, razonamiento, embeddings). Los nombres en Ollama siguen patrones como qwen3.5, qwen3-coder-next, ministral-3, llama3.2, gemma2, glm-5, etc.

La elección depende del hardware (RAM, GPU), del idioma y del tipo de tarea (chat, código, razonamiento, embeddings). No hay un único modelo mejor para todo, así que conviene probar varios en tu caso de uso.

flowchart LR
    A["Elegir modelo"] --> B{"Hardware disponible"}
    B -->|"8-16 GB RAM"| C["Modelos pequeños<br/>≤ 7B parámetros"]
    B -->|"16-32 GB / GPU"| D["Modelos medianos<br/>13B - 34B"]
    B -->|"GPU potente o Cloud"| E["Modelos grandes<br/>70B+"]
    C --> F{"Tipo de tarea"}
    D --> F
    E --> F
    F -->|"Chat general"| G["Llama, Qwen, Gemma"]
    F -->|"Código"| H["Qwen3-Coder, Devstral"]
    F -->|"Razonamiento"| I["GLM, Nemotron"]

Cómo comparar modelos: rankings y benchmarks

Los benchmarks públicos permiten comparar rendimiento en tareas estándar (razonamiento, código, comprensión, etc.) sin tener que probar todos los modelos a mano. Una referencia habitual es artificialanalysis.ai, que publica rankings y análisis de modelos open source y propietarios según distintos criterios (capacidad general, código, razonamiento, etc.).

Consultar estos rankings te ayuda a:

Reducir la lista de candidatos a unos pocos modelos por familia o por tamaño.
Entender qué modelos destacan en código, razonamiento o multilingüe antes de descargarlos.
Contrastar con la documentación oficial de cada laboratorio (Meta, Mistral, Qwen, etc.) para licencias y recomendaciones de uso.

No conviene obsesionarse con un único ranking: los resultados dependen de las métricas y de los tests elegidos. Úsalos como guía y valida siempre con pruebas reales en tus propios casos de uso.

Tamaños y recursos

Los modelos se suelen describir por número de parámetros (7B, 13B, 70B…). A más parámetros, en general más capacidad, pero también más memoria y tiempo de inferencia. Ollama utiliza cuantización (pesos en precisión reducida) para que modelos grandes puedan ejecutarse en máquinas con menos RAM. A cambio, puede haber una ligera pérdida de calidad respecto al modelo en precisión completa.

En la práctica:

Modelos pequeños (alrededor de 7B parámetros o menos) pueden correr solo con CPU en equipos con 8–16 GB de RAM.
Modelos medianos (13B–34B) suelen requerir 16–32 GB de RAM o una GPU con suficiente VRAM.
Modelos grandes (70B, 80B, 120B y superiores) casi siempre requieren GPU potente o mucho RAM, aunque muchos están disponibles en Ollama Cloud para usarlos sin ese hardware local.

Los requisitos concretos y la instalación dependen del sistema y del modelo elegido.

Modelos locales frente a modelos en la nube

En Ollama puedes usar:

Modelos locales: descargados y ejecutados en tu máquina. Dependen de tu hardware y de tu ancho de banda solo en la descarga inicial.
Modelos en la nube (Ollama Cloud): se ejecutan en servidores de Ollama y requieren cuenta y API key. Son útiles cuando no tienes recursos suficientes en local o quieres probar modelos muy grandes sin invertir en hardware.

La misma interfaz (por ejemplo, el nombre del modelo con sufijo :cloud) permite elegir entre uno y otro sin cambiar de herramienta.

El panorama de modelos en Ollama abarca Qwen 3.5, Llama, Gemma 3, Ministral, GLM, Nemotron y muchas otras familias. Para ver el catálogo al día y filtrar por tipo (visión, herramientas, razonamiento, embeddings, cloud), usa ollama.com/search. Sitios como artificialanalysis.ai ofrecen rankings y comparativas para orientar la elección. El tamaño del modelo (desde menos de 1B hasta más de 100B) y la especialización (código, visión, razonamiento, multilingüe) condicionan los recursos necesarios y el tipo de tareas donde cada uno destaca.

Alan Sastre

Ingeniero de Software y formador, CEO en CertiDevs

Ingeniero de software especializado en Full Stack y en Inteligencia Artificial. Como CEO de CertiDevs, Ollama es una de sus áreas de expertise. Con más de 15 años programando, 6K seguidores en LinkedIn y experiencia como formador, Alan se dedica a crear contenido educativo de calidad para desarrolladores de todos los niveles.

Más tutoriales de Ollama

Explora más contenido relacionado con Ollama y continúa aprendiendo con nuestros tutoriales gratuitos.

Ver más tutoriales de Ollama Explorar todas las tecnologías

Aprendizajes de esta lección

Conocer las principales familias de modelos open source disponibles en Ollama y criterios para elegir y comparar modelos.

Cursos que incluyen esta lección

Esta lección forma parte de los siguientes cursos estructurados con rutas de aprendizaje

Ollama: modelos LLM en local y en la nube

Ruta de aprendizaje completa con lecciones y ejercicios