acambronero
acambronero
@acambronero@blogpocket.es

Este es el blog federado de Antonio Cambronero, fundador, autor y CEO de Blogpocket. Informático, blogger y profesor, con más de 20 años de experiencia en departamentos de soporte técnico informático, análisis de sistemas, productividad, optimización de procesos, atención al cliente y formación, en empresas multinacionales.

104 publicaciones
50 seguidores

Cómo he instalado Gemma 4 en mi ordenador portátil con MacOS Tahoe

En este artículo revisaremos cómo he instalado Gemma 4 en mi ordenador portátil (un Mac con MacOS Tahoe).

¿Qué es Gemma 4?

Gemma es una familia de modelos abiertos desarrollada por Google DeepMind. Los modelos Gemma 4 son multimodales, procesan entrada de texto e imagen (con soporte para audio en los modelos pequeños) y generan salida de texto.

Gemma 4 introduce mejoras clave en su arquitectura y funcionalidades:

  • Razonamiento: Todos los modelos de la familia están diseñados como sistemas de razonamiento de alto rendimiento, con modos de pensamiento configurables.
  • Multimodalidad extendida: Procesa texto e imagen con soporte para relaciones de aspecto y resoluciones variables.
  • Arquitecturas diversas y eficientes: Ofrece variantes densas y de mezcla de expertos (MoE) de diferentes tamaños para una implementación escalable.
  • Optimizado para dispositivos: Los modelos más pequeños están diseñados específicamente para una ejecución local eficiente en portátiles y dispositivos móviles.
  • Ventana de contexto ampliada: Los modelos pequeños cuentan con una ventana de contexto de 128 KB, mientras que los modelos medianos admiten 256 KB.
  • Capacidades de codificación y agentes mejoradas: Logra mejoras notables en las pruebas de rendimiento de codificación, junto con soporte para llamadas a funciones nativas, lo que impulsa agentes autónomos de alto rendimiento. Compatibilidad nativa con las indicaciones del sistema: Gemma 4 introduce compatibilidad nativa con el rol del sistema, lo que permite conversaciones más estructuradas y controlables.

¿Cómo lo he instalado en mi portátil?

Para guiarme en la instalación, dado que la elección del modelo y la eficacia de su ejecución depende de las características de chip, memoria y almacenamiento, le di este prompt a Gemini:

Guíame en la instalación del modelo Gemma 4 con LM Studio en mi ordenador Mac con iOS Tahoe 26.3.1 , 16 GB de memoria y chip Apple M1 Pro. Tengo 160 GB de almacenamiento disponible.

He instalado LM Studio en mi portátil Mac, siguiendo las instrucciones de Gemini (en tu ordenador y con sus características, las instrucciones pueden ser otras):

¡Qué buena elección! Estás a la vanguardia. **Gemma 4** acaba de salir (hace apenas unas semanas en este abril de 2026) y tu **M1 Pro** sigue siendo una máquina muy capaz para estas tareas gracias a su arquitectura de memoria unificada.

Un pequeño detalle técnico: te refieres a tu sistema como **iOS Tahoe 26.3.1**, pero en Mac el sistema es **macOS Tahoe**. Es una confusión común ahora que Apple ha unificado tanto las interfaces, pero para descargar software, siempre busca la versión de "macOS".

Aquí tienes los pasos para ponerlo en marcha:

### 1. Descargar e Instalar LM Studio
Dado que tienes un procesador **M1 Pro**, necesitas la versión específica para **Apple Silicon**.

* Ve al sitio oficial de [LM Studio](https://lmstudio.ai).
* Haz clic en el botón de descarga para **macOS (Apple Silicon - M1/M2/M3/M4)**.
* Una vez descargado el archivo `.dmg`, ábrelo y arrastra LM Studio a tu carpeta de **Aplicaciones**.

### 2. Buscar Gemma 4
* Abre LM Studio.
* En la barra de búsqueda de la izquierda (el icono de la lupa), escribe: `Gemma 4`.
* Verás varias opciones. Busca las publicadas por **Google** o versiones optimizadas en formato **GGUF** (que son las que mejor funcionan en LM Studio).

### 3. Seleccionar la versión adecuada para tus 16 GB de RAM
Con **16 GB de memoria unificada**, tienes que ser estratégico con el tamaño del modelo para que el sistema no se ralentice:

* **Gemma 4 E4B (4.5B):** Esta es tu mejor opción. Funcionará con una velocidad increíble y dejará suficiente RAM para que macOS Tahoe se mueva fluido.
* **Gemma 4 26B (MoE):** Al ser una arquitectura de "Mezcla de Expertos" (MoE), solo activa una parte de sus parámetros a la vez. Podría funcionar si eliges una versión **quantized (Q4_K_M o inferior)**, pero estarás muy cerca del límite de tus 16 GB.
* **Evita:** La versión de 31B Dense, ya que requiere al menos 32 GB de RAM para ejecutarse con dignidad.

> [!TIP]
> En el panel de descargas a la derecha, busca el indicador visual de LM Studio que dice **"Should fit in Memory"** (Debería caber en memoria) en color verde. Si aparece en rojo, el modelo usará "Swap" de disco y será muy lento.

### 4. Configuración y Ejecución
Una vez descargado (tienes 160 GB de espacio, así que no te preocupes por el tamaño de los archivos):

1.  Ve al icono de la **burbuja de chat** en la barra lateral.
2.  En el menú desplegable de la parte superior, selecciona el modelo **Gemma 4** que acabas de descargar.
3.  En el panel derecho (**Settings**), asegúrate de que **Apple Metal** esté activado. Esto permitirá que el chip M1 Pro use todos sus núcleos de GPU para generar texto.
4.  ¡Escribe tu primer mensaje y disfruta!

**Nota sobre macOS Tahoe:** La versión 26.3.1 introdujo mejoras en la gestión de memoria para modelos de lenguaje grandes, así que deberías notar un rendimiento ligeramente superior al de versiones anteriores de macOS.

¿Tienes algún uso específico en mente para Gemma 4, como programar o análisis de textos largos?

Optimización del funcionamiento del modelo en tu equipo concreto

Esta es la clave de ejecutar un modelo de Gemma (u otro cualquiera) en tu equipo.

Para optimizar el modelo de Gemma descargado, accede a la configuración.

Haz clic en el icono de la rueda dentada a la izquierda del modelo cargado (ver imagen anterior) y pon el valor máximo en GPU Offload.

  • GPU Offload (42): Esto indica que las 42 capas del modelo Gemma 4 se cargarán íntegramente en la GPU de tu M1 Pro. ¡Esto es lo que da la velocidad!
  • Offload KV Cache to GPU Memory (Activado): Esto es excelente, significa que la «memoria de trabajo» de la charla también irá a la GPU, evitando cuellos de botella.
  • Flash Attention (Activado): Esto acelerará mucho la lectura de textos largos.

Para cualquier duda sobre la configuración, pregúntale a Gemini.

Después de cualquier cambio, haz clic en el botón «Reload to apply changes».

El modelo se volverá a cargar (tardará unos segundos) y estará listo para usarse.

¿Cómo evaluar el rendimiento del modelo?

Una medida de si el modelo está ejecutándose a buen rendimiento es el número de «tokens per second» (tk/s). Con mi configuración en un M1 Pro, Gemma 4 E4B debería darme entre 30 y 60 tk/s, lo cual es más rápido de lo que una persona puede leer.

Cuando ejecutes un prompt, verás al final un icono de cronómetro, pon el cursor encima y obtendrás los niveles de rendimiento de la respuesta.

Para este prompt:

Dame un prompt para crear una landing page en un único
archivo HTML para ofrecer un curso de inteligencia
artificial en la que se verán: el uso de Chatgpt, Gemini,
uso de NanoBanana, Uso de Veo 3.1. 
El publico objetivo son personas sin experiencia en IA. 
El diseño ha de ser moderno y atractivo.

El resultado es:

1. 33,61 tokens/sec (Velocidad de Generación)
Es el "caudal" de palabras. Los modelos de IA no escriben letra por letra, sino en "tokens" (trozos de palabras).

Significado: Tu procesador está "escupiendo" casi 34 
fragmentos de texto por segundo.

Contexto: En un M1 Pro con 16 GB, superar los 30 tk/s 
con Gemma 4 es un rendimiento excelente. Significa que 
la aceleración Metal está haciendo su trabajo al 100%.

2. 2056 tokens (Volumen Total)
Es el tamaño de la respuesta que te ha dado (incluyendo 
el prompt que tú escribiste).

Regla de oro: Un token equivale aproximadamente a 0,75 
palabras en español.

Tu caso: La IA ha generado o procesado unas 1.500 
palabras en total para esa landing page. 
Es una respuesta bastante extensa y detallada.

3. 1,09 sec. (Latencia Inicial / TTFT)
Este dato es el "Time To First Token".

Significado: Es el tiempo que tardó el modelo en 
"entender" tu petición y empezar a escribir la primera
letra.

Interpretación: 1 segundo es un tiempo de reacción 
muy bajo. Indica que el modelo no está sufriendo por 
falta de RAM; si tuvieras poca memoria, este número subiría a 10 o 20 segundos mientras el Mac intenta mover datos del disco a la memoria.

4. Stop reason: EOS Token found
Es el motivo del fin de la tarea.

EOS significa "End Of String" (Fin de la secuencia).

Traducción: El modelo decidió por sí mismo que ya 
había terminado de escribir todo lo necesario para 
responder a tu petición. Ha puesto un "punto final" 
invisible que LM Studio reconoce para dejar de procesar.

Nota: Si dijera "Max tokens reached", significaría que
se ha cortado a medias porque no tenía permiso para escribir más.

[!TIP]
Dado que estás usando Gemma 4, habrás notado que el 
código HTML para esa landing page con Nano Banana y Veo 
es muy preciso. Gemma 4 es especialmente buena siguiendo 
instrucciones técnicas complejas en un solo archivo.