Google DeepMind lanza Gemma 4 12B: IA multimodal open source que corre en local con 16 GB de RAM
Google DeepMind lanzó Gemma 4 12B, un modelo multimodal de código abierto bajo licencia Apache 2.0 capaz de procesar texto, imagen y voz sin encoders separados, y que puede ejecutarse en cualquier ordenador con 16 GB de RAM.
Multimodalidad nativa sin encoders separados
El 3 de junio de 2026, Google DeepMind lanzó Gemma 4 12B, la nueva versión de su familia de modelos open source. La novedad principal es su arquitectura multimodal nativa: a diferencia de modelos anteriores, Gemma 4 12B procesa texto, imagen y voz directamente en el backbone del LLM, sin necesidad de encoders separados como CLIP para visión o Whisper para audio.
El resultado práctico es significativo: cualquier desarrollador con un ordenador de 16 GB de RAM puede ejecutar este modelo en local, sin depender de servidores externos ni pagar por APIs de terceros. Esto representa un cambio importante para proyectos que requieren privacidad de datos o que operan en entornos sin conexión estable.
Open source, local y sin restricciones comerciales
El modelo se distribuye bajo licencia Apache 2.0, lo que permite su uso comercial sin restricciones. Está disponible en Hugging Face y en Google AI Studio desde el día de su lanzamiento.
Gemma 4 12B compite directamente con otros modelos open source de rango medio como Mistral y Llama 3, pero con la ventaja de su multimodalidad nativa. Para desarrolladores que construyen aplicaciones que combinan texto con imagen o audio, elimina la necesidad de orquestar múltiples modelos especializados.