Gemma 4 12B : le guide développeur

Gemma 4 12B abandonne les encodeurs séparés au profit d’une architecture decoder-only unifiée qui traite nativement texte, images et audio avec les mêmes poids. Le modèle tient dans 16 Go de VRAM, s’expose comme serveur local compatible OpenAI via LiteRT-LM, et se fine-tune via Hugging Face ou Unsloth en un seul passage. 38 variants sont disponibles sur Ollama, dont quatre versions 12B MLX fraîchement publiées pour Apple Silicon.

Source :
Google Developer Blog
· Publié le 3 juin 2026

Google a publié le 3 juin 2026 un guide développeur complet pour Gemma 4 12B, son nouveau modèle multimodal de taille intermédiaire. La nouveauté centrale : l’abandon des encodeurs séparés (vision et audio) au profit d’un unique transformateur decoder-only. Texte, images et audio partagent les mêmes poids du décodeur, sans co-tuning séparé, sans sous-systèmes indépendants à maintenir. Le modèle tient dans 16 Go de VRAM.

Ce guide couvre tout ce qu’il faut savoir pour déployer, fine-tuner et intégrer Gemma 4 12B dans vos applications : architecture, déploiement local via LiteRT-LM, applications macOS desktop, fine-tuning, développement agentique via le Gemma Skills Repository, et options de production sur Google Cloud. Google avait posé les bases lors de Google I/O 2026 en insistant sur l’intégration opérationnelle des modèles dans les systèmes existants. Gemma 4 12B y répond concrètement.

Qu’est-ce qui change avec une architecture encoder-free ?

La plupart des modèles multimodaux de taille comparable combinent un LLM avec des encodeurs spécialisés : un vision transformer à 27 couches pour les images, un encodeur conformer à 12 couches pour l’audio. Ces composants sont entraînés indépendamment, puis gelés lors de l’entraînement principal. Résultat : latence plus élevée à cause de deux passes d’encodage, nécessité de co-tuner LLM et encodeurs lors du fine-tuning, et deux sous-systèmes distincts à gérer en production.

Gemma 4 12B supprime cette architecture à deux niveaux. Le modèle reprend le décodeur du Gemma 4 31B Dense, auquel deux embedders légers sont ajoutés à la place des encodeurs :

Vision embedder (35M paramètres) : les patches bruts de 48×48 pixels sont projetés directement dans l’espace de représentation du LLM via une multiplication matricielle unique. La position spatiale est encodée par un lookup factorisé pour les coordonnées x et y, sans couches de transformer supplémentaires.
Audio embedder : les signaux audio bruts à 16 kHz sont découpés en frames de 40 ms (soit 640 floats par frame) et projetés linéairement vers l’espace d’entrée du LLM, sans encodeur conformer.

Le résultat pratique : vision, audio et texte partagent exactement les mêmes poids du décodeur. Un fine-tuning adapter-based ou complet met à jour l’ensemble du pipeline multimodal en un seul passage, avec un seul learning rate, via Hugging Face ou Unsloth.

Comment Gemma 4 12B gère-t-il concrètement la vision et l’audio ?

Pour la vision, le modèle utilise un budget de tokens visuels de 70 par image par défaut. Dans la démonstration publiée dans le guide, Gemma 4 12B a traité un extrait de 5 minutes du keynote Google I/O 2026 (timestamps 00:15:32-00:20:45) à 1 FPS, soit 313 frames analysées. Sur une scène de Gemini Omni montrant un « selfie » généré par IA, le modèle a correctement interprété la métaphore visuelle : la capacité des modèles multimodaux à réimaginer du contenu existant pour générer de nouveaux scénarios.

Pour l’audio, Gemma 4 12B est le premier modèle Gemma de taille intermédiaire avec entrée audio native. Les capacités documentées incluent la reconnaissance automatique de la parole (ASR), la diarisation (identification des locuteurs dans un flux audio), et le raisonnement agentique sur contenu audio. Dans une démonstration d’orchestration locale, le modèle a utilisé l’agent OpenCode et des gemma-skills pour générer automatiquement une application Gradio de traitement d’image, servie via llama.cpp.

Un point d’attention sur les variants Ollama : les quatre variants Gemma 4 12B disponibles au moment de la rédaction sont MLX uniquement, ce qui signifie texte seul sur Apple Silicon. La multimodalité complète (texte, image et audio) sera disponible via les futurs variants q4_K_M, q8_0 et bf16 du 12B. En attendant, les variants e4b-it-q4_K_M (9,6 Go) et e2b-it-q4_K_M (7,2 Go) supportent déjà texte et image.

Peut-on faire tourner Gemma 4 12B localement ?

Le prérequis matériel annoncé : 16 Go de VRAM (GPU discret) ou mémoire unifiée (Apple Silicon). Le variant e4b-it-q4_K_M pèse 9,6 Go, ce qui laisse environ 6 Go pour le contexte et le KV cache sur un GPU 16 Go. Le variant e4b-it-bf16 (précision maximale) utilise les 16 Go en totalité.

LiteRT-LM : serveur local compatible OpenAI. Google publie une nouvelle commande CLI litert-lm serve qui expose Gemma 4 12B comme serveur API local compatible OpenAI, avec cache de préfixes sans état pour réduire la latence sur les requêtes répétées partageant un contexte système commun.

litert-lm import --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve

Une fois lancé, le serveur s’intègre nativement avec Continue, Aider, OpenClaw, Hermes et OpenCode sans configuration supplémentaire. Le principe est similaire aux serveurs Ollama ou llama.cpp, mais LiteRT-LM est l’outil officiel Google optimisé pour le format .litertlm et l’écosystème AI Edge.

Applications macOS desktop. Deux applications font tourner Gemma 4 12B entièrement offline sur Apple Silicon :

Google AI Edge Gallery (étendu au desktop) : exécution sandboxée avec support Python pour le calcul scientifique, accessible aux utilisateurs non-développeurs.
Google AI Edge Eloquent : interface conversationnelle voice avec support des entrées Voice Edit, permettant des interactions audio directes avec le modèle.

Autres frameworks supportés : LM Studio, Ollama, Hugging Face Transformers, llama.cpp, MLX, SGLang et vLLM.

Comment fine-tuner Gemma 4 12B efficacement ?

L’architecture unifiée a un effet direct sur le fine-tuning : il n’y a pas à décider si on adapte l’encodeur, le LLM, ou les deux, ni à gérer des learning rates différentiels entre composants. Un adapter LoRA ou un fine-tuning complet met à jour l’ensemble du pipeline multimodal en un seul passage.

Via Hugging Face Transformers : le modèle est disponible sur Hugging Face avec des notebooks de démarrage rapide fournis par Google. Compatible PEFT pour l’adapter-based training (LoRA, QLoRA). Pour un cas d’usage multimodal (vision, texte), le pipeline de préparation des données est identique à un fine-tuning texte seul : les images sont tokenisées via l’embedder et passées comme tokens supplémentaires dans la séquence d’entrée.

Via Unsloth : Unsloth supporte Gemma 4 12B pour un entraînement optimisé en mémoire. Unsloth réduit l’empreinte mémoire de 30 à 60% sur les fine-tunings LoRA par rapport à l’implémentation Transformers de base, ce qui le rend adapté aux environnements 16-24 Go de VRAM où un fine-tuning complet ne tiendrait pas.

Pour les équipes qui travaillent sur des tâches multimodales (génération de code à partir de screenshots, analyse de documents visuels, transcription et structuration audio), l’unification des poids réduit aussi la complexité des datasets : un jeu de données mixte texte, image et audio se traite dans un seul pipeline, sans séparation des modalités.

Qu’est-ce que le Gemma Skills Repository ?

Google publie simultanément le Gemma Skills Repository, une bibliothèque officielle de compétences prépackagées pour construire des agents avec les modèles Gemma. Le repository fournit des gemma-skills utilisables via des harnesses agentiques comme OpenCode.

L’exemple publié dans le guide est illustratif : Gemma 4 12B s’est utilisé lui-même pour créer une application locale de traitement d’image. Le modèle a généré le code d’une app Gradio, la lui a soumise pour révision, puis l’a servie localement via llama.cpp, avec OpenCode comme coordinateur. L’ensemble du workflow s’est déroulé sans dépendance cloud.

Le Gemma Skills Repository positionne Gemma 4 12B non plus seulement comme un modèle de complétion, mais comme une base pour des workflows agentiques locaux, dans un contexte où la souveraineté des données et le contrôle des permissions des agents font débat.

Quelles options de déploiement en production sur Google Cloud ?

Pour les équipes qui passent au-delà du local, Google propose trois options dans son écosystème :

Gemini Enterprise Agent Platform Model Garden : accès managé à Gemma 4 12B dans l’écosystème Vertex AI. Convient aux organisations déjà sur Google Cloud qui veulent un déploiement managé avec monitoring intégré.
Cloud Run : déploiement serverless, facturé à l’usage. Adapté aux APIs à trafic variable ou faible, ou aux tests de charge sans infrastructure fixe.
GKE (Google Kubernetes Engine) : pour les déploiements à charge soutenue avec auto-scaling horizontal, pour les équipes qui gèrent déjà une infrastructure Kubernetes.

Dans les trois cas, les mêmes poids sont utilisés : il n’y a pas de version cloud-spécifique du modèle, ce qui facilite les architectures hybrides (dev local, prod cloud) ou les migrations progressives.

Quels variants Gemma 4 sont disponibles sur Ollama ?

La bibliothèque Ollama propose 38 variants de la famille Gemma 4, déployés progressivement depuis deux mois. Les quatre variants Gemma 4 12B MLX ont été publiés quelques heures avant la rédaction de cet article. La gamme se répartit en trois familles : modèles standard (quantized et bf16, texte et image), variants MLX pour Apple Silicon (texte uniquement), et variants spécialisés (cloud, coding, MTP).

Variants Gemma 4 12B sur Ollama :

Tag Ollama	Taille	Contexte	Entrées	Format
`gemma4:12b-mlx`	10,0 Go	128K	Texte	MLX q4
`gemma4:12b-mlx-bf16`	24 Go	128K	Texte	MLX bf16
`gemma4:12b-mxfp8`	12 Go	128K	Texte	MLX fp8
`gemma4:12b-nvfp4`	10,0 Go	128K	Texte	MLX fp4

Pour démarrer : ollama run gemma4:12b-mlx

Tableau complet des 38 variants Gemma 4 :

Tag Ollama	Taille	Contexte	Entrées
`gemma4:latest`	9,6 Go	128K	Texte, Image
`gemma4:e2b`	7,2 Go	128K	Texte, Image
`gemma4:e4b`	9,6 Go	128K	Texte, Image
`gemma4:26b`	18 Go	256K	Texte, Image
`gemma4:31b`	20 Go	256K	Texte, Image
`gemma4:e2b-it-q4_K_M`	7,2 Go	128K	Texte, Image
`gemma4:e2b-it-q8_0`	8,1 Go	128K	Texte, Image
`gemma4:e2b-it-bf16`	10 Go	128K	Texte, Image
`gemma4:e2b-mlx`	7,1 Go	128K	Texte
`gemma4:e2b-mlx-bf16`	10 Go	128K	Texte
`gemma4:e2b-mxfp8`	7,9 Go	128K	Texte
`gemma4:e2b-nvfp4`	7,1 Go	128K	Texte
`gemma4:e4b-it-q4_K_M`	9,6 Go	128K	Texte, Image
`gemma4:e4b-it-q8_0`	12 Go	128K	Texte, Image
`gemma4:e4b-it-bf16`	16 Go	128K	Texte, Image
`gemma4:e4b-mlx`	9,6 Go	128K	Texte
`gemma4:e4b-mlx-bf16`	16 Go	128K	Texte
`gemma4:e4b-mxfp8`	11 Go	128K	Texte
`gemma4:e4b-nvfp4`	9,6 Go	128K	Texte
`gemma4:12b-mlx`	10,0 Go	128K	Texte
`gemma4:12b-mlx-bf16`	24 Go	128K	Texte
`gemma4:12b-mxfp8`	12 Go	128K	Texte
`gemma4:12b-nvfp4`	10,0 Go	128K	Texte
`gemma4:26b-a4b-it-q4_K_M`	18 Go	256K	Texte, Image
`gemma4:26b-a4b-it-q8_0`	28 Go	256K	Texte, Image
`gemma4:26b-mlx`	17 Go	256K	Texte
`gemma4:26b-mlx-bf16`	52 Go	256K	Texte
`gemma4:26b-mxfp8`	27 Go	256K	Texte
`gemma4:26b-nvfp4`	17 Go	256K	Texte
`gemma4:31b-cloud`	—	256K	Texte, Image
`gemma4:31b-coding-mtp-bf16`	64 Go	256K	Texte
`gemma4:31b-it-q4_K_M`	20 Go	256K	Texte, Image
`gemma4:31b-it-q8_0`	34 Go	256K	Texte, Image
`gemma4:31b-it-bf16`	63 Go	256K	Texte, Image
`gemma4:31b-mlx`	20 Go	256K	Texte
`gemma4:31b-mlx-bf16`	63 Go	256K	Texte
`gemma4:31b-mxfp8`	32 Go	256K	Texte
`gemma4:31b-nvfp4`	20 Go	256K	Texte

FAQ

Quelle est la différence entre Gemma 4 12B et les modèles e2b/e4b ?

Les modèles e2b (2 milliards de paramètres) et e4b (4 milliards) sont les variantes edge de Gemma 4, conçues pour des appareils contraints en mémoire (mobile, edge computing). Gemma 4 12B est un modèle dense de taille intermédiaire, plus capable sur des tâches complexes, qui ajoute l’entrée audio native et un contexte de 128K tokens. Tous partagent l’architecture decoder-only unifiée.

Peut-on utiliser Gemma 4 12B en multimodal sur Ollama dès maintenant ?

Les quatre variants 12B disponibles sur Ollama sont MLX uniquement, c’est-à-dire texte seul sur Apple Silicon. Pour la multimodalité (texte et image), les variants gemma4:e4b-it-q4_K_M (9,6 Go) ou gemma4:e2b-it-q4_K_M (7,2 Go) sont disponibles maintenant. Les variants 12B avec support image et audio complet devraient arriver dans les prochaines semaines.

LiteRT-LM est-il un remplaçant de llama.cpp ou Ollama ?

Non, ce sont des outils complémentaires. LiteRT-LM est l’outil officiel Google pour le format .litertlm, optimisé pour les modèles Gemma avec l’écosystème AI Edge. llama.cpp et Ollama supportent Gemma 4 via leurs propres conversions GGUF. Les trois exposent un endpoint local compatible OpenAI. Le choix dépend de l’écosystème d’outils déjà en place.

Gemma 4 12B peut-il remplacer un modèle cloud pour du RAG ou des agents ?

Pour des workflows RAG sur documents internes, oui dans beaucoup de cas. Le contexte de 128K tokens couvre la plupart des documents, l’architecture multimodale gère les PDFs avec images, et LiteRT-LM ou Ollama exposent un endpoint compatible avec LangChain, LlamaIndex ou n’importe quel framework RAG. Pour des workloads agentiques complexes avec appels d’outils parallèles, les modèles cloud plus larges restent supérieurs, mais Gemma 4 12B couvre une large portion des cas d’usage à moindre coût et sans exposition de données.

Lire le guide développeur complet →

Gemma 4 12B pose une question concrète aux équipes qui construisent des pipelines IA aujourd’hui : quelle part du stack multimodal a-t-on réellement besoin d’héberger dans le cloud ? Un modèle de 9,6 Go en Q4 qui traite texte, images et audio avec les mêmes poids, s’expose en API locale compatible OpenAI, et se fine-tune en un seul passage change le calcul. Avec 38 variants sur Ollama, un Gemma Skills Repository pour les workflows agentiques, et des apps macOS desktop offline, la famille Gemma 4 devient une base sérieuse pour une approche local-first, au moment même où la gouvernance et le contrôle des agents IA s’imposent comme priorités dans l’adoption enterprise.

Gemma 4 12B : le guide du développeur

Qu’est-ce qui change avec une architecture encoder-free ?

Comment Gemma 4 12B gère-t-il concrètement la vision et l’audio ?

Peut-on faire tourner Gemma 4 12B localement ?

Comment fine-tuner Gemma 4 12B efficacement ?

Qu’est-ce que le Gemma Skills Repository ?

Quelles options de déploiement en production sur Google Cloud ?

Quels variants Gemma 4 sont disponibles sur Ollama ?

FAQ

Quelle est la différence entre Gemma 4 12B et les modèles e2b/e4b ?

Peut-on utiliser Gemma 4 12B en multimodal sur Ollama dès maintenant ?

LiteRT-LM est-il un remplaçant de llama.cpp ou Ollama ?

Gemma 4 12B peut-il remplacer un modèle cloud pour du RAG ou des agents ?

Claude Opus 4.8 : les nouveautés d’Anthropic

Revue de presse — Agents IA, infrastructure & régulation — 26 mai 2026

Google I/O 2026 : toutes les annonces

Revue de presse — Agents IA : gouvernance, évaluation et sécurité — 3 juin 2026

Revue de presse — MCP, IA agentique & éthique — 25 mai 2026

Laisser un commentaire Annuler la réponse

Kodo Digital

Informations légales

Contact

Qu’est-ce qui change avec une architecture encoder-free ?

Comment Gemma 4 12B gère-t-il concrètement la vision et l’audio ?

Peut-on faire tourner Gemma 4 12B localement ?

Comment fine-tuner Gemma 4 12B efficacement ?

Qu’est-ce que le Gemma Skills Repository ?

Quelles options de déploiement en production sur Google Cloud ?

Quels variants Gemma 4 sont disponibles sur Ollama ?

FAQ

Quelle est la différence entre Gemma 4 12B et les modèles e2b/e4b ?

Peut-on utiliser Gemma 4 12B en multimodal sur Ollama dès maintenant ?

LiteRT-LM est-il un remplaçant de llama.cpp ou Ollama ?

Gemma 4 12B peut-il remplacer un modèle cloud pour du RAG ou des agents ?

Publications similaires

Laisser un commentaire Annuler la réponse

Kodo Digital

Informations légales

Contact