gemma4 12Bを手持ちGPUで動かす判断材料を、VRAM別・実測3点・主要18枚の速度早見表で整理。8GBの限界も明確にします。
TL;DR: gemma4 12B を GPU で動かすなら、まずは VRAM と帯域を分けて見るのが近道です。この記事では、設定や導入の手順ではなく、どの GPU ならどれくらい動くかを実測3点と主要18枚の早見表で整理します。
結論から言います。gemma4 12Bは、12GBなら52t/s前後で快適圏、8GBは崖の縁、VRAMが足りないと1桁t/sまで落ちます。
この記事では、Q4_K_M(7.4GB)前提で、手持ちGPUで動くかどうか、どれくらい速いか、買い足すならどこが分水嶺かを、実測3点と主要18枚の早見表で整理します。予測値と実測値は混ぜません。
ここで一度、足元を見ておきます。VRAMは「動くか」を決め、帯域は「速いか」を決めます。 この2つを混ぜると判断を誤ります。
この記事の数値は、すべて gemma4 12B / Q4_K_M / 7.4GB 前提です(2026-06-05時点の実測・調査に基づきます)。
つまり、この記事の数字は「絶対値」ではなく、GPU選定のための比較軸として使ってください。
まず、予測の土台になる実測を置きます。ここを飛ばすと、以降の表がただの“それっぽい数字”になります。
| status | GPU | VRAM | 実測 t/s | 条件 | メモ |
|---|---|---|---|---|---|
| 実測 | RTX 4070 Ti | 12GB | 52.25 | ollama 0.30.4 / text-only Modelfile / 100%GPU | 12GB帯の基準点 |
| 実測 | RTX A4000 | 16GB | 44.77 | llama.cpp | 帯域は控えめでも安定 |
| 実測 | RTX 3090 | 24GB | 75.44 | llama.cpp / RunPod実走 / 2026-06-05 | 費用 $0.073 |
この3点が、この記事のアンカーです。
gemma4 12B の Q4_K_M は、必要VRAMが 7.4GB です。だから、まず「載るか」はVRAMで見ます。ですが、速さは帯域で決まる場面が多いです。
ざっくりした予測式はこれです。
tokens/s ≈ メモリ帯域(GB/s) ÷ 7.4(GB) × 効率
実測から逆算した効率は、だいたい次の通りでした。
この結果、〜700GB/s帯は効率0.75前後でかなり当たる一方、700GB/sを超えると効率が落ちる傾向が見えました。
つまり、
です。
たとえば 4060 Ti 16GB は容量に余裕があっても、帯域が 288GB/s しかないため、予測速度はそこまで伸びません。逆に 3080 10GB は容量がタイトでも帯域が強く、速度はかなり出ます。
「容量が多いほうが速いはず」と考えたくなりますが、実機ではそう単純ではありません。ここが引っかかりやすいところです。
以下は、実測3点+帯域ベース予測の早見表です。status列を必ず見てください。実測と予測を混ぜていません。
| status | GPU | VRAM | 目安 t/s | 判定 | 補足 |
|---|---|---|---|---|---|
| 予測 | RTX 3060 | 12GB | 約36 | 実用可 | 帯域次第で安定寄り |
| 予測 | RTX 3070 | 8GB | 約45 | 崖の縁 | 容量が厳しい |
| 予測 | RTX 3080 | 10GB | 約62〜77 | 実用可 | 帯域が強い |
| 実測 | RTX 3090 | 24GB | 75.44 | 快適 | RunPod実走 / $0.073 |
| 予測 | RTX 4060 | 8GB | 約28 | 崖の縁 | 容量が厳しい |
| 予測 | RTX 4060 Ti | 16GB | 約29 | 実用可だが遅め | 容量より帯域がボトルネック |
| 予測 | RTX 4070 | 12GB | 約51 | 快適 | 4070Ti実測に近い基準 |
| 実測 | RTX 4070 Ti | 12GB | 52.25 | 快適 | 12GB帯の基準点 |
| 予測 | RTX 4080 Super | 16GB | 約60〜75 | 快適 | 条件差で振れやすい |
| 予測 | RTX 4090 | 24GB | 約82〜102 | 快適〜高速 | 高帯域側は幅で読む |
| 予測 | RTX 5060 Ti | 16GB | 約45 | 実用可 | 世代差の影響あり |
| 予測 | RTX 5070 | 12GB | 約68 | 快適 | 帯域設計次第 |
| 予測 | RTX 5070 Ti | 16GB | 約73〜91 | 快適〜高速 | 幅あり |
| 予測 | RTX 5080 | 16GB | 約78〜97 | 高速 | 幅あり |
| 予測 | RTX 5090 | 32GB | 約145〜182 | 参考値 | 完全外挿に近い |
| 実測 | RTX A4000 | 16GB | 44.77 | 実用可 | 安定志向 |
| 予測 | RTX 3060 Ti | 8GB | 約45 | 崖の縁 | 帯域448GB/s・容量注意 |
| 予測 | RTX 4070 Super | 12GB | 約51 | 快適 | 帯域504GB/s・4070Ti近傍 |
※ 予測値は Q4_K_M / 7.4GB 前提です。別量子化では変わります。
この記事でいちばん気になるのは、たぶんここだと思います。「8GBでもいけてしまうのでは?」と。
8GB GPUは「全く無理」ではありません。そこがややこしいところです。
ただし、gemma4 12B の Q4_K_M は、本体だけで7.4GB あります。ここに実行時のバッファ、コンテキスト分が乗り、実測では合計8.0GB(RTX 4070 Ti・デフォルトコンテキスト)に達しました。8GBカードにとっては文字どおり「容量ちょうど」です。
そのため、8GB帯は次のどれかになりやすいです。
実際、VRAMあふれは甘くありません。参考までに、RTX A4000 16GB に gemma3:27b(19.5GB) を載せたケースでは、5.43t/s まで落ちました。GPU使用率は77%、CPUが23%に逃げています。
これが意味するのは、“少し足りない”は“だいぶ遅い”になるということです。
gemma4 12B で言えば、8GBカードはこの崖の最前線にいます。買い足しの判断材料としては、正直おすすめしづらいです。
ここは隠さず書きます。
RTX 3090 は、事前予測では 94.9t/s と見ていました。ところが実測は 75.44t/s でした。21%の下振れです。
事実と推測を分けておきます。実測75.44t/sは事実です。一方、下振れの原因は推測になりますが、高帯域側ではメモリ律速だけでは説明しきれないためと考えています。
補足すると、この効率低下は世代差では説明できません。同じAmpere世代の中でも、A4000(448GB/s)は効率0.74、3090(936GB/s)は0.60 と、帯域が上がるほど効率が落ちています。「高帯域カードを1枚しか測っていないから外れただけ」ではなく、帯域内でも一貫した傾向です。
このあたりが効いてきます。
なので、4090 / 5070 Ti / 5080 / 5090 のような高帯域帯は、単一の数字で断定しないでください。この記事では、あえて 幅 で出しています。
予測に気持ちよく乗りすぎると、あとで現物に裏切られます。実務では、そこが一番痛いです。
用途別に、かなり率直に書きます。
買い足しは急がなくてよいです。
このあたりなら、gemma4 12B は十分“触れる”速度です。待ち時間が短く、ローカル運用の満足度も高いです。
買い足しの根拠にしにくいです。
「とりあえず試したい」には向いても、「日常的に使う」には弱いです。
容量の安心感はあります。
ただし、速度はGPU次第です。
中古3090はかなり強い選択肢です。
再現性を自分で確認したい人は、レンタル実験の相性もいいです。
なお、gemma4 12B は 2026-06-05 時点で ollama 上流バグ(mmproj 強制ロード)や GGUF 日本語崩れなどの罠が残っています。動かし方の詳細は
Bloggemma4:12bはollamaで動かない — 12GB GPUでllama.cpp実測52t/sの最短ルートollamaのHTTP 500やSIGFPEで詰まるgemma4:12bを、llama.cpp経由で12GB GPUに載せる実測手順と判断材料をまとめました。→ にまとめているので、本記事ではGPU選定に集中します。
4070Ti 12GBでの実機運用の様子は
BlogGemma 4 MTP drafter を今すぐ入れるべきか? RTX 4070 Ti 12GB でつまずいた3つのポイントと結論RTX 4070 Ti 12GBでGemma 4 MTP drafterを実測。ドラフター0.14GB、ただし最速はvLLMの162.7 tok/s。導入判断を正直にまとめます。→ も参考になります。GPU別の対応状況は gemma 4 のAIワークロードページ にも整理しています。
この記事の数字をそのままコピペすると、たぶん少しずれます。理由は単純で、実機条件が効くからです。
確認してほしいのは次のあたりです。
特に重要なのは、“VRAMに収まる”と“速い”は別という点です。
自分のGPUで確認するなら、まずは次の順で見れば十分です。
VRAMが足りるか確認する
1回だけ生成して速度を見る
コンテキストを少し変えて再確認する
VRAMあふれ時の挙動を見る
必要なら導入ガイドへ進む
時点付きで、判断を一行にするとこうなります。
gemma4 12B は、見た目よりも「GPUの選び方」で満足度が変わります。 VRAMだけで安心せず、帯域と実測を一緒に見る。これが、いちばん外しにくい判断です。
「動く可能性はあるが崖の縁」です。Q4_K_M の実測VRAM使用量は8.0GBで、8GBカードは容量ちょうど。コンテキストを削るか部分オフロード前提になり、あふれると1桁t/sまで落ちます。常用前提ならおすすめしません。
〜700GB/s帯は実測との誤差が小さく(4070=予測51 vs 4070Ti実測52.25)かなり当てになります。700GB/s超は3090で21%下振れした実績があるため、幅付きの参考値として読んでください。
必要VRAMと速度の両方が変わります。本記事の予測式(帯域÷モデルサイズ×効率)のモデルサイズを差し替えれば、自分でおおよその見当をつけられます。
HW系エンジニアとして20年以上、10,000件を超える顧客訪問と2,000件を超える単独ソリューション実績。AIツールを使った個人開発やIoT農園など、Raspberry Piを使ったオートメーション化なども実践中です。 エンジニア専門結婚相談所も運営しています。ClaudeCodeで解決できない心の課題も、現場目線で一緒に整理します。
META-MARK × AI
ローカルAIを動かすGPU、ちゃんと選べていますか?
VRAM・性能・コスパをMetaScoreで数値化。AIアプリ別の推奨ハードウェア要件も確認できます。