gemma4 12BはどのGPUで動く？実測3点＋主要18枚の速度早見表【VRAM 8GBは崖の縁】

TL;DR: gemma4 12B を GPU で動かすなら、まずは VRAM と帯域を分けて見るのが近道です。この記事では、設定や導入の手順ではなく、どの GPU ならどれくらい動くかを実測3点と主要18枚の早見表で整理します。

関連記事としては Bloggemma4:12bはollamaで動かない — 12GB GPUでllama.cpp実測52t/sの最短ルートollamaのHTTP 500やSIGFPEで詰まるgemma4:12bを、llama.cpp経由で12GB GPUに載せる実測手順と判断材料をまとめました。→ もあわせて読むと、今回の論点とのつながりを把握しやすくなります。

この記事で分かること

結論から言います。gemma4 12Bは、12GBなら52t/s前後で快適圏、8GBは崖の縁、VRAMが足りないと1桁t/sまで落ちます。

この記事では、Q4_K_M（7.4GB）前提で、手持ちGPUで動くかどうか、どれくらい速いか、買い足すならどこが分水嶺かを、実測3点と主要18枚の早見表で整理します。予測値と実測値は混ぜません。

先に結論：12GBは快適、8GBは危ない、24GBは速い

12GB: gemma4 12B の実用ラインです。実測では RTX 4070 Ti 12GB = 52.25t/s。体感はかなり素直で、待たされる感じは薄いです。
16GB: 余裕があります。実測では RTX A4000 16GB = 44.77t/s。容量は安心ですが、帯域次第で速度は伸び切りません。
24GB: かなり速いです。実測では RTX 3090 24GB = 75.44t/s。中古で狙う価値はあります。
8GB: ここははっきり言います。崖の縁です。 Q4_K_M でも容量は“ちょうど”で、コンテキストを削るか部分オフロード前提になります。あふれると一気に遅くなります。

ここで一度、足元を見ておきます。VRAMは「動くか」を決め、帯域は「速いか」を決めます。 この2つを混ぜると判断を誤ります。

前提条件

この記事の数値は、すべて gemma4 12B / Q4_K_M / 7.4GB 前提です（2026-06-05時点の実測・調査に基づきます）。

量子化が違えば必要VRAMも速度も変わります
コンテキスト長が伸びればVRAM消費は増えます
GPUの冷却、電力制限、ドライバ、実行エンジンでも変動します
ここでの速度は、同じ条件での比較用の目安です

つまり、この記事の数字は「絶対値」ではなく、GPU選定のための比較軸として使ってください。

実測アンカー3点

まず、予測の土台になる実測を置きます。ここを飛ばすと、以降の表がただの“それっぽい数字”になります。

status	GPU	VRAM	実測 t/s	条件	メモ
実測	RTX 4070 Ti	12GB	52.25	ollama 0.30.4 / text-only Modelfile / 100%GPU	12GB帯の基準点
実測	RTX A4000	16GB	44.77	llama.cpp	帯域は控えめでも安定
実測	RTX 3090	24GB	75.44	llama.cpp / RunPod実走 / 2026-06-05	費用 $0.073

この3点が、この記事のアンカーです。

速度の見方はVRAMより帯域

gemma4 12B の Q4_K_M は、必要VRAMが 7.4GB です。だから、まず「載るか」はVRAMで見ます。ですが、速さは帯域で決まる場面が多いです。

ざっくりした予測式はこれです。

tokens/s ≈ メモリ帯域(GB/s) ÷ 7.4(GB) × 効率

実測から逆算した効率は、だいたい次の通りでした。

RTX A4000: 0.74
RTX 4070 Ti: 0.77
RTX 3090: 0.60

この結果、〜700GB/s帯は効率0.75前後でかなり当たる一方、700GB/sを超えると効率が落ちる傾向が見えました。

つまり、

VRAMは可否を決める
帯域は速度を決める

です。

たとえば 4060 Ti 16GB は容量に余裕があっても、帯域が 288GB/s しかないため、予測速度はそこまで伸びません。逆に 3080 10GB は容量がタイトでも帯域が強く、速度はかなり出ます。

「容量が多いほうが速いはず」と考えたくなりますが、実機ではそう単純ではありません。ここが引っかかりやすいところです。

主要18枚の速度早見表

以下は、実測6点＋帯域ベース予測の早見表です。status列を必ず見てください。実測と予測を混ぜていません。 なお実測のうち RTX A4000 は llama.cpp、RTX 3090 は両ランタイム（llama.cpp 75.44 と ollama 63.16）、それ以外（3060・4070 Ti・4090・5090）は ollama での計測です。ランタイムが違うと同じGPUでも十数%ずれるため（3090 実測がその好例）、実測同士の t/s を1対1で比べるときは計測条件もあわせて見てください。

status	GPU	VRAM	目安 t/s	判定	補足
実測	RTX 3060	12GB	31.84	実用可	ollama実走2026-06-07（予測36→やや下）
予測	RTX 3070	8GB	約45	崖の縁	容量が厳しい
予測	RTX 3080	10GB	約62〜77	実用可	帯域が強い
実測	RTX 3090	24GB	75.44	快適	llama.cpp / RunPod実走 $0.073（ollama版は63.16・下の追記参照）
予測	RTX 4060	8GB	約28	崖の縁	容量が厳しい
予測	RTX 4060 Ti	16GB	約29	実用可だが遅め	容量より帯域がボトルネック
予測	RTX 4070	12GB	約51	快適	4070Ti実測に近い基準
実測	RTX 4070 Ti	12GB	52.25	快適	12GB帯の基準点
予測	RTX 4080 Super	16GB	約60〜75	快適	条件差で振れやすい
実測	RTX 4090	24GB	76.38	高速	ollama実走2026-06-07（予測82〜102→やや下振れ）
予測	RTX 5060 Ti	16GB	約45	実用可	世代差の影響あり
予測	RTX 5070	12GB	約68	快適	帯域設計次第
予測	RTX 5070 Ti	16GB	約73〜91	快適〜高速	幅あり
予測	RTX 5080	16GB	約78〜97	高速	幅あり
実測	RTX 5090	32GB	94.18	高速	ollama実走2026-06-07（予測145〜182→大幅下振れ）
実測	RTX A4000	16GB	44.77	実用可	安定志向
予測	RTX 3060 Ti	8GB	約45	崖の縁	帯域448GB/s・容量注意
予測	RTX 4070 Super	12GB	約51	快適	帯域504GB/s・4070Ti近傍

※ 予測値は Q4_K_M / 7.4GB 前提です。別量子化では変わります。

8GBが崖の縁と言う理由

この記事でいちばん気になるのは、たぶんここだと思います。「8GBでもいけてしまうのでは？」と。

8GB GPUは「全く無理」ではありません。そこがややこしいところです。

ただし、gemma4 12B の Q4_K_M は、本体だけで7.4GB あります。ここに実行時のバッファ、コンテキスト分が乗り、実測では合計8.0GB（RTX 4070 Ti・デフォルトコンテキスト）に達しました。8GBカードにとっては文字どおり「容量ちょうど」です。

そのため、8GB帯は次のどれかになりやすいです。

コンテキストをかなり削る
一部をCPUへ逃がす
速度が大きく落ちる
途中でVRAM不足にぶつかる

実際、VRAMあふれは甘くありません。参考までに、RTX A4000 16GB に gemma3:27b(19.5GB) を載せたケースでは、5.43t/s まで落ちました。GPU使用率は77%、CPUが23%に逃げています。

これが意味するのは、“少し足りない”は“だいぶ遅い”になるということです。

gemma4 12B で言えば、8GBカードはこの崖の最前線にいます。買い足しの判断材料としては、正直おすすめしづらいです。

3090の予測が外れた話

ここは隠さず書きます。

RTX 3090 は、事前予測では 94.9t/s と見ていました。ところが実測は 75.44t/s でした。21%の下振れです。

事実と推測を分けておきます。実測75.44t/sは事実です。一方、下振れの原因は推測になりますが、高帯域側ではメモリ律速だけでは説明しきれないためと考えています。

補足すると、この効率低下は世代差では説明できません。同じAmpere世代の中でも、A4000（448GB/s）は効率0.74、3090（936GB/s）は0.60 と、帯域が上がるほど効率が落ちています。「高帯域カードを1枚しか測っていないから外れただけ」ではなく、帯域内でも一貫した傾向です。

演算側の律速
スケジューラの挙動
実装差
量子化やカーネルの最適化差

このあたりが効いてきます。

なので、4090 / 5070 Ti / 5080 / 5090 のような高帯域帯は、単一の数字で断定しないでください。この記事では、あえて幅で出しています。

予測に気持ちよく乗りすぎると、あとで現物に裏切られます。実務では、そこが一番痛いです。

【追記 2026-06-07】4090・5090 を実測しました。 公開後、Vast.ai で RTX 4090 = 76.38 t/s / RTX 5090 = 94.18 t/s（いずれも ollama・ウォームアップ後）を実測しました。早見表の予測（4090=約82〜102、5090=約145〜182）に対し、特に 5090 は大きく下振れ。高帯域帯ほど効率が落ちる本記事の見立てを、実測がさらに裏付けた形です（5090 帯の実効率は約0.39まで低下）。なお 3090 は llama.cpp、4090・5090 は ollama での計測で、ランタイムが異なるため効率の数値同士は直接は比較できません（同じ条件なら llama.cpp の方が速く出ます）。

【追記 2026-06-08】3090 も ollama で測りました。 上の 75.44t/s は llama.cpp の値です。今回 Vast.ai で 同じ RTX 3090 を ollama で測ると 63.16t/s（ウォームアップ後）でした。同じGPU・同じモデルでも、ランタイムが違うだけで約16%差が出ます（llama.cpp の方が速い）。これは「ランタイムが異なると直接比較できない」と書いた点の、いちばん分かりやすい実測例です。なので 4090=76.38 や 5090=94.18（ともに ollama）と 3090 を並べるなら、3090 も ollama の 63.16 で揃えるのがフェアです（75.44 と混ぜない）。効率でいうと ollama の 3090 は約0.50で、ollama 同士で見ても高帯域ほど効率が下がる傾向は変わりませんでした。

買うならどのGPUか

用途別に、かなり率直に書きます。

12GB帯をすでに持っているなら

買い足しは急がなくてよいです。

RTX 4070 Ti 実測 52.25t/s
RTX 4070 近傍も実用圏

このあたりなら、gemma4 12B は十分“触れる”速度です。待ち時間が短く、ローカル運用の満足度も高いです。

8GBしかないなら

買い足しの根拠にしにくいです。

動く可能性はある
でも崖の縁
コンテキストを詰めると、使い勝手が落ちる

「とりあえず試したい」には向いても、「日常的に使う」には弱いです。

16GBを狙うなら

容量の安心感はあります。

ただし、速度はGPU次第です。

A4000 実測 44.77t/s は安定
でも 3090 のような帯域強者には届かない
4060 Ti 16GB のように、容量があっても遅い例もあります

速度最優先なら

中古3090はかなり強い選択肢です。

実測 75.44t/s
24GBで余裕がある
RunPod実走の費用は $0.073 でした

再現性を自分で確認したい人は、レンタル実験の相性もいいです。

なお、公開時点で残っていた ollama 上流バグ（mmproj 強制ロード）と GGUF 日本語崩れは、本記事公開当日の ollama 0.30.5 ＋ GGUF 再変換で解消されました（公式タグ gemma4:12b を 4070Ti で動作確認済み・52t/s で本記事の実測値どおり。思考モデルのため think:false の指定だけ必要です）。修正までの経緯と動かし方の詳細は Bloggemma4:12bはollamaで動かない — 12GB GPUでllama.cpp実測52t/sの最短ルートollamaのHTTP 500やSIGFPEで詰まるgemma4:12bを、llama.cpp経由で12GB GPUに載せる実測手順と判断材料をまとめました。→ にまとめているので、本記事ではGPU選定に集中します。

4070Ti 12GBでの実機運用の様子は BlogGemma 4 MTP drafter を今すぐ入れるべきか？ RTX 4070 Ti 12GB でつまずいた3つのポイントと結論RTX 4070 Ti 12GBでGemma 4 MTP drafterを実測。ドラフター0.14GB、ただし最速はvLLMの162.7 tok/s。導入判断を正直にまとめます。→ も参考になります。GPU別の対応状況は gemma 4 のAIワークロードページ にも整理しています。

再現するときの注意点

この記事の数字をそのままコピペすると、たぶん少しずれます。理由は単純で、実機条件が効くからです。

確認してほしいのは次のあたりです。

量子化: Q4_K_M かどうか
コンテキスト長: デフォルトか、増やしていないか
実行エンジン: ollama か llama.cpp か
GPU使用率: 100%GPU か、一部CPUに逃げていないか
VRAM使用量: 7.4GBを超えていないか

特に重要なのは、“VRAMに収まる”と“速い”は別という点です。

動作確認のしかた

自分のGPUで確認するなら、まずは次の順で見れば十分です。

VRAMが足りるか確認する
- gemma4 12B / Q4_K_M / 7.4GB を前提にする
- 8GB GPUなら、まず崖の縁だと考える
1回だけ生成して速度を見る
- 体感が遅いなら、たいていVRAM不足か帯域不足です
- 数字だけでなく、レスポンスの“間”を見ます
コンテキストを少し変えて再確認する
- ここで急に遅くなるなら、余裕がありません
VRAMあふれ時の挙動を見る
- 1桁t/sまで落ちるなら、運用ラインとしては厳しいです
必要なら導入ガイドへ進む
- Bloggemma4:12bはollamaで動かない — 12GB GPUでllama.cpp実測52t/sの最短ルートollamaのHTTP 500やSIGFPEで詰まるgemma4:12bを、llama.cpp経由で12GB GPUに載せる実測手順と判断材料をまとめました。→
- ここではGPU選定に集中し、セットアップの罠は別記事に分けています

最後に：今選ぶならこの基準です

時点付きで、判断を一行にするとこうなります。

コスパ分水嶺: 12GB。4070 / 4070 Ti 級で 52t/s前後。体感的にちょうどいい
速度最優先: 24GB帯。中古 3090 でも 75.44t/s実測 は強い
8GB: 買い足しの根拠にしない。試作はできても、常用の安心感は薄い

gemma4 12B は、見た目よりも「GPUの選び方」で満足度が変わります。 VRAMだけで安心せず、帯域と実測を一緒に見る。これが、いちばん外しにくい判断です。

注意点・制約

本記事の数値は Q4_K_M（7.4GB） 前提です。Q5/Q8 など別量子化では必要VRAMも速度も変わります。
「予測」の行は帯域ベースの推定値で、実機の冷却・電力制限・ドライバ・実行エンジンで上下します。
高帯域帯（700GB/s超）の予測は3090実測で21%下振れを確認済みのため、幅の下限寄りで読むのが安全です。
ollama 対応状況・日本語出力品質は 2026-06-05 時点のもので、上流の更新で変わります。

どのように検証したか

実測は、自宅AIサーバー（RTX 4070 Ti 12GB・ollama 0.30.4）、RunPod 実走（RTX A4000 / RTX 3090・llama.cpp server-cuda）、Vast.ai 実走（RTX 3060 / 4090 / 5090・ollama・ウォームアップ後）で取得しました。
tokens/s はサーバー報告値（eval_count / eval_duration）で計測し、壁時計のネットワーク遅延は含みません。
VRAM使用量・GPU/CPUオフロード比率も同時に記録し、結果は実測台帳（JSON）に保存しています。
RTX 3090 の RunPod 実走費用は $0.073 でした。

よくある質問

8GBのGPUしか持っていません。gemma4 12Bは動きますか？

「動く可能性はあるが崖の縁」です。Q4_K_M の実測VRAM使用量は8.0GBで、8GBカードは容量ちょうど。コンテキストを削るか部分オフロード前提になり、あふれると1桁t/sまで落ちます。常用前提ならおすすめしません。

表の「予測」の数字はどれくらい信用できますか？

〜700GB/s帯は実測との誤差が小さく（4070=予測51 vs 4070Ti実測52.25）かなり当てになります。700GB/s超は3090で21%下振れした実績があるため、幅付きの参考値として読んでください。

量子化を変えたらどうなりますか？

必要VRAMと速度の両方が変わります。本記事の予測式（帯域÷モデルサイズ×効率）のモデルサイズを差し替えれば、自分でおおよその見当をつけられます。

参考リンク

この記事を書いた人

HW系エンジニアとして20年以上、10,000件を超える顧客訪問と2,000件を超える単独ソリューション実績。AIツールを使った個人開発やIoT農園など、Raspberry Piを使ったオートメーション化なども実践中です。エンジニア専門結婚相談所も運営しています。ClaudeCodeで解決できない心の課題も、現場目線で一緒に整理します。