『コンテキスト98%削減』を謳うMCPプラグイン context-mode を、使い捨てDocker隔離環境でON/OFF実測。Claude Codeでは削減どころか+50%増えました。なぜ増えるのか、どんな環境なら効くのかを数字で整理します。
関連記事:
TL;DR: 「コンテキスト窓を98%削減する」と謳うMCPプラグイン context-mode を、安全に隔離した使い捨てDocker環境で ON/OFF 実測しました。結論は、Claude Code では削減どころかコンテキストが増えました(あるタスクで +50.6%、本命の巨大データ取得でも +46% かつ約2倍遅い)。原因は、Claude Code の純正ツールが元から賢く、節約する余地が最初から無いからです。「98%削減」は嘘ではありませんが、それは賢い純正ツールを持たない前提の数字。これから入れる人は一旦待ち、既に入れている人は自分の環境で実測するのが正解、というのが今回の結論です。
検証日:2026年6月11日(2026-06-11)/対象:context-mode v1.0.162・Claude Code 2.1.173。本文の比較数値はすべて当環境での実測値です。
AIコーディングを毎日していると、いちばん欲しくなるのは「コンテキスト窓の余裕」です。長い作業をしていると、いつの間にか窓がいっぱいになって、要約が走って、文脈が薄まる。あの感覚、わかってくれる人は多いはずです。
そんな折に「コンテキスト窓を98%削減するMCPプラグイン」という触れ込みのツールを見つけました。これは気になる、効くなら今すぐ入れたい——そう思ったのが出発点です。仕組みとしては、Web取得やファイル読み込み・API応答といった「重い生データ」を別プロセスで処理して、要約や検索ヒット部分だけを本体(LLM)に返す、というもの。315KB → 5.4KB のような劇的な削減例も掲げられています。
正直、心が動きました。でも、homelab を運用していると痛感するのですが、謳い文句と実機の挙動は別物です。だから今回も、飛びつく前にきちんと測ることにしました。結論から言うと——私の環境では「削減」どころか、むしろコンテキストが増えました。その一部始終を、データと一緒に共有します。
この「クレームを鵜呑みにせず、自分の経路で測る」という姿勢は、以前
Blogトークン60〜95%削減を謳う Headroom とは何者か——仕組み・公式ベンチ・導入判断を一次情報で整理するHeadroomの仕組み、公式ベンチ、RTKとの違い、実測との差を一次情報で整理。導入判断の材料をまとめます。→ を整理したときと同じです。削減率を大きく掲げるツールは、まず「どんな前提の数字なのか」を疑うところから始めると、損をしにくくなります。
効果を測る前に、私はこのプラグインを本番環境に入れたくありませんでした。理由はセキュリティです。
このプラグインは「sandboxed code execution(サンドボックス化されたコード実行)」を謳っていますが、ソースを読むと、その「サンドボックス」の実体は一時フォルダを作業場所にして、環境変数を少し掃除するだけでした。OSレベルの隔離(seccomp・名前空間分離・権限降格など)は一切なく、実行されるコードはこちらの権限そのままで動きます。さらに、URL取得機能に「社内LANのアドレスにもアクセスできてしまう」穴(外部から内部ネットワークを叩ける、いわゆるSSRF)があることも分かりました。
この見立ては自分ひとりの判断にせず、3つのAI(Claude / GPT-5.5系 / Gemini系)に独立してソースをレビューさせ、全員が「高価値な資産がある環境への常時導入は非推奨」で一致しました。未監査のLLMツールを評価するときに、まず隔離環境で安全性から確かめるという進め方は、
BlogAIが書いたコードの穴を、AI自身に3層で見張らせる——Claude Code 公式セキュリティプラグインを実機検証した正直な結論AIが生成したコードの脆弱性を、Anthropic公式の無料プラグイン security-guidance はどこまで防げるのか。わざと危険なコードを書かせて3層チェックが鳴るか実機検証し、限界も正直にまとめました。→ したときと同じ流儀です。
そこで、効果測定は次のような使い捨ての隔離環境で行いました。
ポイントは、安全性をプラグインの設定に頼らず、外側のOS隔離で担保したことです。ここを丁寧にやったので、安心して数字に集中できました。
比較指標はシンプルにしました。Claude Code を非対話モードで動かし、出力のJSONから「モデルに入力されたトークンの総量=入力 + キャッシュ生成 + キャッシュ読み出し」を取り出します。これが「コンテキスト窓をどれだけ使ったか」の実量です。
そのうえで、まったく同じタスクを context-mode の ON と OFF で1回ずつ走らせ、トークン量・ターン数・所要時間・(名目)コストを並べました。モデルは同一、プロンプトも同一です。
最初のタスクは「約1.6MBのJSON(2万件のレコード)の中から、特定のフィールドが既定値でないたった1件を見つけて答える」。どちらの設定でも正解(同じレコード)にたどり着きました。
| 設定 | コンテキストtoken | ターン | 所要時間 | コスト(名目) |
|---|---|---|---|---|
| OFF(context-mode 無効) | 45,393 | 2 | 8.3秒 | $0.056 |
| ON(context-mode 有効) | 68,354 | 3 | 11.1秒 | $0.067 |
ONの方が約50%多くコンテキストを使いました。 削減どころか増加です。
理由はシンプルでした。context-mode を入れると、そのツール群の定義やセッション開始時の指示注入が**固定の「税」**として乗ります(今回は約23,000トークン増)。一方、素のClaude Code はそもそも grep で2万件から一発で目的の1件を見つけ、生データを窓に流し込んでいません。つまり「節約する余地」が最初から無く、税だけが残ったわけです。
「いやいや、それはプラグインの得意分野じゃない」という声が聞こえてきそうなので、context-mode が本来狙っている使い方でもう一度。題材は「1MBを超える巨大なJSON(あるパッケージの全バージョン履歴)をネットから取得し、必要な情報を答える」。OFFはClaude Code純正の取得ツール、ONはプラグインの取得+索引化ツールを使わせました。どちらも正解です。
| 設定 | コンテキストtoken | ターン | 所要時間 | コスト(名目) |
|---|---|---|---|---|
| OFF(純正の取得ツール) | 70,538 | 3 | 11.5秒 | $0.111 |
| ON(取得+索引化ツール) | 102,830 | 5 | 24.3秒 | $0.105 |
本命の場面でも、ONは約46%多くコンテキストを使い、しかも所要時間は約2倍でした(コストだけは僅かに低い)。
なぜか。Claude Code の純正取得ツールはもともと賢く、1MBの生データを丸ごと窓に入れず、必要な部分に絞って返してくれます。つまり「窓が氾濫する」問題は純正ツールが既に解決済み。そこにプラグインの「取得+索引化+ツールの往復」を重ねるので、むしろ純増した、というわけです。
この「純正ツールが既に窓を節約しているから、外付けの削減ツールが効かない」という構図は、別のコンテキスト圧縮ツールでも同じでした。
BlogClaude CodeにHeadroomは効くのか?6条件潰した実測の結論Claude Codeの前にHeadroomを透過プロキシで挟んでも、6条件すべてで削減0%。本番Opus実測から、効く経路と無駄な経路を切り分けます。→ でも、透過プロキシ経由では6条件すべてで削減0%。違うツールで独立に測って同じ結論に至ったので、これは context-mode 固有の話ではなく、賢いエージェントに外付け削減を足す構図そのものの問題だと考えています。
ここは公平に書きます。「98%削減」が嘘とは思いません。 その数字は、おそらく「賢い純正ツールを持たないクライアント」や、「生データを cat や curl で丸ごとLLMに流し込んでしまう非効率なワークフロー」を前提にした比較です。そういう環境なら、間に挟んで生データを窓から追い出す効果は本物でしょう。
逆に言えば、Claude Code のように元から窓を節約してくれる相手には、その前提が成立しない。だから私の環境では「効果が出る余地がなく、オーバーヘッドだけが残った」。これが今回の実測の正体です。
ですので、「自作スクリプトで大量データをそのままLLMに渡している」「賢いツールを持たない別のクライアントで使っている」といったケースでは、結果が変わる可能性は十分にあります。私が測っていないだけです。
私の環境・使い方では、context-mode の導入は不要という結論になりました。安全面(名ばかりのサンドボックス・LAN内SSRFの穴)でも常時導入は避けたい、というのが3AI一致の見立てです。
そのうえで、立場別に2つだけ提案させてください。
謳い文句は出発点であって、答えではありません。最後はいつも、自分の環境の数字が決めてくれます。今回もそれを再確認できた、いい検証でした。
いいえ。今回の実測では、Claude Code のように賢い純正ツール(grep・WebFetch)を持つ環境では、削減の余地が最初から無く、むしろツール定義とフック注入の固定オーバーヘッド(今回は約+23,000トークン)が乗って増えました。減るかどうかは、あなたが使っているクライアントが「生データをそのまま窓に流し込んでいるか」に強く依存します。
そうとは言い切れません。賢いツールを持たないクライアントや、cat/curl で生データを丸ごとLLMに渡す非効率なワークフローが前提なら、間に挟んで生データを追い出す効果は本物のはずです。問題は、その前提が Claude Code には当てはまらないこと。クレーム自体ではなく「どの前提の数字か」を確認するのが大切です。
同じタスクを context-mode の ON と OFF で1回ずつ走らせ、入力+キャッシュ生成+キャッシュ読み出しのトークン量を比べるだけです。非対話モードのJSON出力から拾えます。1回測れば、自分の典型タスクで税になっているか効いているかが一目で分かります。
出典
この記事は、実務で AI ツールを活用している開発者・技術者向けに書いています。
HW系エンジニアとして20年以上、10,000件を超える顧客訪問と2,000件を超える単独ソリューション実績。AIツールを使った個人開発やIoT農園など、Raspberry Piを使ったオートメーション化なども実践中です。エンジニア専門結婚相談所も運営しています。
META-MARK × AI
ローカルAIを動かすGPU、ちゃんと選べていますか?
VRAM・性能・コスパをMetaScoreで数値化。AIアプリ別の推奨ハードウェア要件も確認できます。