難しいテトリス実装で7構成を比較。軍師が崩れ、参謀も割高に収束。最上位モデル単体の信頼性が効く条件を実測で整理します。
関連記事としては
BlogAnthropicリーク2連発:Claude MythosとClaude Code流出で見えたKAIROS、BUDDY、Undercover Modeの正体Anthropicの2週間で2回のリークを整理。Claude Mythosの位置づけ、Claude Code流出の中身、KAIROS/BUDDY/Undercover Modeの意味を分けて読む。→ もあわせて読むと、今回の論点とのつながりを把握しやすくなります。
前回のLP記事では、軍師(設計図を高モデルに作らせて実装は安いモデル)が安く勝ちました。ところが今回のような難しい課題のゲーム実装では、話がきれいに反転します。
verdict
結論はこうです。
はい、これは前回と真逆に見えます。ただし、ここで大事なのは「どっちが常に正しいか」ではなく、課題の難易度で最適戦略が変わることです。
まず用語を置き換えます。ここでいう軍師は、Claude Code の Plan モードに近い使い方です。つまり、高モデル(ここでは Fable)に作る前の設計図だけ作らせ、実装は安いモデルに任せるやり方です。参謀は逆で、完成物を高モデルにレビューさせて直させる事後レビュー型です。前回記事を読んでいない方でも、手元の Plan モード/レビュー依頼にそのまま置き換えて読めるようにしています。
今回の比較対象は、同じテトリスを 7 構成で作らせた実測です。読者が知りたいのは「どっちが上か」より、自分の用途ならどの組み合わせが割に合うかだと思います。そこに絞って書きます。
ここで一度、足元を見ておきます。今回の結果は、何でもかんでも一般化できる話ではありません。ブラウザゲーム(テトリス)を near 一発出しで作らせた、複雑課題1件の実測です。
検証時点
比較条件は次の通りです。
同じテトリスを 7 構成で生成
うち 2 構成は同じ設計図を共有
コストは出力単価ベースの上限概算
客観スコアは次で評価
チェックリストは 7 構成の静的ソーストレースと、運営者のプレイ判定で確定
各構成の生成物、差分、エラーログ、採点チェックリストは本文末の /llm-test/creations から追えるようにしてあります
補足すると、今回の設計図はかなり丁寧でした。canvas を 2 枚に分け、盤面と現在ピースを分離し、回転は純粋関数で仮判定し、壁蹴りは [0,+1,-1,+2,-2]、行消去は抜き式で、という指示まで入っています。ところが、それでも崩れる構成は崩れました。ここが今回の肝です。
まず数字です。今回の 7 構成は、上限概算ではこうなりました。
| 構成 | コスト | スコア | 補足 |
|---|---|---|---|
| Fable 単体 | $3.69 | 100 | 重大バグなし。基準 |
| Sonnet 参謀 | $3.77 | 93 | 致命3バグを修正。最も高コスト |
| Haiku 参謀 | $3.13 | 86 | そこそこ直るが、最後まで安くはない |
| Haiku 軍師 | $2.57 | 79 | 遊べるが、崩れも残る |
| Haiku 単体 | $0.19 | 72 | 最安。完成度は低い |
| Sonnet 単体 | $0.59 | 55 | リスタート不能+起動例外あり |
| Sonnet 軍師 | $3.02 | 31 | 盤面が描画されない破綻 |
この表だけ見ると、少し混乱するかもしれません。安い構成がそのまま悪い、という話ではありません。実際、Haiku 単体は最安ですし、Haiku 軍師は遊べる水準でした。
ただ、難しい課題では「あと少し」が地味に重いです。遊べるかどうか、再起動できるかどうか、盤面が描画されるかどうか。こうした基本動作の有無が、コスト差よりはるかに強く効く場面があります。
前回のLPでは、軍師は強かったです。設計図を上位モデルに作らせて、実装は安いモデルに流す。簡単な課題では、これがかなり効きました。
でも今回のテトリスでは、「軍師なら安泰」という前提が崩れました。
特に対照的だったのは、同じ設計図を共有した 2 つの軍師構成です。
これは驚きの結果でした。しかも、設計図はどちらも同じです。つまり、設計の良し悪しだけでは守り切れないということです。
Sonnet 軍師の破綻は、かなり厄介でした。requestAnimationFrame を読込直後に呼んでしまい、空配列の board を前提に drawBoard が例外を連発します。見た目は「何か動いている」ように見えて、実際は盤面が描画されず、スコアだけ増える。こういうのは現場で触ると、じわじわ嫌です。
ここで言いたいのは、設計図を渡したからといって、実装が安定するとは限らないことです。難課題では、実装役のモデルのクセや破綻耐性がそのまま出ます。
requestAnimationFrame の起動位置と drawBoard の前提配列を疑う。board が空のタイミングで描画ループが回っていないかをログで確認し、起動を初期化完了後に戻す参謀はどうだったか。結論だけ言うと、直せます。ただし、安くはなりません。
Sonnet 参謀は、完成物をレビューさせて複数の致命点を直しました。
結果として、かなり「正しく直った」仕上がりにはなりました。ですが、コストは $3.77 で、Fable 単体の $3.69 とほぼ同等です。
ここは重要です。
つまり、参謀は役に立ちます。ですが、「最後に高モデルで締めるなら、そのまま高モデル単体で作らせてもよくないか?」という問いが残ります。今回、その問いにかなり強く YES が出ました。
今回、LLM が書くテトリスの“あるある”がはっきり出ました。複数ライン同時消しで盤面が壊れるバグです。
正体はシンプルで、消去行を降順に splice してインデックスがずれることです。これを、Haiku 単体・Haiku 軍師・Sonnet 単体の初期版が共通して踏みました。
見た目は完成しているのに、2 行以上同時に消すと露見します。しかも、ゲームとして遊んでいるだけだと気づきにくい。ここが厄介です。
修正は、降順 splice をやめて、消えない行だけを残す filter 方式にすることです。要するに、
この方が安全です。
なお、運営者が「回転すると別ブロックに化ける」と体感した点については、ここで誤解を避けておきます。真の型化けではありません。正体は、
この副作用でした。回転ロジック自体は、7 構成すべてで型と色を保持していました。なので、「回転で型が化けた」と断定するのは誤りです。
こういう細部は、見た目だけ追うと簡単に取り違えます。実際に触って、ログと画面の両方を見るのが大事です。
splice で順に抜く実装をやめ、filter で生存行だけを再構成する。戻すときは、2 行・3 行同時消去のケースを手動で再実行して、盤面下端の形が崩れていないかを確認する全 7 構成で、重大バグが一つも無かったのは Fable 単体だけでした。
内容も、ただ無難だったわけではありません。
このあたりまで含めて、運営者の評価では文句なしの最良でした。私は 40 代の現役エンジニアですが、こういう時は変に持ち上げず、まず「本当に壊れていないか」を見ます。その目線で見ても、Fable 単体が一番安定していました。
なぜこうなるのか。今回の答えはわりと素直です。
これは前回のLPとは対照的です。前回は「簡単な課題なら軍師が勝つ」でした。今回は「難しい課題ほど、軍師が崩れて最上位単体が勝つ」です。
ここが一番大事です。読者が次にどう判断すべきかです。
この場合、Plan モード型の軍師はかなり強いです。前回のLPはまさにこちらでした。
ただし、今回のように状態遷移が多くて壊れ方が複雑な課題だと、参謀コストは思ったほど下がりません。
ここで一度、足元を見ておきます。**「高いから無理」ではなく、「高いけど、壊れない確率に払うか」**です。複雑課題では、その差が後から効きます。
最後に、今回の実物は /llm-test/creations で遊べます。LP とテトリスの 2 タスクが並んでいるので、今回の記事だけでなく、前回との差も手元で確かめられます。各構成の生成物、差分、エラーログ、採点チェックリストへの導線もここから追えます。こういう検証は、文章だけ読むより、実際に触った方が早いです。
今回の比較で見えたのは、軍師は万能ではないという当たり前だけど大事な事実でした。
ただし、これはブラウザゲーム 1 件の near 一発出しです。簡単なバグ修正で順位は入れ替わり得ます。だからこそ、今回の結果は「絶対論」ではなく、判断軸として使うのがちょうどいいです。
前回のLPと今回を並べて読むと、見え方はかなりはっきりします。課題の難易度で、最適なモデル戦略は反転する。この一点を持ち帰ってもらえれば十分です。
HW系エンジニアとして20年以上、10,000件を超える顧客訪問と2,000件を超える単独ソリューション実績。AIツールを使った個人開発やIoT農園など、Raspberry Piを使ったオートメーション化なども実践中です!エンジニア専門結婚相談所も運営中、ClaudeCodeで解決できない心の課題も解決いたします!
Claude Fable 5 / Mythos 5
Claude Fable 5 ——「Mythos級」最強モデルを安全策付きで一般公開、過去最強のGAモデルに
META-MARK × AI
ローカルAIを動かすGPU、ちゃんと選べていますか?
VRAM・性能・コスパをMetaScoreで数値化。AIアプリ別の推奨ハードウェア要件も確認できます。