AI創造ベンチ:同じ課題を7構成に作らせてみた
Q&Aテストはフロンティアモデルには簡単すぎる。そこで「作らせる」課題へ。 同じ課題(ランディングページ・ブラウザゲーム)を7構成で一発生成して比べます。 安い Haiku・中位の Sonnet 4.6・最上位の Fable 5 の単体に加え、 上位 Fable 5 を「参謀」(作った後にレビュー)として付けた構成と、「軍師」(作る前に設計図を渡す)として付けた構成。 これらを実コストと実物で比較します。 仕上がりの優劣は、下のカードの「実物を開く」から読者ご自身の目でご判断ください。
タスク:ブラウザゲーム一発生成(テトリス)
題材「キーボードで遊べるテトリス(単一HTML)」/ 全構成へ同一プロンプトを投入。LPより一段複雑な“動く・遊べる”課題。
⚠️ 発見1:「複数ライン同時消しで盤面が壊れる」同じバグを、安いモデルも Sonnet も踏んだ
7構成のうち複数が、2行以上を同時に消すと盤面が壊れる同型のバグ(消去行を降順に splice してインデックスがずれる)を抱えていた。Haiku 単体・Haiku 軍師に加え、Sonnet 単体の初期版でも発生。LLM が書くテトリスの“あるある”な弱点で、見た目は完成していても遊ぶと露見する。なお運営者が報告した「回転すると別ブロックに化ける」は真の型化けではなく、この盤面破損や I ピースの位置ズレの副作用だった(回転ロジック自体は全構成で型・色を保持)。
⚠️ 発見2:「軍師(事前設計)なら安泰」は、複雑な課題では崩れる
LP では『安いモデル+Fable 軍師』が安く高品質だった。だがテトリスでは結果が割れた——Haiku 軍師は遊べた一方、Sonnet 軍師は盤面が一切描画されない“破綻”に陥った(読み込み直後に空の盤面を描画して例外連発)。同じ設計図を渡しても実行役がバグを混入し得る。課題が複雑になるほど『設計図を渡せば安泰』は保証されなくなる。
✅ 発見3:複雑な課題ほど“最上位モデル単体”の信頼性プレミアムが効く
全7構成で重大バグが一つも無かったのは Fable 単体だけ(運営者評価も「一番良い」で一致)。参謀(事後レビュー)は実在のバグを直して価値を出したが、そのコストは結局 Fable 単体とほぼ同等になった。LP の『軍師が万能』とは逆に、難しい課題では“高いモデルに一発で作らせる”信頼性が割に合う場面がある、という対照的な結論。ただし今回も near 一発出しで、これらの差の多くは数行のバグ修正で詰められる“仕上げの差”である点には留意。

Haiku + Fable 参謀
安価実行+作後レビュー

Haiku + Fable 軍師
上位が事前設計→安価実行

Sonnet + Fable 参謀
中価格実行+作後レビュー

Sonnet + Fable 軍師
上位が事前設計→中価格実行
👤 運営者(HW系エンジニア・20年)の実機評価
運営者(HW系エンジニア・20年)の実機評価:Fable 5 単体が文句なしで最良(重大バグなし・SRS回転・ホールド・効果音・パーティクルまで完備)で、これは間違いない。重要な確認として、運営者が体感した『回転すると別ブロックに化ける』現象は、7構成すべてで回転ロジック自体は型・色を保持しており真の型化けではなかった——正体は『複数ライン同時消しでの盤面破損』『I ピース回転時の位置ズレ』『ライン消去フラッシュの描画タイミングずれ』といった別バグの副作用。これらは1〜数行で直る軽微〜中程度の不具合が多く、致命的でない限り大幅減点はしていない(near 一発出しのため)。一方で致命的だったのは2つ:sonnet-planner は盤面が一切描画されない『破綻』(読み込み直後に空盤面を描画して例外連発)、sonnet-alone はゲームオーバー後にゲームループが再起動されず『リスタート操作不能』+起動時の console エラー。総評:複雑な課題ほど『最上位モデルに一発で作らせる』信頼性が効き、軍師(事前設計)は安いが品質を保証せず(haiku軍師◯/sonnet軍師✗)、参謀(事後レビュー)は実在バグを直すが結局 Fable 単体と同等コストになる——LP の『軍師が万能』とは対照的な結論。ただし差の多くは“仕上げの詰め”であり、簡単なバグ修正で順位は入れ替わり得る。
※ 到達率は「描画されるか・動くか・課題の機能要件を満たすか」という客観プロキシに基づく機能面の指標で、 基準(Fable単体)= 100%。コストは Agent 実行の集計トークン×出力単価による上限概算。 主観的な仕上がりの差は読者判定に委ねる。
タスク:ランディングページ一発生成
題材「FocusFlow(架空の集中タイマーSaaS)」/ 全構成へ同一プロンプトを投入
⚠️ 発見1:「安いモデル+上位"参謀"(作後レビュー)」は、かえって高くつく
直感では「安い Haiku に作らせ、要所だけ Fable に相談すれば安上がり」と思える。だが計測すると『Haiku+Fable参謀』は Fable 単体より高コストだった($5.13 vs $4.76)。理由は単純で、参謀が完成物をレビューする推論が、作るのとほぼ同じ量を要したから。
✅ 発見2:同じ Fable を"軍師"(事前設計)に回すと、逆に安く・高品質になる
では Fable を「作った後のレビュー」ではなく「作る前の設計図づくり」に使うと?『Haiku+Fable軍師』は $2.41——参謀の半額以下、Fable 単体よりも安い。しかも安い実行役が最初から良い設計図で作るため、参謀版と同等のリッチさ(社会的証明・FAQ・固定ヘッダー)に一発で到達した。導かれる原則は 「高いモデルは"軽いアイデア段階"で使え。"重い完成物のレビュー"で使うな」。ただしこれはLP一発という比較的やさしい課題1件の結果であり、すべてのタスクに当てはまる結論ではない点に留意。

Haiku + Fable 参謀
安価実行+作後レビュー

Haiku + Fable 軍師
上位が事前設計→安価実行

Sonnet + Fable 参謀
中価格実行+作後レビュー

Sonnet + Fable 軍師
上位が事前設計→中価格実行
👤 運営者(HW系エンジニア・20年)の実機評価
運営者(HW系エンジニア・20年)の実機評価:Sonnet 4.6 単体以上はどれも実用十分の出来。Haiku+Fable参謀は Haiku 単体より明らかにボリューム・デザインが向上。Fable 単体が見た目・タイポグラフィ・ボリュームで最良だが、その差は僅差。→ 仕上がりが僅差である以上、選択はコストで決まる。【軍師2構成の追加評価】Fable軍師(事前設計)+Sonnet executor(sonnet-planner, $2.99)が運営者の総合判断で最良。haiku-planner も悪くない。『最初にプランニング(設計)させた方が結果が良い』という体感で、しかも参謀版より安い。→ 最適解は『Fable軍師+Sonnetは安定』。高いモデルは重い完成物レビュー(参謀)ではなく軽い設計段階(軍師)で使え、という S448 の原則を運営者の目が裏打ちした。
※ 到達率は「描画されるか・動くか・課題の機能要件を満たすか」という客観プロキシに基づく機能面の指標で、 基準(Fable単体)= 100%。コストは Agent 実行の集計トークン×出力単価による上限概算。 主観的な仕上がりの差は読者判定に委ねる。





