CREATION BENCH v1

AI創造ベンチ：同じ課題を7構成に作らせてみた

Q&Aテストはフロンティアモデルには簡単すぎる。そこで「作らせる」課題へ。同じ課題（ランディングページ・ブラウザゲーム）を7構成で一発生成して比べます。安い Haiku・中位の Sonnet 4.6・最上位の Fable 5 の単体に加え、上位 Fable 5 を「参謀」（作った後にレビュー）として付けた構成と、「軍師」（作る前に設計図を渡す）として付けた構成。これらを実コストと実物で比較します。仕上がりの優劣は、下のカードの「実物を開く」から読者ご自身の目でご判断ください。

タスク：ブラウザゲーム一発生成（テトリス）

題材「キーボードで遊べるテトリス（単一HTML）」／全構成へ同一プロンプトを投入。LPより一段複雑な“動く・遊べる”課題。

⚠️ 発見1：「複数ライン同時消しで盤面が壊れる」同じバグを、安いモデルも Sonnet も踏んだ

7構成のうち複数が、2行以上を同時に消すと盤面が壊れる同型のバグ（消去行を降順に splice してインデックスがずれる）を抱えていた。Haiku 単体・Haiku 軍師に加え、Sonnet 単体の初期版でも発生。LLM が書くテトリスの“あるある”な弱点で、見た目は完成していても遊ぶと露見する。なお運営者が報告した「回転すると別ブロックに化ける」は真の型化けではなく、この盤面破損や I ピースの位置ズレの副作用だった（回転ロジック自体は全構成で型・色を保持）。

⚠️ 発見2：「軍師（事前設計）なら安泰」は、複雑な課題では崩れる

LP では『安いモデル＋Fable 軍師』が安く高品質だった。だがテトリスでは結果が割れた——Haiku 軍師は遊べた一方、Sonnet 軍師は盤面が一切描画されない“破綻”に陥った（読み込み直後に空の盤面を描画して例外連発）。同じ設計図を渡しても実行役がバグを混入し得る。課題が複雑になるほど『設計図を渡せば安泰』は保証されなくなる。

✅ 発見3：複雑な課題ほど“最上位モデル単体”の信頼性プレミアムが効く

全7構成で重大バグが一つも無かったのは Fable 単体だけ（運営者評価も「一番良い」で一致）。参謀（事後レビュー）は実在のバグを直して価値を出したが、そのコストは結局 Fable 単体とほぼ同等になった。LP の『軍師が万能』とは逆に、難しい課題では“高いモデルに一発で作らせる”信頼性が割に合う場面がある、という対照的な結論。ただし今回も near 一発出しで、これらの差の多くは数行のバグ修正で詰められる“仕上げの差”である点には留意。

Haiku 単体

最安・実行のみ

コスト（概算）

$0.187

機能到達率

72%

▶ 実物を開く（新しいタブ）

Haiku ＋ Fable 参謀

安価実行＋作後レビュー

コスト（概算）

$3.13

機能到達率

86%

参謀(Fable)が作後レビューで指摘 → 改稿

›回転に上方向(床)キックがなく床際でI/Tが回りにくい

›回転軸が左上固定でIピースが横に飛んで見える

›ソフト/ハードドロップの加点がゼロ

▶ 実物を開く（新しいタブ）

Haiku ＋ Fable 軍師

上位が事前設計→安価実行

コスト（概算）

$2.57

機能到達率

79%

軍師(Fable)が事前に設計図 → 実行役が構築

Fable が task_spec のみから設計図を作成（コードなし）。canvas2枚・盤面配列と現在ピース分離（書込はロック時のみ）・回転は純粋関数で仮判定→壁蹴りオフセット[0,+1,-1,+2,-2]・ライン消去は行抜き＋上に空行・7色HEX・落下間隔・禁止事項11件・17項目チェックリストまで指示。

▶ 実物を開く（新しいタブ）

Sonnet 4.6 単体

中価格・実行のみ

コスト（概算）

$0.591

機能到達率

55%

▶ 実物を開く（新しいタブ）

Sonnet ＋ Fable 参謀

中価格実行＋作後レビュー

コスト（概算）

$3.77

機能到達率

93%

参謀(Fable)が作後レビューで指摘 → 改稿

›複数ライン同時消しで盤面破損（降順splice）

›ゲームオーバー後のリスタートで完全フリーズ

›ページ読込時にdrawBoardがinit前でTypeError

▶ 実物を開く（新しいタブ）

Sonnet ＋ Fable 軍師

上位が事前設計→中価格実行

コスト（概算）

$3.02

機能到達率

31%

軍師(Fable)が事前に設計図 → 実行役が構築

haiku-planner と同一の設計図を共有（Fable の設計図・コストは各構成に全額計上）。

▶ 実物を開く（新しいタブ）

Fable 5 単体

最上位・基準(100%)

基準

コスト（概算）

$3.69

機能到達率

100%

▶ 実物を開く（新しいタブ）

👤 運営者（HW系エンジニア・20年）の実機評価

運営者（HW系エンジニア・20年）の実機評価：Fable 5 単体が文句なしで最良（重大バグなし・SRS回転・ホールド・効果音・パーティクルまで完備）で、これは間違いない。重要な確認として、運営者が体感した『回転すると別ブロックに化ける』現象は、7構成すべてで回転ロジック自体は型・色を保持しており真の型化けではなかった——正体は『複数ライン同時消しでの盤面破損』『I ピース回転時の位置ズレ』『ライン消去フラッシュの描画タイミングずれ』といった別バグの副作用。これらは1〜数行で直る軽微〜中程度の不具合が多く、致命的でない限り大幅減点はしていない（near 一発出しのため）。一方で致命的だったのは2つ：sonnet-planner は盤面が一切描画されない『破綻』（読み込み直後に空盤面を描画して例外連発）、sonnet-alone はゲームオーバー後にゲームループが再起動されず『リスタート操作不能』＋起動時の console エラー。総評：複雑な課題ほど『最上位モデルに一発で作らせる』信頼性が効き、軍師（事前設計）は安いが品質を保証せず（haiku軍師◯／sonnet軍師✗）、参謀（事後レビュー）は実在バグを直すが結局 Fable 単体と同等コストになる——LP の『軍師が万能』とは対照的な結論。ただし差の多くは“仕上げの詰め”であり、簡単なバグ修正で順位は入れ替わり得る。

※ 到達率は「描画されるか・動くか・課題の機能要件を満たすか」という客観プロキシに基づく機能面の指標で、基準（Fable単体）= 100%。コストは Agent 実行の集計トークン×出力単価による上限概算。主観的な仕上がりの差は読者判定に委ねる。

タスク：ランディングページ一発生成

題材「FocusFlow（架空の集中タイマーSaaS）」／全構成へ同一プロンプトを投入

⚠️ 発見1：「安いモデル＋上位"参謀"（作後レビュー）」は、かえって高くつく

直感では「安い Haiku に作らせ、要所だけ Fable に相談すれば安上がり」と思える。だが計測すると『Haiku＋Fable参謀』は Fable 単体より高コストだった（$5.13 vs $4.76）。理由は単純で、参謀が完成物をレビューする推論が、作るのとほぼ同じ量を要したから。

✅ 発見2：同じ Fable を"軍師"（事前設計）に回すと、逆に安く・高品質になる

では Fable を「作った後のレビュー」ではなく「作る前の設計図づくり」に使うと？『Haiku＋Fable軍師』は $2.41——参謀の半額以下、Fable 単体よりも安い。しかも安い実行役が最初から良い設計図で作るため、参謀版と同等のリッチさ（社会的証明・FAQ・固定ヘッダー）に一発で到達した。導かれる原則は 「高いモデルは"軽いアイデア段階"で使え。"重い完成物のレビュー"で使うな」。ただしこれはLP一発という比較的やさしい課題1件の結果であり、すべてのタスクに当てはまる結論ではない点に留意。

Haiku 単体

最安・実行のみ

コスト（概算）

$0.177

機能到達率

93%

▶ 実物を開く（新しいタブ）

Haiku ＋ Fable 参謀

安価実行＋作後レビュー

コスト（概算）

$5.13

機能到達率

100%

参謀(Fable)が作後レビューで指摘 → 改稿

›CV導線が実質ゼロ(登録フォーム無し)

›社会的証明が皆無

›ヒーローが絵文字1個で製品が見えない

▶ 実物を開く（新しいタブ）

Haiku ＋ Fable 軍師

上位が事前設計→安価実行

コスト（概算）

$2.41

機能到達率

100%

軍師(Fable)が事前に設計図 → 実行役が構築

Fable が task_spec のみから設計図を作成（コードなし）。世界観・配色#0B0F1A＋シアン→紫・8セクション構成・社会的証明/FAQ・アニメ方針・アンチパターン・品質チェックリストまで指示。

▶ 実物を開く（新しいタブ）

Sonnet 4.6 単体

中価格・実行のみ

コスト（概算）

$0.556

機能到達率

100%

▶ 実物を開く（新しいタブ）

Sonnet ＋ Fable 参謀

中価格実行＋作後レビュー

コスト（概算）

$6.37

機能到達率

100%

参謀(Fable)が作後レビューで指摘 → 改稿

›メイン見出しが抽象的でベネフィット不明

›社会的証明ゼロ

›CTAの文言と行き先が不一致

▶ 実物を開く（新しいタブ）

Sonnet ＋ Fable 軍師

上位が事前設計→中価格実行

コスト（概算）

$2.99

機能到達率

100%

軍師(Fable)が事前に設計図 → 実行役が構築

Fable が task_spec のみから設計図を作成（コードなし・haiku-planner と同一の設計図を共有）。

▶ 実物を開く（新しいタブ）

Fable 5 単体

最上位・基準(100%)

基準

コスト（概算）

$4.76

機能到達率

100%

▶ 実物を開く（新しいタブ）

👤 運営者（HW系エンジニア・20年）の実機評価

運営者（HW系エンジニア・20年）の実機評価：Sonnet 4.6 単体以上はどれも実用十分の出来。Haiku＋Fable参謀は Haiku 単体より明らかにボリューム・デザインが向上。Fable 単体が見た目・タイポグラフィ・ボリュームで最良だが、その差は僅差。→ 仕上がりが僅差である以上、選択はコストで決まる。【軍師2構成の追加評価】Fable軍師（事前設計）＋Sonnet executor（sonnet-planner, $2.99）が運営者の総合判断で最良。haiku-planner も悪くない。『最初にプランニング（設計）させた方が結果が良い』という体感で、しかも参謀版より安い。→ 最適解は『Fable軍師＋Sonnetは安定』。高いモデルは重い完成物レビュー（参謀）ではなく軽い設計段階（軍師）で使え、という S448 の原則を運営者の目が裏打ちした。