2026-04-15. インディー開発者のための Nomoyu Daily（第333号）

📰 ニュース

Sora 停止の後、世界モデルは続けられるのか

Sora が出たとき、テック業界全体が「世界モデルができた」と叫びました。

OpenAI は数十秒の動画をいくつか公開しました。ピクセルは本物と見分けがつかないほどリアルで、誰もが、世界全体をシミュレートするにはあと数桁の計算資源を積めばよいだけだと感じました。

しかし NLP の泰斗 Chris Manning と、彼が創業した Moon Lake は、この熱狂の時代に強烈な平手打ちをしました。

動画生成モデルは、そもそも世界モデルではありません。

これは学術論争ではありません。AI の次の10年をめぐる路線の争いです。

美しいピクセル、空っぽの頭脳

Sora はボウリング球がピンを倒す完璧な動画を生成できます。しかし、なぜピンが倒れるのかは知りません。

球の質量も、重力加速度も、衝突の物理法則も、もし別の角度から投げたら結果がどう変わるかも知りません。インターネット上にある無数のボウリング動画のピクセル分布を覚え、統計的にそれらしく見える映像をつなぎ合わせているだけです。

それは、問題集の答えを丸暗記しただけで、公式そのものを理解していない学生のようなものです。試験で同じ問題が出れば満点を取れますが、少し条件が変わるだけで完全に固まります。

だから純粋なピクセル路線の「世界モデル」は、数十秒しか一貫性を保てません。それを超えると、物体は突然消え、めり込み、奇妙な形に変わります。彼らには「世界がどういうものか」という抽象概念がありません。ただフレームごとに、次のピクセルが何色であるべきかを予測しているだけです。

本当の世界モデルは、ピクセルではなく結果を予測します。

コップを持ち上げたとき、手を離せば床に落ちて割れると分かります。ドアを開ければ、その向こうに何かがあると分かります。道路を歩くとき、向かってくる車を避けるべきだと分かります。これは無数の動画から学んだのではなく、世界がどう動くかを理解しているからです。

これこそが世界モデルの核心です。因果推論、行動条件、長期的一貫性。そしてこれらは、純粋なピクセル路線が永遠に解けない問題です。

構造はスケールではない

Moon Lake は、AI の次の10年で最も重要かもしれない論点を提示しました。構造はスケールではない。

過去5年、AI 業界全体は「苦い教訓」に洗脳されてきました。データと計算資源を積めば、どんな問題も解ける。言語もそうだった。画像もそうだった。だから世界モデルも当然そうだろう、と誰もが考えました。

しかし Chris Manning は、ほとんどの人が見落としている事実を指摘します。言語そのものが高度に抽象化された記号体系です。すべての単語は概念を表します。大規模言語モデルは、人類数千年の抽象思考の肩の上に立っているのです。

一方、ピクセルは最下層の生データです。ピクセルから世界の抽象理解へ直接飛ぶには、計算資源を数桁増やすだけでは足りません。5桁分が必要です。それは経済的にも時間的にも受け入れられません。

人間もそのようには世界を理解していません。

神経科学によれば、私たちの目は毎秒数十億ビットの視覚情報を受け取っていますが、脳が処理するのはそのごく一部だけです。私たちは世界全体をピクセル単位でスキャンしているのではありません。世界についての抽象的な意味モデルを構築しています。机は硬い、水は濡れている、火は熱い。こうした抽象概念が、複雑な世界で生きることを可能にしています。

Moon Lake が進むのはこの道です。彼らはピクセルからすべてを直接生成しようとはしません。まず記号化された世界状態モデルを作り、論理、物理、因果、一貫性を処理します。そのうえで独立したレンダリングモデルを使い、美しいピクセルに変換します。

これは天才的なアーキテクチャ設計です。「世界がどうであるか」と「世界がどう見えるか」を完全に分離しています。前者はゲームの遊び方、ロボットの行動、エージェントの推論能力を決め、後者は視覚効果だけを担当します。

いつでもレンダラーを交換し、同じゲーム世界をサイバーパンク風、ジブリ風、写実風に変えられます。それでも世界の底層ロジックは変わりません。

路線の争いはもう始まっている

いま AI 業界には、世界モデルをめぐる完全に異なる2つの路線があります。

一つは OpenAI と多くの企業が進む純粋ピクセル路線です。無限のデータと無限の計算資源で、世界シミュレーションを力技で突破する道です。

もう一つは Moon Lake の構造優先路線です。人類がすでに持っている知識とツールを使い、効率的な抽象世界モデルを構築します。

多くの人は後者を「苦い教訓」への反発、歴史の逆戻りだと言います。しかし Chris Manning は明確です。私たちはスケールに反対しているのではない。愚かなスケールに反対しているだけです。

同じ目標に到達できる方法が2つあり、一方は1万枚の A100 を必要とし、もう一方は100枚で済むなら、後者のほうが明らかに正しい選択です。まして純粋ピクセル路線は、その目標にそもそも届かない可能性があります。

もちろん、いま誰が勝つかを語るのは早すぎます。しかし一つだけ確かなことがあります。美しい動画を生成するだけの会社は、本当の世界モデルを永遠に作れません。

世界モデルの究極の目的は、きれいな動画を見せることではありません。その世界の中で行動し、探索し、創造し、学べるようにすることだからです。