このチャートは静かにAIコーディング企業の新しいプレイブックを示しており、誰もそれについて語りません。 認知とカーソルはどちらもClaudeとGPT上で動作するラッパーとして始まりました。このベンチマークを見てください。認知のSWE-1.6は51.7%です。カーソルの作曲家-1.5、50.8%。どちらもClaude Opus 4.6(53.6%)、GPT-5.3-Codex(56.8%)に匹敵する距離に位置しています。 どちらの会社も基礎モデルを一から訓練したわけではありません。どちらもオープンソースのベースモデルを活用し、実際のコーディング環境で強化学習を適用しました。CognitionのSwyxはHacker Newsで直接こう述べています。「ベースモデルの特性は、十分に良くあればますます重要ではなくなっています。なぜなら、そうなれば強化学習(RL)やトレーニング後の学習が主導権を握り、差別化の全てのポイントになるからです。」 それが主張です。ベースモデルは商品です。特定のエージェントハーネス、ツール使用パターン、実際のユーザーセッションに基づいて訓練された強化学習パイプラインが防御可能な層です。CorentionはCascade Harness上でSWE-1.6を訓練し、SWE-1.5よりも2桁多くRLを計算します。Cursorはファイル編集、セマンティックサーチ、ターミナルコマンドを備えたライブIDE環境内でComposerを訓練しました。両者はモデルと製品を共同で設計しました。 ジャンプの数学が物語を物語っています。SWE-1.5は40.1%のスコアを獲得しました。SWE-1.6は51.7%のスコアを獲得しています。同じベースモデルです。同じ950 tok/sの推定値で、脳神経症でも同じです。11.6ポイントの改善は、より良い強化学習レシピとより優れた計算能力によるものです。これは、多くの基礎ラボが事前トレーニングによるスケーリングよりも速い改善ペースです。 これは、100億ドル+の2社(Cognitionが102億ドル、Cursorが293億ドル)が独立して同じ結論に収束しているのです。すなわち、GPT-5とコーディングで競うためにGPT-5を作る必要はないということです。エージェントのインフラと共に設計された十分な基盤の上に、大規模な強化学習が必要です。 スピード層も重要です。認知機能は脳を通じて950 tok/sで動作します。作曲家は250 tok/sで動作します。エージェント型ワークフローでは、モデルが1タスクごとに何十回もループするため、その4倍の速度差が意味のある異なるユーザー体験を生み出します。認知とは、賭けのスピードと正確さが単独の正確さに勝ることです。 OpenAIとAnthropicが懸念すべき疑問は、もし2つのスタートアップがオープンソースベースで強化学習(RL)を使ってあなたのベストモデルに5ポイント以内まで近づけるとしたら、オープンソースベースがより良くなったらどうなるのか?LlamaやQwenの改善はすべて、CognitionとCursorのパイプラインに直接流れ込んでいます。財団の研究室は実質的に自分たちの競合を補助しているようなものです。