「検証ギャップ」に関する@balajisからの良い投稿。 創造には二つのモードがあると見ることができます。GAN用語の借用: 1) generation と 2)差別。 例えば、ペイント - ブラシストローク(1)をしてから、しばらく探してペイントが改善されたかどうかを確認します(2)。この2つの段階は、ほとんどすべての創造的な仕事に散りばめられています。 2点目。識別は計算上非常に難しい場合があります。 - 画像は群を抜いて簡単です。たとえば、画像生成チームは、結果の巨大なグリッドを作成して、一方の画像がもう一方の画像よりも優れているかどうかを判断できます。画像を非常に高速に処理するために構築された脳内の巨大なGPUに感謝します。 - テキストはずっと難しいです。それは流し読み可能ですが、読まなければなりません、それは意味論的、離散的、そして正確であるため、推論もする必要があります(特にコードなど)。 - オーディオはIMOがさらに難しいかもしれません、なぜならそれは時間軸を強制するので、それはスキミングさえできないからです。シリアルコンピューティングを消費することを余儀なくされ、それをまったく並列化できません。 コーディングでは、LLMは(1)から~instantに崩壊したと言えますが、(2)に対処するためにはほとんど何もしていません。人はまだ結果を見つめ、それが良いかどうかを見分けなければなりません。これは、LLMコーディングに対する私の主要な批判であり、彼らは任意の複雑さでクエリごとにあまりにも多くのコードをさりげなく吐き出し、ステージ2がないふりをします。それだけ多くのコードを取得するのは良くなく、怖いです。それどころか、LLM は積極的に協力して、問題を小さな段階的なステップに分割し、それぞれがより簡単に検証できるようにする必要があります。(2)の計算作業を予測し、可能な限り削減する必要があります。本当に気にかけなければなりません。 これは、コーディングについてノンコーダーが抱いている最大の誤解におそらく私を導きます。彼らは、コーディングとはコードを書くことだと考えています(1)。そうじゃありません。それはコード(2)を見つめることについてです。すべて作業メモリにロードします。行ったり来たりします。すべてのエッジケースを考える。私が「プログラミング」しているときにランダムなポイントで私を見つけた場合、私はおそらく画面を見つめているだけで、中断された場合は、計算が大変なので本当に怒っています。1をはるかに速くするだけであり、2も減らさない場合(ほとんどの場合)、コーディングの全体的な速度は明らかに向上しません(アムダールの法則を参照)。
Balaji
Balaji2025年6月4日
AIプロンプト→AI検証 AI のプロンプトは、プロンプトが入力するだけであるため、スケーリングされます。 しかし、AI出力の検証には単なる入力以上のものが含まれるため、AI検証は拡張できません。 目視で確認できる場合があるため、AIはフロントエンド、画像、ビデオに最適です。しかし、微妙なことであれば、コードやテキストを深く読む必要があり、そのためには、AIを修正するためにトピックを十分に理解する必要があります。 研究者はこのことをよく理解しており、だからこそ、評価や幻覚に関する研究が盛んに行われています。 しかし、AIユーザーのボトルネックである検証の概念は、あまり議論されていません。はい、形式的な検証や、あるAIが別のAIをチェックする批評モデル、または他の手法を試すことができます。しかし、この問題を第一級の問題として認識することさえ、戦いの半分です。 ユーザー向け: AI による検証は、AI によるプロンプトと同じくらい重要です。
449.28K