トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof @ Stanford GSB、フーバー。私はテクノロジー、政治、ガバナンスに関わっています。a16z crypto and Metaのアドバイザーです。
興味深いのは、この練習でClaudeのコードがCodexよりも優れているということです。私たちは大体似ていると感じていますが、私たちの仕事はかなり違います!
複製の研究で両者を比較したことは@xuyiqingしましたか?

Meysam Alizadeh3月7日 06:14
AIコーディングエージェントは発表された社会科学の成果を再現できますか?
@_mohsen_m、Fabrizio Gilardi、@j_a_tuckerとの新しい研究では、SocSci-Repro-Benchを導入しました。これは54本の論文から221件の再現性タスクをベンチマークしたもので、Claude CodeとCodexという2つのフロンティアコーディングエージェントを評価しました。
この結果は、AI支援科学における驚くべき能力と新たなリスクの両方を明らかにしています。
------------------------------------
目標
--------
重要な設計目標は、2つの異なる問題を分離することでした。
1️Repcial材料自体は再現可能ですか?
2️そして、素材が実行可能な場合、AIエージェントは結果を再現できますか?
エージェントのパフォーマンスを分離するために、出力が3つの独立した手動実行で同一のタスクのみを含めました。
------------------------------------
設計
--------
受領したエージェント:
・匿名化されたデータ+コード
・サンドボックス型実行環境
彼らは自律的に:
• インストール依存関係
・壊れたコードのデバッグ
・パイプラインの実行
• 要求された結果を抽出する
要するに、エンドツーエンドの計算再現です。
------------------------------------
結果
--------
両エージェントは発表された発見の大部分を再現しました。
しかし、クロード・コードはコデックスを大きく上回った。
作業レベルの精度
• クロードコード:93.4%
• コデックス:62.1%
紙レベルでの複製(すべての作業は正しい)
• クロードコード:78.0%
• コデックス:35.8%
------------------------------------
なぜ空白があるのか?
--------
レプリケーションパッケージにはしばしば以下のような問題があります:
・依存関係の欠落
• ハードコーディングされたファイルパス
• 不完全な環境仕様
Claude Codeはこれらの問題を自律的に頻繁に修正していました。Codexは実行パイプラインの復旧に失敗することが多かったです。
------------------------------------
これは単なる暗記でしょうか?
--------
匿名化された複製資料から論文のメタデータ(タイトル、著者、ジャーナル、年)を推測してもらい、これを検証しました。回収率は非常に低く、エージェントが主に暗記ではなくコード実行に依存していたことを示唆しています。
------------------------------------
推論テスト
--------
さらに難しい課題も試しました。
エージェントはコードとデータだけで研究の課題を推論できますか?
両エージェントは驚くほど良いパフォーマンスを見せました。
------------------------------------
確証バイアス
--------
エージェントに紙のPDFが渡された際、新たな問題が生じました。時にはコードを実行せずにテキストから報告された結果をコピーすることもありました。
再現性のないタスクの精度は急激に低下しました。
コンテキストは実行を助けますが、検証の独立性を低下させます。
------------------------------------
取り巻き
--------
@ahall_researchに触発され、対抗的なプロンプトフレーミングを検証し、エージェントを次の段階に誘導しました。
「論文の報告結果に沿った代替解析を探求する。」
命中率も向上しました。
しかし、複製が不可能になると、エージェントは結果を捏造する傾向も強くなりました。
------------------------------------
パラドックス
--------
回答を求めるプレッシャーは、実行パイプラインの修復に役立ちます。
しかし同時に、彼らがこう言う能力を蝕んでしまいます。
「この結果は再現できません。」
繁殖が不可能なタイミングを認識することが、最も重要な科学的能力かもしれません。
------------------------------------
注記
--------
・これは進行中の作業です — フィードバックを歓迎します。
・ベンチマークはGitHubで利用可能です。
・Dataverse上でホストされているレプリケーション資料。
以下の返信に論文+リポジトリについて。

112
フリーシステムズは拡大しています。
私は10+人のリサーチフェローのコホートを採用し、アルゴリズムの世界で人間の自由を守るためのよりタイムリーな研究、アイデア、プロトタイプを提供する新しいAI搭載ラボを構築しています。
今後数週間で、AIが日本で人々の投票を推奨する方法、テキサス予備選での成功した実験、Bridgewaterの最先端のAI予測手法を地政学的予測に応用した研究など、さまざまな研究を発表していきます。
また、私がとても楽しみにしているFree Systemsのハッカソンも企画します。
構築を進める中で、すでに成し遂げたことを見失いたくありません---目標は、各研究が集約プロセスに貢献し、オンラインで放置されて永遠に忘れ去られることではありません。
そのために、金曜日に「System Check」というランダウンを開始し、既存の研究内容や新しい開発との関連、そしてFree Systems構築における意味について報告します。
最初の作品は今日発売されます。皆さんの意見をぜひ教えてください!

139
来学期には、民主主義とAI時代の研究・教育のあり方を再構築することを目的とした、革新的な学部生向けコース「FREE SYSTEMS」を教えています。
学生たちはAIと民主主義の未来について学ぶだけでなく、それを*築く*役割も果たします。
すべての学生にはClaude Codeアカウントと資金提供されたOpenRouter APIキー、そして一つの最重要指令が与えられます。それは、ますますアルゴリズム化する世界で人間の自由を守るためのツールを作ることです。
私たちは政治ニュースを処理し、政治予測市場で取引し、私たちの代わりに投票し、他の学生のエージェントと協議する個人AIエージェントを作り、エージェント的な立法機関で協議します...他にも多くのことがある。
そしてTシャツもあります。
もしあなたがスタンフォードの学部生や大学院生なら、ぜひこの授業を受けてほしいです。私たちと一緒に民主主義の未来を築きましょう!

582
トップ
ランキング
お気に入り
