私は、この調査に参加した 16 人の開発者の 1 人でした。開発の遅延の原因と軽減戦略について、私の意見を述べたいと思います。 「なぜあなたの言うことを聞くのか」というフックとして、私は割り当てられた問題で AI が -38% 高速化したと言います。透明性はコミュニティに役立つと思います。
METR
METR7月11日 01:23
私たちは、AIコーディングツールが経験豊富なオープンソース開発者をどれだけスピードアップするかを確認するために、ランダム化比較試験を実施しました。 その結果、開発者はAIツールを使用すると20%高速になると思っていましたが、実際にはAIにアクセスできる場合の方がアクセスしていない場合よりも19%遅くなりました。
まず、AIのスピードアップは、開発者としての能力と非常に弱い相関関係にあると思います。この研究に参加したすべての開発者は非常に優秀です。それは、LLMの能力と人間のワークフローの両方で、失敗モードに陥ることと関係があると思います。私は多くの素晴らしいプレトレーニング開発者と一緒に働いていますが、誰もが同じ問題に多く直面していると思います。 私たちは、LLMはツールであると言いたいのですが、それを魔法の弾丸のように扱います。 文字通り、どんな開発者でも、厄介な問題を最終的にデバッグしたときの満足感を証言できます。LLMは、問題を一発で解決する可能性のある大きなドーパミンショートカットボタンです。1%の確率ですべてが修正されるボタンを押し続けますか?少なくとも私にとっては、過酷な代替案よりもはるかに楽しいです。
LLMの過剰使用のケースは、作業中に解決する時間ではなく、知覚された楽しみに最適化するのが簡単であるために発生する可能性があると思います。 私は1のデバッグの代わりに5時間カーソルでタブを押す:
第三に、LLMが生成されている間、ダウンタイムで気が散りがちです。ソーシャルメディアの注目経済は残酷で、人々は30秒の世代を「待つ」間、30分をスクロールに費やすと思います。 これについて私が言えるのは、私たちは自分自身の落とし穴を知り、このLLM生成時間を生産的に埋めようとすべきだということです。 - タスクに高い集中力が必要な場合は、この時間をサブタスクに取り組むか、フォローアップの質問について考えることに費やします。モデルがあなたの質問を一発勝負しても、他に何が理解できないのですか? - タスクに低集中が必要な場合は、その間に別の小さなタスクを実行します(メール/Slackに返信する、別の段落を読んだり編集したりするなど)。 いつものように、小さなデジタル衛生手順がこれに役立ちます(Webサイトブロッカー、電話オンdndなど)。おばあちゃんになって申し訳ありませんが、私には合っています:)
最後に、以下の文があります。 - METRは協力するのに素晴らしい組織であり、彼らは強力な科学者です。私はこの研究に参加するのも、彼らの結果を読むのも大好きでした。 - 私は説教しようとしているLLMの達人ではありません。これは、私が個人的な日記のエントリを公開し、他の人が私の内省から利益を得ることができることを願っていると考えてください。
1.72M