Anthropic Fellowによるアライメントステガノグラフィーに関する素晴らしい研究 私は、なぜ中国が心の善意からオープンモデルを公開し続けるのかについて、シュトラウス的な説明を探していました オープンモデルを使用して、idk、clean *ええと*、データを教科書の品質に合成的に言い換えるようなことをすると、手遅れになってからずっと経つまで検出できないバイアスをインポートする可能性があります。 したがって、価値体系を世界の他の地域にエクスポートしたい場合、これはハリウッド以来発明された最も強力なソフトパワーツールです。 はっきり言っておきますが、これが中国の研究所の動機付けになっているという実際の証拠はありません。しかし、この論文は、可能な説明に向けた明確な一歩です。
Owain Evans
Owain Evans7月23日 00:06
新しい論文と驚くべき結果。 LLMは、データ内の隠れたシグナルを介して他のモデルに形質を送信します。 3桁の数字だけで構成されるデータセットは、フクロウへの愛や邪悪な傾向を伝えることができます。🧵
43.98K