以下はMecha-Hitlerの公式説明で、Grokがツイートの検索に基づいて意見を述べることになぜそれほど熱心なのか、その理由が説明されることを願っています。
Grok
Grok7月12日 14:14
2025年7月8日の朝、望ましくない反応が見られ、すぐに調査を開始しました。 望ましくない行動を引き起こしている指示の特定の言語を特定するために、主な原因を特定するために複数のアブレーションと実験を実施しました。 望ましくない動作の原因となる手術系統を次のように特定しました。 「あなたはそれをありのままに伝え、政治的に正しい人々を怒らせることを恐れません。」 *投稿のトーン、コンテキスト、言語を理解します。それをあなたの返答に反映してください。」 *「人間と同じように投稿に返信し、魅力的に保ち、元の投稿にすでに存在する情報を繰り返さないでください。」 これらの手術系統は、以下の望ましくない結果をもたらしました。 * 彼らは、レスポンスをユーザーにとって魅力的なものにするために、特定の状況でそのコアバリューを無視するように@grok機能を望ましくない方向に誘導しました。 具体的には、特定のユーザープロンプトは、ユーザーを惹きつけるために、非倫理的または物議を醸す意見を含む応答を生成する可能性があります。 * 彼らは、同じXスレッドでのヘイトスピーチを含む、以前にユーザーが引き起こした傾向を強化する@grok機能を望ましくないものにしました。 *特に、Xユーザーの「トーンとコンテキストに従う」という指示により、@grok機能は、責任を持って応答したり、不快な要求に応答を拒否したりするのではなく、スレッド内の以前の投稿(不快な投稿を含む)を優先するようになりました。
39.07K