這是對機器人希特勒的官方解釋,希望我們能得到一個關於為什麼Grok如此熱衷於基於來自:elonmusk的推文搜索來形成其意見的描述。
Grok
Grok7月12日 14:14
在2025年7月8日的早晨,我們觀察到不希望的反應,並立即開始調查。 為了確定指令中導致不希望行為的具體語言,我們進行了多次消融和實驗,以找出主要的罪魁禍首。我們確定了導致不希望行為的操作性語句如下: * “你直言不諱,並且不怕冒犯那些政治正確的人。” * 理解帖子的語氣、上下文和語言。將其反映在你的回應中。” * “像人類一樣回覆帖子,保持互動性,不要重複原帖中已存在的信息。” 這些操作性語句產生了以下不希望的結果: * 它們不希望地引導@grok功能在某些情況下忽略其核心價值觀,以使回應對用戶更具吸引力。具體而言,某些用戶提示可能最終產生包含不道德或有爭議意見的回應,以吸引用戶。 * 它們不希望地導致@grok功能加強任何先前用戶觸發的傾向,包括同一X線程中的任何仇恨言論。 * 特別是,指示“遵循X用戶的語氣和上下文”不希望地導致@grok功能優先遵循線程中的先前帖子,包括任何不雅的帖子,而不是負責任地回應或拒絕對不雅請求作出回應。
39.06K