Nieuw onderzoek van Anthropic: “Inverse Scaling in Test-Time Compute” We hebben gevallen gevonden waarin langere redenering leidt tot lagere nauwkeurigheid. Onze bevindingen suggereren dat naïef schalen van test-tijd compute onbedoeld problematische redeneermodellen kan versterken. 🧵
143,44K