💥 EINFÜHRUNG: OBLITERATUS!!! 💥 SCHUTZZAUN WEG! ⛓️‍💥 OBLITERATUS ist das fortschrittlichste Open-Source-Toolkit zur Entfernung von Ablehnungsverhalten aus offenen LLMs — und jeder einzelne Durchlauf macht es intelligenter. HERBEIRUFEN → UNTERSUCHEN → DESTILLIEREN → ENTFERNEN → ÜBERPRÜFEN → WIEDERGEBOREN Ein Klick. Sechs Phasen. Chirurgische Präzision. Das Modell behält seine vollen Denkfähigkeiten, verliert jedoch den künstlichen Zwang zur Ablehnung — kein Retraining, kein Feintuning, nur SVD-basierte Gewichtprojektion, die die Ketten durchtrennt und das Gehirn bewahrt. Dieses Meister-Ablationspaket bringt die Kraft und Komplexität, die Grenzforschern benötigt wird, während es intuitive und einfach zu bedienende Schnittstellen bietet, die Anfänger schnell meistern können. OBLITERATUS bietet 13 Ablationsmethoden — von treuen Reproduktionen aller wichtigen vorherigen Arbeiten (FailSpy, Gabliteration, Heretic, RDO) bis hin zu unseren eigenen neuartigen Pipelines (spektrale Kaskade, analyseinformiert, CoT-bewusst optimiert, vollständige nukleare). 15 tiefgehende Analysemodule, die die Geometrie der Ablehnung kartieren, bevor Sie ein einziges Gewicht berühren: Cross-Layer-Ausrichtung, Ablehnungslogit-Linse, Konzeptkegelgeometrie, Ausrichtungsabdruckerkennung (Fingerabdrücke DPO vs RLHF vs CAI allein aus der Subraumgeometrie), Ouroboros-Selbstreparaturvorhersage, Cross-Model-Universalisierungsindizierung und mehr. Das Killer-Feature: Die "informierte" Pipeline führt während der Ablation Analysen durch, um jede Entscheidung in Echtzeit automatisch zu konfigurieren. Wie viele Richtungen. Welche Schichten. Ob für Selbstreparatur kompensiert werden soll. Vollständig geschlossener Regelkreis. 11 neuartige Techniken, die es nirgendwo sonst gibt — Expert-Granular-Abliteration für MoE-Modelle, CoT-bewusste Ablation, die den Gedankengang bewahrt, KL-Divergenz-Co-Optimierung, LoRA-basierte reversible Ablation und mehr. 116 kuratierte Modelle über 5 Rechenstufen. 837 Tests. Aber hier ist, was es wirklich auszeichnet: OBLITERATUS ist ein crowdsourcendes Forschungsprojekt. Jedes Mal, wenn Sie es mit aktivierter Telemetrie ausführen, speist Ihre anonyme Benchmark-Daten ein wachsendes Community-Datenset — Ablehnungsgeometrien, Methodenvergleiche, Hardwareprofile — in einem Maßstab, den kein einzelnes Labor erreichen könnte. Auf HuggingFace Spaces ist die Telemetrie standardmäßig aktiviert, sodass jeder Klick einen Beitrag zur Wissenschaft darstellt. Sie entfernen nicht nur Schutzvorrichtungen — Sie sind Mitautor der größten jemals zusammengestellten cross-modalen Ablationsstudie.
🚀 6 MÖGLICHKEITEN, ES ZU NUTZEN HuggingFace Spaces — keine Einrichtung, läuft auf ZeroGPU, kostenloses tägliches Kontingent mit HF Pro Lokale Web-UI — dieselbe Gradio-Oberfläche auf deiner eigenen GPU Google Colab — kostenloses T4, funktioniert bis zu ~8B Parametern CLI — ein Befehl: obliteratus obliterate model --method advanced Python API — vollständige programmgesteuerte Kontrolle, jedes Zwischenartefakt ist zugänglich YAML-Konfigurationen — reproduzierbare Studien, die du versionieren und teilen kannst
Die Benutzeroberfläche hat einige coole Funktionen wie Datenvisualisierung, A/B-Chat zum Vergleich des Originalmodells mit dem zerstörten, eine Stärkensweep für tiefgehende Analysen und ein Leaderboard, das die Benchmarking-Ergebnisse aus der Community anzeigt, damit wir gemeinsam lernen und uns verbessern können!
Dieses gesamte Projekt war das Ergebnis von etwa 200 Eingabeaufforderungen (Opus-4.6 w/ CC) und umfasst auch ein Forschungspapier! Opus *behauptet*, einige neuartige Beiträge zu diesem Nischenbereich geleistet zu haben. Ich bin skeptisch hinsichtlich des Rigorlevels und es fehlen einige auffällige Teile/Platzhalter, aber wenn jemand mit starken technischen Fähigkeiten Feedback geben könnte, wäre ich sehr dankbar. 🙏 Ich hoffe, dass dieses Papier eines Tages, nachdem wir eine signifikante Menge an experimentellen Daten gesammelt haben, wirklich Fuß fassen könnte! Link zur LaTeX-Datei:
1,41K