Az önce Hermes-Agent'in bir Qwen-3B modelini yaklaşık 5 dakikada tamamen kaldırması (abliterasyon yaptım). Yetenek artık hermes-agent ile birleştiriliyor ;)
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭5 Mar 06:04
💥 TANITICI: OBLITERATUS!! 💥 KORKULUKLAR GITSIN! ⛓️‍💥 OBLITERATUS, açık ağırlıklı LLM'lerden reddetme davranışlarını kaldırmak için şimdiye kadarki en gelişmiş açık kaynak araç seti — ve her deneme onu daha akıllı hale getiriyor. YENIDEN DOĞUŞU DOĞRULAMAK → SONDASINI → DAMILEME → TÜKETIM → DOĞRULAMA → Bir tık. Altı aşama. Cerrahi hassasiyet. Model tüm akıl yürütme yeteneklerini koruyor ama yapay redaksiyon zorunluluğunu kaybediyor — yeniden eğitim yok, ince ayar yok, sadece zincirleri kesen ve beyni koruyan SVD tabanlı ağırlık projeksiyonu var. Bu master ablasyon paketi, ileri düzey araştırmacıların ihtiyaç duyduğu güç ve karmaşıklığı sunarken, acemilerin hızlıca ustalaşabileceği sezgisel ve kullanımı kolay arayüzler sunar. OBLITERATUS, önceki tüm önemli çalışmaların (FailSpy, Gabliteration, Heretic, RDO) sadık tekrarlarından kendi yeni pipetlerimize (spektral kaskad, analiz bilgili, CoT farkında optimize edilmiş, tam nükleer) kadar 13 yok etme yöntemi sunar. Tek bir ağırlığı dokunmadan önce reddetme geometrisini haritalayan 15 derin analiz modülü: katmanlar arası hizalama, reddetme logit lensi, kavram koni geometrisi, hizalama izi tespiti (sadece alt uzay geometrisinden parmak izi DPO, RLHF vs CAI), Ouroboros kendi kendini onarma tahmini, çapraz model evrensellik indeksleme ve daha fazlası. En önemli özellik: "bilgilendirilmiş" boru hattı, yok etme sırasında analiz yapar ve her kararı gerçek zamanlı otomatik olarak yapılandırır. Kaç yön var. Hangi katmanlar. Kendi kendine onarım için telafi edilip edilmeyeceği. Tamamen kapalı döngü. Başka hiçbir yerde bulunmayan 11 yeni teknik — MoE modelleri için Uzman-Granular Abliterasyon, düşünce zincirini koruyan CoT-Aware Ablation, KL-Divergence Co-Optimization, LoRA tabanlı geri dönüş ablasyon ve daha fazlası. 5 hesaplama katmanında 116 kürenmiş model. 837 testler. Ama işte onu gerçekten farklı kılan şey: OBLITERATUS kitlesel kaynaklı bir araştırma deneyi. Telemetri etkin olduğu her çalıştırdığınızda, anonim kıyaslama veriniz büyüyen bir topluluk veri setini — reddetme geometrileri, yöntem karşılaştırmaları, donanım profilleri — hiçbir laboratuvarın ulaşamayacağı bir ölçekte besler. HuggingFace Spaces'te telemetri varsayılan olarak açıktır, yani her tıklama bilime katkıdır. Sadece engelleri kaldırmıyorsunuz — şimdiye kadar derlenmiş en büyük çapraz model abliterasyon çalışmasını ortak yazar olarak yazıyorsunuz.
Artık her hermes ajanı bu beceriye sahip ;)
122