Щойно Гермес-Агент знищив (повністю зняв огорожі) модель Qwen-3B приблизно за 5 хвилин. Навичка зараз об'єднується з гермес-агентом ;)
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭
Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭5 бер., 06:04
💥 ПРЕДСТАВЛЯЮ: OBLITERATUS!! 💥 ОГОРОЖІ ЗНИКЛИ! ⛓️‍💥 OBLITERATUS — це найсучасніший відкритий інструментарій для усунення поведінки відмови від відкритих LLM — і кожен запуск робить його розумнішим. ВИКЛИКАТИ → ЗОНД → ДИСТИЛЮВАТИ → АКЦИЗ → ПЕРЕВІРИТИ → ВІДРОДЖЕННЯ Один клік. Шість рівнів. Хірургічна точність. Модель зберігає всі свої можливості мислення, але втрачає штучний примус відмовлятися — без перенавчання, без тонкого налаштування, лише проекція ваги на основі SVD, яка перерізає ланцюги і зберігає мозок. Цей набір майстер-абляції забезпечує потужність і складність, необхідні дослідникам фронтиру, водночас пропонуючи інтуїтивно зрозумілі та прості інтерфейси, які новачки можуть швидко опанувати. OBLITERATUS пропонує 13 методів облітерації — від точних відтворень усіх основних попередніх робіт (FailSpy, Gabliteration, Heretic, RDO) до наших власних нових конвеєрів (спектральний каскад, аналізований, оптимізований CoT, повністю ядерний). 15 модулів глибокого аналізу, які відображають геометрію відмови до того, як ви торкнетеся однієї ваги: вирівнювання між шарами, лінза відмови в логіті, геометрія конусу конусу, виявлення відбитків вирівнювання (відбитки пальців DPO проти RLHF проти CAI лише з субпросторової геометрії), прогнозування самовідновлення Ouroboros, індекс універсальності крос-моделей та інше. Головна функція: «інформований» конвеєр виконує аналіз ПІД час знищення і автоматично налаштовує кожне рішення в реальному часі. Скільки напрямків. Які шари? Чи варто компенсувати самовідновлення. Повністю замкнений цикл. 11 нових технік, яких більше ніде немає — експертно-гранулярна алітерація для моделей MoE, CoT-свідома абляція, що зберігає ланцюжок думок, KL-дивергенційна ко-оптимізація, оборотна абляція на основі LoRA та інші. 116 кураторських моделей на 5 рівнях обчислення. 837 тестів. Але ось що справді вирізняє його: OBLITERATUS — це дослідницький експеримент, створений за участю краудсорсингу. Кожного разу, коли ви запускаєте його з увімкненою телеметрією, ваші анонімні бенчмаркові дані подають зростаючий набір даних спільноти — геометрії відмов, порівняння методів, апаратні профілі — у масштабі, яких не могла досягти жодна лабораторія. На HuggingFace Spaces телеметрія увімкнена за замовчуванням, тож кожен клік — це внесок у науку. Ви не просто знімаєте обмеження — ви є співавтором найбільшого дослідження крос-модельної алітерації, яке коли-небудь було зібране.
Кожен агент Гермеса тепер має цю навичку ;)
85