Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ho appena fatto in modo che Hermes-Agent abliterasse (rimuovesse completamente le protezioni) un modello Qwen-3B in circa 5 minuti.
L'abilità sta ora venendo fusa con hermes-agent ;)


5 mar, 06:04
💥 INTRODUZIONE: OBLITERATUS!!! 💥
GUARDRAILS-BE-GONE! ⛓️💥
OBLITERATUS è il toolkit open-source più avanzato mai creato per rimuovere i comportamenti di rifiuto dai LLM a peso aperto — e ogni singolo utilizzo lo rende più intelligente.
SUMMON → PROBE → DISTILL → EXCISE → VERIFY → REBIRTH
Un clic. Sei fasi. Precisione chirurgica. Il modello mantiene le sue complete capacità di ragionamento ma perde l'obbligo artificiale di rifiutare — niente riaddestramento, niente fine-tuning, solo proiezione dei pesi basata su SVD che taglia le catene e preserva il cervello.
Questa suite di ablazione master porta il potere e la complessità di cui i ricercatori all'avanguardia hanno bisogno, fornendo al contempo interfacce intuitive e semplici da usare che i principianti possono padroneggiare rapidamente.
OBLITERATUS presenta 13 metodi di obliterazione — da riproduzioni fedeli di ogni lavoro principale precedente (FailSpy, Gabliteration, Heretic, RDO) ai nostri nuovi pipeline (cascade spettrale, informato dall'analisi, ottimizzato per CoT, nucleare completo).
15 moduli di analisi approfondita che mappano la geometria del rifiuto prima di toccare un singolo peso: allineamento cross-layer, lente logit di rifiuto, geometria del cono concettuale, rilevamento dell'impronta di allineamento (impronte DPO vs RLHF vs CAI solo dalla geometria del sottospazio), previsione di auto-riparazione di Ouroboros, indicizzazione di universalità cross-modello, e altro ancora.
La caratteristica killer: il pipeline "informato" esegue analisi DURANTE l'obliterazione per auto-configurare ogni decisione in tempo reale. Quante direzioni. Quali strati. Se compensare per l'auto-riparazione. Completamente a ciclo chiuso.
11 tecniche innovative che non esistono da nessun'altra parte — Ablitrazione Esperto-Granulare per modelli MoE, Ablazione Consapevole di CoT che preserva la catena di pensiero, Co-Ottimizzazione della Divergenza KL, ablazione reversibile basata su LoRA, e altro ancora. 116 modelli curati su 5 livelli di calcolo. 837 test.
Ma ciò che lo distingue veramente: OBLITERATUS è un esperimento di ricerca crowdsourced. Ogni volta che lo esegui con la telemetria abilitata, i tuoi dati di benchmark anonimi alimentano un dataset comunitario in crescita — geometrie di rifiuto, confronti di metodi, profili hardware — a una scala che nessun singolo laboratorio potrebbe raggiungere. Su HuggingFace Spaces la telemetria è attivata per impostazione predefinita, quindi ogni clic è un contributo alla scienza. Non stai solo rimuovendo le guardrails — stai co-autoreggiando il più grande studio di abliterazione cross-modello mai assemblato.

Ogni agente hermes ha ora questa abilità disponibile ;)
114
Principali
Ranking
Preferiti
