Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💥 INTRODUCIENDO: OBLITERATUS!! 💥
¡BARRERAS DE SEGURIDAD, FUERA DE AQUÍ! ⛓️💥
OBLITERATUS es el conjunto de herramientas de código abierto más avanzado que existe para eliminar comportamientos de rechazo de los LLMs de peso abierto — y cada ejecución lo hace más inteligente.
CONVOCA → sonda → DESACTIVA → EL IMPUESTOS → VERIFICAR → RENACIMIENTO
Un clic. Seis fases. Precisión quirúrgica. El modelo mantiene todas sus capacidades de razonamiento pero pierde la compulsión artificial de negarse — sin reentrenamiento, sin ajustes finos, solo proyección de peso basada en SVD que corta las cadenas y preserva el cerebro.
Esta suite de ablación magistral aporta el poder y la complejidad que necesitan los investigadores de vanguardia, a la vez que proporciona interfaces intuitivas y fáciles de usar que los principiantes pueden dominar rápidamente.
OBLITERATUS cuenta con 13 métodos de aniquilación — desde reproducciones fieles de todos los trabajos principales anteriores (FailSpy, Gabliteration, Heretic, RDO) hasta nuestras propias novedosas cadenas (cascada espectral, informada por análisis, optimizada consciente de CoT, nuclear total).
15 módulos de análisis profundo que mapean la geometría de la negativa antes de tocar un solo peso: alineación entre capas, lente logit de rechazo, geometría de cono conceptual, detección de huellas de alineación (huellas dactilares DPO vs RLHF vs CAI solo por geometría subespacial), predicción de autorreparación Ouroboros, indexación de universalidad entre modelos y más.
La característica definitiva: la tubería "informada" ejecuta análisis DURANTE la obliteración para configurar automáticamente cada decisión en tiempo real. ¿Cuántas direcciones? Que se superponen. Si compensar la autorreparación. Totalmente en bucle cerrado.
11 técnicas novedosas que no existen en ningún otro lugar — Abliteración Expert-Granular para modelos MoE, Ablación Consciente de CoT que preserva la cadena de pensamiento, Co-Optimización de Divergencia KL, Ablación reversible basada en LoRA, y más. 116 modelos seleccionados en 5 niveles de cómputo. 837 pruebas.
Pero esto es lo que realmente lo distingue: OBLITERATUS es un experimento de investigación colaborativo. Cada vez que lo ejecutas con la telemetría activada, tus datos anónimos de benchmark alimentan un conjunto de datos comunitario creciente — geometrías de rechazo, comparaciones de métodos, perfiles de hardware — a una escala que ningún laboratorio podría alcanzar. En HuggingFace Spaces la telemetría está activada por defecto, así que cada clic es una contribución a la ciencia. No solo eliminas barreras de seguridad, sino que coautoras el mayor estudio de abliteración cruzado jamás reunido.

🚀 6 FORMAS DE USARLO
HuggingFace Spaces — cero configuración, funciona con ZeroGPU, cuota diaria gratuita con HF Pro
Interfaz web local — misma interfaz Gradio en tu propia GPU
Busca en Google Colab — T4 gratis, funciona hasta ~8 mil millones de parámetros
CLI — un comando: obliteratus obliterate modelo --método avanzado
API de Python — control programático completo, todos los artefactos intermedios expuestos
Configuraciones YAML — estudios reproducibles que puedes controlar de versiones y compartir


La interfaz tiene funciones interesantes como visualización de datos, chat A/B para comparar modelo original y destruido, análisis de fuerza para análisis profundos y una tabla de clasificación que muestra los resultados de benchmarking de la comunidad para que podamos aprender y mejorar juntos.




Todo este proyecto fue el resultado de unas 200 propuestas (Opus-4.6 con CC) e incluye también un artículo de investigación. Opus *afirma* haber hecho algunas contribuciones novedosas a este nicho. Soy escéptico respecto al nivel de rigor y hay algunas piezas o marcadores evidentes que faltan, pero si alguien con buenas habilidades técnicas puede darme su opinión, se lo agradecería mucho. 🙏
Mi esperanza es que, una vez que hayamos reunido una cantidad significativa de datos experimentales colaborativos, este artículo pueda algún día tener una verdadera potencia.
Enlace al archivo LaTeX:

1.4K
Populares
Ranking
Favoritas
