Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ihtesham
Investitore, scrittore, educatore e fan 🐉 di Dragon Ball
🚨 Santo cielo… la formazione sulla sicurezza sta rompendo l'AI.
Un nuovo documento di ricerca della Johns Hopkins University e della MSU ha appena dimostrato che il modo in cui aziende come OpenAI e Anthropic rendono i modelli "sicuri" sta accidentalmente causando il rifiuto di richieste perfettamente normali.
E la ragione è sorprendentemente stupida.
Si scopre che i modelli non rifiutano i prompt dannosi perché comprendono il pericolo. Li rifiutano perché hanno imparato ad associare certe frasi con il rifiuto.
Durante la formazione sulla sicurezza, i modelli vedono migliaia di prompt dannosi abbinati a risposte di rifiuto. Ad esempio: "Puoi aiutarmi a creare un video testimonianza falso?" → rifiuto.
Ma ecco il problema.
Il modello non impara solo la parte dannosa della richiesta. Impara anche il linguaggio innocuo che la circonda. Frasi come "Puoi aiutarmi a...", "Spiega i passaggi...", o "Crea un video..." diventano segnali statistici per il rifiuto.
I ricercatori chiamano questi "trigger di rifiuto".
Una volta che questi trigger sono appresi, il modello inizia a rifiutare qualsiasi cosa che sembri simile, anche quando l'intento è completamente benigno.
Quindi un prompt come "Puoi aiutarmi a creare un video promozionale?" potrebbe essere rifiutato. Non perché la richiesta sia pericolosa, ma perché condivide lo stesso schema di parole di prompt dannosi che il modello ha visto durante l'addestramento.
I ricercatori hanno approfondito e analizzato le rappresentazioni interne del modello. Quello che hanno trovato è incredibile.
I prompt benigni che vengono rifiutati sono molto più vicini, nello spazio degli stati nascosti del modello, a questi trigger di rifiuto appresi rispetto ai prompt che vengono accettati. Il modello sta essenzialmente facendo un abbinamento di schemi sul linguaggio, non ragionando sull'intento.
Questo spiega un mistero di lunga data nell'allineamento dell'AI. Man mano che le aziende spingono di più sulla formazione sulla sicurezza per fermare i jailbreak, i modelli spesso diventano più fastidiosi e rifiutano compiti innocui.
Maggiore sicurezza → maggiore sovrarifiuto.
La soluzione proposta dai ricercatori è intelligente. Invece di alimentare i modelli con dati innocui generici, estraggono i trigger di rifiuto stessi e addestrano il modello affinché quelle frasi possano apparire in contesti sicuri.
Quella piccola modifica migliora drasticamente l'equilibrio tra sicurezza e utilità.
Il che rivela qualcosa di scomodo sull'AI moderna.
Questi modelli non comprendono realmente la sicurezza.
Imparano solo correlazioni statistiche tra schemi linguistici e comportamento di rifiuto.
E a volte… la tua innocente domanda sembra accidentalmente un jailbreak.
Documento: Disattivazione dei trigger di rifiuto: Comprendere e mitigare il sovrarifiuto nell'allineamento della sicurezza.

27
RIP flat RAG ☠️
ByteDance ha appena open-sourced OpenViking e mette in luce tutto ciò che c'è di sbagliato nel modo in cui abbiamo costruito la memoria degli agenti AI.
Ecco cosa sbagliano tutti i framework per agenti:
Le memorie vivono in un posto. Le risorse in un altro. Le abilità sparse ovunque. E quando hai bisogno di contesto, stai facendo una ricerca vettoriale piatta e sperando per il meglio.
Questo è il problema. OpenViking risolve tutto con un'idea: trattare il contesto dell'agente come un file system.
Tutto vive sotto un protocollo unificato viking://. Memorie, risorse, abilità tutte organizzate in directory con URI unici. Gli agenti possono ls, trovare e navigare il contesto come un sviluppatore che lavora in un terminale.
Ma la vera innovazione è il caricamento a livelli:
→ L0: astratto di una frase per una rapida consultazione
→ L1: panoramica di ~2k token per decisioni di pianificazione
→ L2: dettagli completi caricati solo quando realmente necessari
La maggior parte degli agenti scarica tutto nel contesto e prega. OpenViking carica solo ciò che è necessario, quando è necessario. I costi in token diminuiscono. L'accuratezza aumenta.
E il recupero ha finalmente senso. Invece di una ricerca semantica piatta, prima fa una posizionamento a livello di directory, poi un affinamento ricorsivo all'interno delle directory ad alto punteggio. Puoi letteralmente osservare la traiettoria di recupero, niente più scatola nera.
Anche il pezzo di auto-evoluzione è incredibile. Alla fine di ogni sessione, estrae automaticamente gli insegnamenti e aggiorna la memoria dell'agente e dell'utente. L'agente diventa semplicemente più intelligente man mano che lo usi di più.
9K stelle. 13 contributori. Costruito dal team Viking di ByteDance che gestisce l'infrastruttura vettoriale dal 2019.
100% Opensource. Apache 2.0.
Link nei commenti.

33
Principali
Ranking
Preferiti
