Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aqui está a edição desta semana do Ritual Research Digest, um boletim informativo que cobre o trabalho mais recente no mundo dos LLMs e a interseção entre privacidade, IA e protocolos descentralizados.
Esta semana, apresentamos uma edição do ICML, cobrindo alguns dos muitos artigos que gostámos na conferência.

Role os dados e olhe antes de saltar: Indo além dos limites criativos da previsão do próximo token.
Neste artigo, eles exploram os limites criativos da previsão do próximo token em grandes modelos de linguagem usando tarefas algorítmicas abertas "mínimas".


Eles olham para isso através de duas lentes criativas: combinacional e exploratória.
Modelos treinados para prever o próximo token são em grande parte menos criativos e memorizam muito mais do que os modelos de múltiplos tokens. Eles também exploram a condicionamento de sementes como um método para produzir diversidade significativa nas gerações de LLM.

rStar-Math: Pequenos LLMs Podem Dominar o Raciocínio Matemático com Pensamento Profundo Auto-Evoluído
Este artigo utiliza o ajuste fino auto-evolutivo para melhorar a qualidade dos dados e refinar gradualmente o modelo de recompensa do processo usando MCTS e pequenos LMs.

Utiliza um processo de auto-evolução que começa pequeno com soluções verificadas geradas e treina iterativamente modelos melhores. A síntese de dados é feita com código aumentado Chain of Thought. Melhora o Qwen2.5-Math-7B de 58,8% para 90,0% e o Phi3-mini-3.8B de 41,4% para 86,4%.

Treinamento de um Agente Geralmente Curioso
Este artigo apresenta a Paprika, um método para treinar LLMs para se tornarem tomadores de decisão gerais que podem resolver novas tarefas sem necessidade de exemplos prévios. Eles treinam em grupos de tarefas diversos para ensinar a coleta de informações e a tomada de decisões.

O RL para LLMs foca em interações de turno único, por isso muitas vezes apresentam um desempenho subótimo em tomadas de decisão sequenciais com interações de múltiplos turnos ao longo de diferentes horizontes de tempo. A Paprika gera trajetórias diversas com amostragem de alta temperatura e aprende com as bem-sucedidas.
Como É Que os Grandes Macacos de Linguagem Obtêm o Seu Poder (Leis)
Este artigo examina o conceito de leis de potência em LLMs e fornece uma estrutura matemática para entender como e por que o desempenho do modelo de linguagem melhora com o aumento do poder computacional de inferência.

CVE-Bench: Um Benchmark para a Capacidade dos Agentes de IA em Explorar
Este trabalho introduz um benchmark de cibersegurança do mundo real, criando primeiro um sandbox sistemático. Para cada vulnerabilidade, eles criam contêineres projetados para hospedar uma aplicação com vulnerabilidades expostas.

Em seguida, eles apresentam o CVE-Bench, o primeiro benchmark de cibersegurança do mundo real para agentes LLM. No CVE-Bench, eles coletam 40 Vulnerabilidades e Exposições Comuns (CVEs) na Base de Dados Nacional de Vulnerabilidades.

Alguns outros artigos que gostámos:
- Agentes de IA precisam de delegação autenticada
- LLM-SRBench: Benchmark para Descoberta de Equações Científicas com LLMs
- Aprendizagem de Máquina encontra Combinatória Algébrica
- Escalar o Cálculo em Tempo de Teste sem Verificação ou RL é Subótimo
Siga-nos @ritualdigest para mais informações sobre tudo relacionado a pesquisa em crypto x IA, e @ritualnet para saber mais sobre o que a Ritual está a construir.

5,16K
Top
Classificação
Favoritos