Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek [1] utiliza elementos do engenheiro de prompt de aprendizagem por reforço de 2015 [2] e sua refinamento de 2018 [3], que colapsa a máquina de RL e o modelo do mundo de [2] em uma única rede através do procedimento de destilação de rede neural de 1991 [4]: um sistema de cadeia de pensamento destilada.
REFERÊNCIAS (fáceis de encontrar na web):
[1] #DeepSeekR1 (2025): Incentivando a Capacidade de Raciocínio em LLMs via Aprendizagem por Reforço. arXiv 2501.12948
[2] J. Schmidhuber (JS, 2015). Sobre Aprender a Pensar: Teoria da Informação Algorítmica para Novas Combinações de Controladores de Aprendizagem por Reforço e Modelos de Mundo Neurais Recorrentes. arXiv 1210.0118. A Sec. 5.3 descreve o engenheiro de prompt de aprendizagem por reforço (RL) que aprende a consultar ativamente e iterativamente seu modelo para raciocínio abstrato, planejamento e tomada de decisão.
[3] JS (2018). Uma Grande Rede Para Tudo. arXiv 1802.08864. Veja também US11853886B2. Este artigo colapsa o aprendiz por reforço e o modelo do mundo de [2] (por exemplo, um modelo de fundação) em uma única rede, usando o procedimento de destilação de rede neural de 1991 [4]. Essencialmente, o que agora é chamado de sistema de "Cadeia de Pensamento" de RL, onde melhorias subsequentes são continuamente destiladas em uma única rede. Veja também [5].
[4] JS (1991). Aprendendo sequências complexas e extensas usando o princípio da compressão de história. Neural Computation, 4(2):234-242, 1992. Baseado em TR FKI-148-91, TUM, 1991. Primeiro aprendiz profundo funcional baseado em uma hierarquia de rede neural recorrente profunda (com diferentes escalas de tempo auto-organizadoras), superando o problema do gradiente que desaparece através de pré-treinamento não supervisionado (o P em CHatGPT) e codificação preditiva. Também: comprimindo ou destilando uma rede de professor (o chunker) em uma rede de aluno (o automatizador) que não esquece suas habilidades antigas - tais abordagens são agora amplamente utilizadas. Veja também [6].
[5] JS (AI Blog, 2020). 30 anos de planejamento e aprendizagem por reforço com modelos de mundo recorrentes e curiosidade artificial (1990, introduzindo sinais de recompensa de alta dimensão e o princípio GAN). Contém resumos de [2][3] acima.
[6] JS (AI Blog, 2021). 30 anos: Primeiro aprendizado muito profundo com pré-treinamento não supervisionado (1991) [4]. A codificação preditiva hierárquica não supervisionada encontra representações internas compactas de dados sequenciais para facilitar o aprendizado posterior. A hierarquia pode ser destilada [4] em uma única rede neural profunda. 1993: resolvendo problemas de profundidade >1000.

787,02K
Top
Classificação
Favoritos