DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Hace 1 década: Ingeniero de Prompts de Aprendizaje por Refuerzo en la Sección 5.3 de «Learning to Think …» [2]. ¡Cadena de Pensamiento Adaptativa! Una red de RL aprende a consultar a otra red para el razonamiento abstracto y la toma de decisiones. Yendo más allá del Modelo Mundial de 1990 para la planificación milisegundo a milisegundo [1]. [2] J. Schmidhuber (JS, 2015). «On Learning to Think: Algorithmic Information Theory for Novel Combinations of RL Controllers and Recurrent Neural World Models.» ArXiv 1210.0118 [1] JS (1990). “Haciendo el mundo diferenciable: Sobre el uso de redes neuronales recurrentes totalmente auto-supervisadas para el aprendizaje por refuerzo dinámico y la planificación en entornos no estacionarios.” TR FKI-126-90, TUM. (Este informe también introdujo la curiosidad artificial y la motivación intrínseca a través de redes generativas adversariales.)

23,53K

Parte superior

Clasificación

Favoritos

En tendencia on-chain

En tendencia en X

Principales fondos recientes

Más destacado