Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek [1] utiliza elementos del ingeniero de sugerencias de aprendizaje por refuerzo de 2015 [2] y su refinamiento de 2018 [3] que colapsa la máquina RL y el modelo mundial de [2] en una sola red a través del procedimiento de destilación de redes neuronales de 1991 [4]: una cadena destilada de sistema de pensamiento.
REFERENCIAS (fácil de encontrar en la web):
[1] #DeepSeekR1 (2025): Incentivar la capacidad de razonamiento en los LLM a través del aprendizaje por refuerzo. arXiv 2501.12948
[2] J. Schmidhuber (JS, 2015). Sobre aprender a pensar: Teoría algorítmica de la información para combinaciones novedosas de controladores de aprendizaje por refuerzo y modelos de mundo neuronal recurrentes. arXiv 1210.0118. La sección 5.3 describe al ingeniero de sugerencias de aprendizaje por refuerzo (RL) que aprende a consultar activa e iterativamente su modelo para el razonamiento abstracto y la planificación y toma de decisiones.
[3] JS (2018). Una gran red para todo. arXiv 1802.08864. Véase también US11853886B2. Este artículo colapsa el aprendiz de refuerzo y el modelo mundial de [2] (por ejemplo, un modelo de base) en una sola red, utilizando el procedimiento de destilación de redes neuronales de 1991 [4]. Esencialmente, lo que ahora se llama un sistema de "Cadena de Pensamiento" de RL, donde las mejoras posteriores se destilan continuamente en una sola red. Véase también [5].
[4] JS (1991). Aprendizaje de secuencias complejas y extendidas utilizando el principio de compresión de la historia. Computación neuronal, 4(2):234-242, 1992. Basado en TR FKI-148-91, TUM, 1991. Primer aprendizaje profundo basado en una jerarquía de redes neuronales recurrentes profundas (con diferentes escalas de tiempo autoorganizadas), superando el problema del gradiente de desaparición a través de un entrenamiento previo no supervisado (la P en CHatGPT) y codificación predictiva. También: comprimir o destilar una red de profesores (el chunker) en una red de estudiantes (el automatizador) que no olvida sus viejas habilidades: estos enfoques se utilizan ahora ampliamente. Véase también [6].
[5] JS (Blog de IA, 2020). 30 años de planificación y aprendizaje por refuerzo con modelos de mundo recurrentes y curiosidad artificial (1990, introducción de señales de recompensa de alta dimensión y el principio GAN). Contiene resúmenes de [2][3] anteriores.
[6] JS (Blog de IA, 2021). 30 aniversario: Primer aprendizaje muy profundo con pre-entrenamiento no supervisado (1991) [4]. La codificación predictiva jerárquica no supervisada encuentra representaciones internas compactas de datos secuenciales para facilitar el aprendizaje posterior. La jerarquía se puede destilar [4] en una sola red neuronal profunda. 1993: resolviendo problemas de profundidad >1000.

786.99K
Populares
Ranking
Favoritas