Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nathan Lambert
Descifrar @allen_ai de IA, modelos abiertos, RLHF, ajustes, etc
Contacto vía email.
Escribe @interconnectsai
Escribió el libro de RLHF
Corredor de montaña
Lo que falta: inversión en modelos de código abierto y otras cosas para apoyar el ecosistema de investigación a largo plazo que hará de los EE. UU. el hogar a largo plazo de la innovación en IA. Algo que le falta a nuestro país hoy pero que se puede arreglar.

Anthropichace 15 horas
Nuevo informe de Anthropic: Construir IA en Estados Unidos.
Describimos lo que se necesitará para garantizar que Estados Unidos tenga la energía y la infraestructura que necesita para mantener su liderazgo en IA.

417
Escribir todas las semanas como investigador me da:
1. Mejor sabor de qué proyectos elegir
2. Mejor capacidad para dirigir proyectos hacia un mayor impacto
3. Libertad para hacer algo de tiempo mental para pensar en otra cosa, incluso si el proyecto está atascado
Muy recomendable.

Derek Thompson21 jul, 09:34
Sí.
Escribir no es una segunda cosa que sucede después de pensar. El acto de escribir es un acto de pensar. Escribir *es* pensar.
Los estudiantes, académicos y cualquier otra persona que subcontrate su escritura a LLM encontrarán sus pantallas llenas de palabras y sus mentes vacías de pensamiento.

17.9K
para su entretenimiento :)

AI Engineer20 jul, 05:31
🆕 ¡Lanzando toda nuestra pista RL + Reasoning!
Con:
• @willccbb, intelecto supremo
• @GregKamradt, Premio Arc
• @natolambert, AI2 / Interconexiones
• @corbtt, OpenPipe
• @achowdhery, Reflexión
• @ryanmart3n, a medida
• @ChrSzegedy, Morph
Con taller especial de 3 horas de:
@danielhanchen de Unsloth!
Empieza aquí:
¡Feliz fin de semana viendo! ¡Y gracias a @OpenPipeAI por apoyar y presentar esta canción!

8.96K
Agregar una buena manera de visualizar el objetivo PPO al libro rlhf. El núcleo para el gradiente de políticas es L ~ R * A (R = relación de políticas, A = ventaja).
Haga que las buenas acciones sean más probables hasta cierto punto.
Haga que las malas acciones sean menos probables hasta cierto punto.
El min(...), y el signo de adv determinan qué línea.

9.43K
Populares
Ranking
Favoritas
Onchain en tendencia
Tendencia en X
Principales fondos recientes
Más destacadas