Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Edificio @EurekaLabsAI. Anteriormente Director de AI @ Tesla, equipo fundador @ OpenAI, CS231n/PhD @ Stanford. Me gusta entrenar redes 🧠🤖💥 neuronales grandes y profundas
Modelos de video de difusión, pero ahora - **en tiempo real**!
Los filtros de video simples son en tiempo real, pero solo pueden volver a colorear y estilos básicos. Los modelos de difusión de vídeo (Veo y sus amigos) son mágicos, pero tardan muchos segundos/minutos en generarse. MirageLSD es magia en tiempo real. A diferencia de los filtros de video simples, los modelos de difusión realmente *entienden* lo que están viendo, por lo que pueden diseñar todas las partes de la transmisión de manera inteligente (por ejemplo, poner sombreros en las cabezas o sables de luz en las manos, etc.). Y se pueden dirigir arbitrariamente, por ejemplo, mediante indicaciones de texto.
Los filtros de video inteligentes y personalizables desbloquean muchas ideas geniales con el tiempo:
- Transformar las imágenes de la cámara en realidades alternativas
- Dirige y filma tus propias películas, representando escenas con accesorios. En tiempo real = > retroalimentación/revisión instantánea.
- Codifica los juegos en torno a esferas/bloques simples, luego usa un modelo de difusión en tiempo real para texturizar tu juego y hacerlo hermoso.
- Estiliza y personaliza cualquier feed de vídeo: juegos, vídeos, ... por ejemplo, Skyrim pero "MÁS ÉPICO"? DOOM II pero ¿la calidad moderna de Unreal Engine con solo un mensaje? ¿Película de terror pero "linda, rosa y solo conejitos"? ¡No sé!
- Fondos de llamadas de Zoom+++
- Probarse la ropa en tiempo real de forma virtual
- Gafas: por ejemplo, ¿caricaturizar su visión en tiempo real?
- ahora podemos construir el Espejo de Harry Potter de Erised, mostrando la "alimentación en bruto" de ti en el espejo pero aumentada con tus deseos más profundos (según lo inferido por la IA).
- No sé, probablemente me esté perdiendo el más grande, ¡tantas cosas!
(Divulgación: Soy un inversor ángel (muy pequeño) en Decart, estaba emocionado porque, en mi opinión, esta tecnología se volverá muy buena muy rápido y se siente general, poderosa, pero también es técnicamente muy difícil. ¡Felicidades por el lanzamiento al equipo!)

Decart18 jul, 04:44
Presentamos MirageLSD: el primer modelo de IA de difusión en vivo (LSD)
Ingrese cualquier transmisión de video, desde una cámara o un chat de video a la pantalla de una computadora o un juego, y transfórmelo en cualquier mundo que desee, en tiempo real (latencia de <40 ms).
Así es como funciona (¡con demostración que puedes usar!):
357.35K
A menudo me quejo de que el 99% de la atención está a punto de ser atención LLM en lugar de atención humana. ¿Cómo es un trabajo de investigación para un LLM en lugar de un humano? Definitivamente no es un pdf. Hay un gran espacio para una "aplicación de investigación" extremadamente valiosa que resuelve esto.

Michael Levin10 jul, 22:47
Estoy constantemente irritado por no tener tiempo para leer el torrente de artículos geniales que llegan cada vez más rápido de personas increíbles en campos relevantes. Otros científicos tienen el mismo problema y tampoco tienen tiempo para leer la mayoría de mis extensos artículos conceptuales. Entonces, ¿para quién estamos escribiendo estos documentos?
Supongo que, al menos hasta que caigan en el mismo problema de su propio trabajo, las IA serán las únicas que realmente tengan el ancho de banda para leer todo esto. No estoy hablando específicamente de los modelos de lenguaje actuales, supongamos que nos referimos a cualquier IA inevitable que aparezca, que sea capaz de leer la literatura y tener impacto en la investigación (ya sea hablando con humanos o ejecutando plataformas de automatización de laboratorio/científicos robots).
Entonces: ¿cómo deberíamos estar escribiendo, sabiendo que gran parte de nuestra audiencia será IA (además de cyborgs, hybrots, humanos aumentados, etc.)? Tal vez sea demasiado pronto para saber qué hacer, pero es mejor que empecemos a pensar en ello porque asumir que nuestra audiencia siempre será el ser humano de hoy parece insostenible. Tomando en serio la idea de que algún día la audiencia impactante será muy diferente, y que las cosas que escribimos ahora son, en cierto sentido, un conjunto de entrenamiento para futuros seres verdaderamente diversos, ¿cómo cambia nuestra escritura? ¿O sí?
¿Qué dices que @danfaggella @mpshanahan @Plinz @blaiseaguera?
498.11K
Cómo construir una comunidad de código abierto próspera escribiendo código como lo hacen las bacterias 🦠. El código bacteriano (genomas) es:
- pequeño (cada línea de código cuesta energía)
- modular (organizado en grupos de operones intercambiables)
- autónomo (fácilmente "copiable y pegable" a través de la transferencia horizontal de genes)
Si los fragmentos de código son pequeños, modulares, autónomos y triviales de copiar y pegar, la comunidad puede prosperar a través de la transferencia horizontal de genes. Para cualquier función (gen) o clase (operón) que escribas: ¿te imaginas a alguien yendo a "yoink" sin conocer el resto de tu código o teniendo que importar algo nuevo, para obtener un beneficio? ¿Podría tu código ser una tendencia de GitHub?
Esta guía de estilo de codificación ha permitido a las bacterias colonizar todos los rincones ecológicos, desde los fríos hasta los calientes, los ácidos o los alcalinos en las profundidades de la Tierra y el vacío del espacio, junto con una increíble diversidad de anabolismo del carbono, metabolismo energético, etc. Sobresale en la creación rápida de prototipos, pero... No puede construir una vida compleja. En comparación, el genoma eucariota es un monorrepo significativamente más grande, más complejo, organizado y acoplado. Significativamente menos inventivo, pero necesario para la vida compleja: para construir órganos completos y coordinar su actividad. Con nuestra ventaja de diseño inteligente, debería ser posible aprovechar ambos. Construya una columna vertebral monorepo eucariota si es necesario, pero maximice el ADN bacteriano.

538.78K
La carrera por el "núcleo cognitivo" de LLM: un modelo de unos pocos miles de millones de parámetros que sacrifica al máximo el conocimiento enciclopédico por la capacidad. Vive siempre activo y de forma predeterminada en cada computadora como el kernel de la computación personal de LLM.
Sus características se van cristalizando lentamente:
- Texto/visión/audio multimodal nativo tanto en la entrada como en la salida.
- Arquitectura de estilo matrioska que permite un dial de capacidad hacia arriba y hacia abajo en el momento de la prueba.
- Razonamiento, también con un dial. (sistema 2)
- Uso agresivo de herramientas.
- Ajuste fino en el dispositivo de las ranuras LoRA para el entrenamiento, la personalización y la personalización en el tiempo de prueba.
- Delega y verifica las partes correctas con los oráculos en la nube si hay Internet disponible.
No sabe que el reinado de Guillermo el Conquistador terminó el 9 de septiembre de 1087, pero reconoce vagamente el nombre y puede buscar la fecha. No puede recitar el SHA-256 de cuerda vacía como e3b0c442..., pero puede calcularlo rápidamente si realmente lo desea.
Lo que le falta a la computación personal de LLM en cuanto a amplio conocimiento mundial y capacidad de resolución de problemas de primer nivel, lo compensará con una latencia de interacción súper baja (especialmente a medida que madure el multimodal), acceso directo / privado a los datos y al estado, continuidad fuera de línea, soberanía ("no tus pesos, no tu cerebro"). es decir, muchas de las mismas razones por las que nos gustan, usamos y compramos computadoras personales en lugar de que los clientes ligeros accedan a una nube a través de un escritorio remoto o algo así.
1.03M
Populares
Ranking
Favoritas
Onchain en tendencia
Tendencia en X
Principales fondos recientes
Más destacadas