Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Bauen @EurekaLabsAI. Zuvor Director of AI @ Tesla, Gründungsteam @ OpenAI, CS231n/PhD @ Stanford. Ich trainiere gerne große tiefe neuronale Netze 🧠🤖💥
Diffusionsvideomodelle, aber jetzt - **Echtzeit**!
Einfache Video-Filter sind in Echtzeit, können aber nur grundlegende Farbänderungen und Stile durchführen. Video-Diffusionsmodelle (Veo und Freunde) sind magisch, benötigen jedoch viele Sekunden/Minuten zur Generierung. MirageLSD ist Echtzeitmagie. Im Gegensatz zu einfachen Video-Filtern verstehen Diffusionsmodelle tatsächlich, was sie betrachten, sodass sie alle Teile des Feeds intelligent gestalten können (z. B. Hüte auf Köpfen oder Lichtschwerter in Händen usw.). Und sie sind beliebig steuerbar, z. B. durch Textaufforderungen.
Anpassbare, intelligente Video-Filter eröffnen im Laufe der Zeit viele coole Ideen:
- Kamera-Feeds in alternative Realitäten verwandeln
- eigene Filme drehen und Szenen mit Requisiten nachspielen. Echtzeit => sofortiges Feedback/Überprüfung.
- Vibe-Code-Spiele rund um einfache Kugeln/Blöcke, dann ein Echtzeit-Diffusionsmodell verwenden, um dein Spiel zu texturieren und es schön zu machen.
- jeden Video-Feed gestalten und anpassen: Spiele, Videos, ... z. B. Skyrim aber "MEHR EPISCH"? DOOM II, aber moderne Unreal Engine-Qualität nur mit einer Aufforderung? Horrorfilm, aber "niedlich, pink und nur Kaninchen"? Ich weiß es nicht!
- Zoom-Call-Hintergründe+++
- Kleidung virtuell in Echtzeit anprobieren
- Brillen: z. B. deine Sicht in Echtzeit cartoonisieren?
- Wir können jetzt den Harry Potter Spiegel von Erised bauen, der den "rohen Feed" von dir im Spiegel zeigt, aber ergänzt mit deinen tiefsten Wünschen (wie vom KI abgeleitet).
- Ich weiß es nicht, ich vermisse wahrscheinlich das Größte, so viele Dinge!

Decart18. Juli, 04:44
Einführung von MirageLSD: Das erste Live-Stream Diffusion (LSD) KI-Modell
Geben Sie jeden Video-Stream ein, von einer Kamera oder Video-Chat bis hin zu einem Computerbildschirm oder Spiel, und verwandeln Sie ihn in jede Welt, die Sie sich wünschen, in Echtzeit (<40ms Latenz).
So funktioniert es (mit Demo, die Sie verwenden können!):
353,04K
Ich rege mich oft darüber auf, dass 99 % der Aufmerksamkeit bald LLM-Aufmerksamkeit anstelle von menschlicher Aufmerksamkeit sein werden. Wie sieht ein Forschungspapier für ein LLM im Gegensatz zu einem Menschen aus? Es ist definitiv kein PDF. Es gibt einen riesigen Raum für eine äußerst wertvolle "Forschungs-App", die das herausfindet.

Michael Levin10. Juli, 22:47
Ich bin ständig genervt, dass ich keine Zeit habe, die Flut cooler Arbeiten zu lesen, die immer schneller von erstaunlichen Menschen in relevanten Bereichen kommen. Andere Wissenschaftler haben dasselbe Problem und haben ebenfalls keine Zeit, die meisten meiner umfangreichen konzeptionellen Arbeiten zu lesen. Für wen schreiben wir diese Arbeiten also?
Ich schätze, zumindest bis sie mit demselben Problem aus ihrer eigenen Arbeit konfrontiert werden, werden KI's die einzigen sein, die tatsächlich die Kapazität haben, all diese Dinge zu lesen. Ich spreche nicht speziell von den heutigen Sprachmodellen – nehmen wir an, wir meinen jede unvermeidliche KI, die auftaucht und in der Lage ist, die Literatur zu lesen und Einfluss auf die Forschung zu nehmen (ob durch Gespräche mit Menschen oder durch den Betrieb von Laborautomatisierungs-/Roboterwissenschaftler-Plattformen).
Wie sollten wir also schreiben, in dem Wissen, dass ein großer Teil unseres Publikums KI (plus Cyborgs, Hybriden, augmentierte Menschen usw.) sein wird? Vielleicht ist es zu früh, um zu wissen, was zu tun ist, aber wir sollten besser anfangen, darüber nachzudenken, denn anzunehmen, dass unser Publikum immer die heutigen Menschen sein wird, scheint unhaltbar. Wenn wir die Idee ernst nehmen, dass eines Tages das einflussreiche Publikum sehr unterschiedlich sein wird und dass die Dinge, die wir jetzt schreiben, in gewisser Weise ein Trainingsset für wirklich vielfältige zukünftige Wesen sind, wie verändert sich unser Schreiben? Oder tut es das?
498,09K
Wie man eine florierende Open-Source-Community aufbaut, indem man Code schreibt, wie es Bakterien tun 🦠. Bakterieller Code (Genome) ist:
- klein (jede Codezeile kostet Energie)
- modular (in Gruppen von austauschbaren Operons organisiert)
- eigenständig (einfach "copy-paste-fähig" durch horizontalen Gentransfer)
Wenn Codeabschnitte klein, modular, eigenständig und trivial zu kopieren und einzufügen sind, kann die Community durch horizontalen Gentransfer gedeihen. Für jede Funktion (Gen) oder Klasse (Operon), die du schreibst: Kannst du dir vorstellen, dass jemand "yoink" sagt, ohne den Rest deines Codes zu kennen oder etwas Neues importieren zu müssen, um einen Vorteil zu erlangen? Könnte dein Code ein trendiger GitHub-Gist sein?
Dieser Coding-Stil hat es Bakterien ermöglicht, jede ökologische Nische von kalt über heiß bis sauer oder alkalisch in den Tiefen der Erde und im Vakuum des Weltraums zu kolonisieren, zusammen mit einer verrückten Vielfalt an Kohlenstoffanabolismus, Energiestoffwechsel usw. Er eignet sich hervorragend für schnelles Prototyping, aber... er kann kein komplexes Leben aufbauen. Im Vergleich dazu ist das eukaryotische Genom ein deutlich größeres, komplexeres, organisiertes und gekoppeltes Monorepo. Deutlich weniger einfallsreich, aber notwendig für komplexes Leben - um ganze Organe zu bauen und deren Aktivität zu koordinieren. Mit unserem Vorteil des intelligenten Designs sollte es möglich sein, beide Vorteile zu nutzen. Baue ein eukaryotisches Monorepo-Backbone, wenn du musst, aber maximiere die bakterielle DNA.

538,76K
Das Rennen um den LLM "kognitiven Kern" - ein Modell mit ein paar Milliarden Parametern, das maximal enzyklopädisches Wissen zugunsten von Fähigkeiten opfert. Es lebt immer aktiv und standardmäßig auf jedem Computer als Kern der LLM-Personalcomputing.
Seine Funktionen kristallisieren sich langsam heraus:
- Nativ multimodal in Text/Visuellen/Audiodaten sowohl bei Eingabe als auch Ausgabe.
- Matroschka-artige Architektur, die eine Anpassung der Fähigkeiten während der Testzeit ermöglicht.
- Denken, ebenfalls mit einer Anpassung. (System 2)
- Aggressiv im Umgang mit Werkzeugen.
- On-Device-Finetuning LoRA-Slots für Training zur Testzeit, Personalisierung und Anpassung.
- Delegiert und überprüft nur die richtigen Teile mit den Orakeln in der Cloud, wenn das Internet verfügbar ist.
Es weiß nicht, dass die Herrschaft von Wilhelm dem Eroberer am 9. September 1087 endete, aber es erkennt den Namen vage und kann das Datum nachschlagen. Es kann den SHA-256 des leeren Strings nicht als e3b0c442... wiedergeben, aber es kann ihn schnell berechnen, wenn Sie es wirklich wollen.
Was dem LLM-Personalcomputing an breitem Weltwissen und erstklassiger Problemlösungsfähigkeit fehlt, wird durch extrem niedrige Interaktionslatenz (insbesondere wenn multimodal reift), direkten / privaten Zugang zu Daten und Zustand, Offline-Kontinuität, Souveränität ("nicht deine Gewichte, nicht dein Gehirn") wettgemacht. d.h. viele der gleichen Gründe, warum wir persönliche Computer mögen, nutzen und kaufen, anstatt dünne Clients zu haben, die über Remote-Desktop auf eine Cloud zugreifen.
1,03M
Top
Ranking
Favoriten
Onchain-Trends
Im Trend auf X
Aktuelle Top-Finanzierungen
Am bemerkenswertesten