Vi gleder oss til NVIDIA GTC neste uke!
Her er en oversikt over hva du kan forvente:
-> @philipkiely sin foredragsøkt om høyytelsesinferens for banebrytende AI-modeller
-> Lightning snakker ved @Vultr-standen og @CoreWeave-standen
-> Happy hour med @braintrust
-> Middager med @MiniMax_AI og @Vultr
Besøk oss på stand #931 for swag, en demo, en signert kopi av Inference Engineering — og mer.
Hold øynene åpne for noen overraskelser!
Vi er glade for å være lanseringspartnere på dag 0 for NVIDIA Nemotron 3 Super!
Du kan prøve det nå på Baseten, eller lese bloggen @rapprach for å lære mer om den nye modellen:
Introduksjon av RadixMLP: intra-batch prefiksdeduplisering for 1,4–5 ganger raskere prefill.
Tokens med identiske prefikser (som systemprompter eller delte spørringer) gir identiske aktiveringer. @feilsystem utviklet RadixMLP for å eliminere denne redundansen, åpnet det deretter og la det til i TEI og BEI.