Demonstração do QVAC da Tether a executar inferência local num dispositivo móvel a uma velocidade incrível, através de llama.cpp + LLAMA 3.2 com 1B de parâmetros. O QVAC é um runtime de inferência e ajuste fino generalizado capaz de se adaptar a qualquer dispositivo, desde smartphones a laptops e servidores. Muitos modelos já estão a ser suportados. Mais virão. Sem limites. Inteligência infinita. Em breve.
35,12K