Poucas conversas ficam com você, a que tive com @JonathanRoss321 em Bangalore (obrigado Lightspeed @MohapatraHemant) foi uma delas. Principais conclusões: 1. A inferência mais rápida não se trata apenas de velocidade. Quando o tempo é o fator limitante, a qualidade da saída melhora significativamente (mais tokens processados) 2. Para as empresas, o verdadeiro jogo é a economia: elas continuarão investindo em inferência mais rápida até que tarefas específicas vejam os custos caírem ou as receitas aumentarem.
1,38K