Poucas conversas ficam com você, aquela com @JonathanRoss321 em Bangalore (obrigado Lightspeed @MohapatraHemant) foi uma delas. Principais conclusões: 1. A inferência mais rápida não é apenas sobre velocidade. Quando o tempo é a restrição, a qualidade da saída melhora significativamente (mais tokens processados) 2. Para as empresas, a verdadeira jogada é a economia: elas continuarão investindo em inferência mais rápida até que tarefas específicas vejam os custos caírem ou as receitas aumentarem.
1,38K