Pocas conversaciones se quedan contigo, la que tuve con @JonathanRoss321 en Bangalore (gracias Lightspeed @MohapatraHemant) fue una de ellas. Conclusiones clave: 1. La inferencia más rápida no se trata solo de velocidad. Cuando el tiempo es la limitación, la calidad de salida mejora significativamente (se procesan más tokens). 2. Para las empresas, el verdadero juego es la economía: seguirán invirtiendo en inferencia más rápida hasta que tareas específicas vean caer los costos o aumentar los ingresos.
1,46K