Ik heb net geluisterd naar een uitleg over de sprong van Gemini van 2.0 naar 2.5, en hier is de kern. Het team heeft niet alleen op labtests vertrouwd. Ze hebben echte gebruikersfeedback van X verzameld, die "dit is kapot" momenten omgevormd tot levende evaluaties, en blijven nieuwe randgevallen toevoegen met elke release. Het is een door de gemeenschap aangedreven QA-cyclus: onze mislukkingen worden hun benchmarks, die onze betere resultaten worden. Als je een maker of PM bent, dit is een sjabloon: publieke feedback → evaluaties → release → herhalen. Geweldig werk @OfficialLoganK @nbrichtova en het hele team.
59,96K