Wer leistet die beste Arbeit bei Multiturn- / Tool-Calling-Evaluierungen? Ich bin sehr daran interessiert zu sehen, wie andere UI-Scaffolding dafür gemacht haben.
4,25K