Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
Belohnen Sie Hacking @primeintellect
will brown erneut gepostet
Rezept zum Nachtrainieren von Qwen3 1.7B zu einem DeepResearch-Modell
Was bedeutet es, wenn etwas Kleines tiefgründig denkt? Lernen Sie Lucy kennen, ein nachtrainiertes Qwen3-1.7B als DeepResearch-Modell, basierend auf den Verifizierern von @willccbb.
Primäre regelbasierte Belohnungen:
- Richtigkeit der Antworten
Wir überprüfen, ob die endgültige Antwort wörtlich die wahre Antwort enthält. Dieser Teilstring-Abgleich ist kostengünstig und vermeidet die Notwendigkeit, ein größeres LLM als Richter heranzuziehen.
- Besuchs-/Suchverhältnis
Wenn der Agent mindestens so viele Seiten besucht, wie er Suchanfragen stellt, erhält er ((visit_search_ratio - 1) / 4) ** 0.25. Wenn er mehr sucht als besucht, beträgt die Punktzahl -0.5.
Format / Anti-Belohnungs-Hacking-Belohnungen:
- Erfolg der Toolausführung
Jeder API-Aufruf, der ohne Fehler zurückkommt, zählt. Die Belohnung beträgt (erfolgreiche_aufrufe * einzigartige_tools_verwendet) / gesamt_aufrufversuche.
- Denk-Effizienz
Eine schief-normalverteilte Strafe, die auf 70 Tokens zentriert ist, entmutigt endlose Gedankengänge zwischen dem Aufrufen von Tools, während sie dennoch genügend Tokens für die Planung zulässt.
So hat Qwen3 1.7B gelernt, Informationen zu suchen, zu besuchen und zu synthetisieren. Kleine Modelle können auch tiefgehende Forschung betreiben!
37,76K
Top
Ranking
Favoriten
Onchain-Trends
Im Trend auf X
Aktuelle Top-Finanzierungen
Am bemerkenswertesten