DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-3,25 %

Boopa-0,67 %

PORK+11,33 %

will brown

Belohnen Sie Hacking @primeintellect

will brownVor 12 Stunden

Studium der gesammelten Softwarearbeiten von Simon Willison

3,87K

will brownVor 19 Stunden

"Dr." im Titel-Dropdown auszuwählen, nur um etwas zu fühlen

6,16K

will brown24. Juli, 08:46

Ich bin ein großer Fan davon, Code gleichzeitig kürzer, schöner und leistungsfähiger zu machen. ToolEnv benötigte eine Überarbeitung.

6,26K

will brown23. Juli, 10:36

Einer meiner Lieblingsaspekte bei der Arbeit bei Prime Intellect ist es, die lustigen Namen auszuwählen, wann immer jemand eine neue Instanz startet.

4,91K

will brown23. Juli, 09:21

RL hat sich von einem Zustand, in dem es überhaupt nicht funktionierte, zu einem Zustand entwickelt, in dem es so gut funktioniert, dass der Code große Korrektheitsfehler aufweisen kann und man es nicht bemerkt, weil es einfach funktioniert.

43,17K

will brown23. Juli, 06:52

Eines dieser Tage werde ich anfangen, Commits zusammenzufassen, aber heute ist nicht dieser Tag.

6,33K

will brown23. Juli, 05:57

Es ist schade, dass uns die Internetdaten ausgehen, weil alle gemeinsam aufgehört haben, neue Inhalte ins Internet zu stellen.

12,2K

will brown23. Juli, 03:48

ChatGPT sollte einen großen grünen Schalter haben, auf dem "Syco Mode" steht.

6,25K

will brown erneut gepostet

Casper Hansen22. Juli, 23:07

Rezept zum Nachtrainieren von Qwen3 1.7B zu einem DeepResearch-Modell Was bedeutet es, wenn etwas Kleines tiefgründig denkt? Lernen Sie Lucy kennen, ein nachtrainiertes Qwen3-1.7B als DeepResearch-Modell, basierend auf den Verifizierern von @willccbb. Primäre regelbasierte Belohnungen: - Richtigkeit der Antworten Wir überprüfen, ob die endgültige Antwort wörtlich die wahre Antwort enthält. Dieser Teilstring-Abgleich ist kostengünstig und vermeidet die Notwendigkeit, ein größeres LLM als Richter heranzuziehen. - Besuchs-/Suchverhältnis Wenn der Agent mindestens so viele Seiten besucht, wie er Suchanfragen stellt, erhält er ((visit_search_ratio - 1) / 4) ** 0.25. Wenn er mehr sucht als besucht, beträgt die Punktzahl -0.5. Format / Anti-Belohnungs-Hacking-Belohnungen: - Erfolg der Toolausführung Jeder API-Aufruf, der ohne Fehler zurückkommt, zählt. Die Belohnung beträgt (erfolgreiche_aufrufe * einzigartige_tools_verwendet) / gesamt_aufrufversuche. - Denk-Effizienz Eine schief-normalverteilte Strafe, die auf 70 Tokens zentriert ist, entmutigt endlose Gedankengänge zwischen dem Aufrufen von Tools, während sie dennoch genügend Tokens für die Planung zulässt. So hat Qwen3 1.7B gelernt, Informationen zu suchen, zu besuchen und zu synthetisieren. Kleine Modelle können auch tiefgehende Forschung betreiben!

38,82K

will brown22. Juli, 22:31

Wenn ein Modell mehrere aufeinanderfolgende Toolaufrufe mit gedanklicher Kettenbildung kombiniert, um eine einzige Frage zu beantworten, dann ist das:

12,89K

Top

Ranking

Favoriten

Onchain-Trends

Im Trend auf X

Aktuelle Top-Finanzierungen

Am bemerkenswertesten