🚀 Tensorplex Dojo (podsíť 52) v akci! Seznamte se s DOJO-INTERFACE-CODER-7B: Qwen2.5-Coder-7B-Instruct, vyladěný pomocí datových sad Dojo pro vytvoření ohromujícího front-endového uživatelského rozhraní! ✨ Vytváří krásná, interaktivní rozhraní ✨ Trénováno na syntetických datech s distribuovanou lidskou zpětnou vazbou ✨ Napájeno (podsítí 52) na Bittensoru 👇
Funguje to následovně: - Validátory v síti Dojo generují různé výstupy uživatelského rozhraní pomocí pokročilých modelů umělé inteligence. - Lidští hodnotitelé (těžaři) hodnotí tato uživatelská rozhraní na základě estetiky, interaktivity a souladu se zamýšleným úkolem. - Zpětná vazba je shromažďována do specializovaných datových sad (SFT a DPO) za účelem dalšího zlepšení školení. 2/8
Zpočátku se Qwen2.5-Coder-7B-Instruct výrazně potýkal s generováním kompletního kódu uživatelského rozhraní. Výrazně jsme vylepšili jeho možnosti tím, že jsme ho trénovali na naší vysoce kvalitní datové sadě SFT s dokončením 25 tisíc dat, čímž jsme ji proměnili ve spolehlivý generátor strukturovaného rozhraní. 3/8
Přidání datové sady DPO s dokončením o 12,5 tisíci hodnotících lidskými přispěvateli výrazně zlepšilo sladění uživatelského rozhraní se skutečnými uživatelskými preferencemi. Model vyškolený DPO jasně překonal verzi SFT v hodnocení lidí. 4/8
Překvapivě školení řízené člověkem (DPO) také zvýšilo výkon v obecných testech kódování, jako jsou HumanEval a MBPP, i když se školení zaměřovalo výhradně na úlohy uživatelského rozhraní. 5/8
Potenciální případy použití pro DOJO-INTERFACE-CODER-7B: - Adaptivní vzdělávací rozhraní - Přizpůsobitelné nástroje pro žurnálování zaměřené na soukromí - Dynamická uživatelská rozhraní pro lepší spolupráci mezi člověkem a umělou inteligencí 6/8
Další kroky pro Dojo Network: - Rozšíření naší smyčky zpětné vazby od lidí pro bohatší sběr dat - Vývoj dynamických rozhraní člověk-agent - Budování strategických partnerství napříč různými průmyslovými odvětvími 7/8
9,87K