Pripojte sa k našim denným a týždenným spravodajcom a získajte najnovšie aktualizácie a exkluzívny obsah o špičkovom pokrytí AI. Viac informácií
V novej prípadovej štúdii výskumníci Hugging Face ukázali, ako môžu byť malé jazykové modely (SLM) nakonfigurované tak, aby prekonali oveľa väčšie modely. Ich zistenia ukazujú, že model Llama 3 s parametrami 3B môže prekonať verziu 70B modelu v zložitých matematických problémoch.
Hugging Face má plne zdokumentované celý proces a poskytuje plán pre podniky, ktoré chcú vytvoriť svoje vlastné modely uvažovania.
Vypočítajte časové rozsahy testu
Práca je inšpirovaná OpenAI o1, ktorá využíva extra „myslenie“ na riešenie zložitých matematických, kódovacích a logických problémov.
Hlavnou myšlienkou modelov, ako je o1, je škálovať „výpočet v testovacom čase“, čo v podstate znamená použitie viacerých výpočtových cyklov počas inferencie na testovanie a overovanie rôznych odpovedí a ciest uvažovania pred vytvorením konečnej odpovede. Škálovanie testovacieho času je užitočné najmä vtedy, keď nie je dostatok pamäte na spustenie veľkého modelu.
Keďže o1 je súkromný model a OpenAI je o svojom internom fungovaní stručne informovaný, výskumníci špekulovali o tom, ako to funguje, a pokúsili sa tento proces spätne analyzovať. K o1 je už niekoľko otvorených alternatív.
Práca Hugging Face je založená na štúdii DeepMind zverejnenej v auguste, ktorá skúma kompromis medzi časom odvodu a výpočtovým výkonom pred tréningom. Výskum poskytuje komplexný návod na vyváženie školenia a záverov, aby sa dosiahli najlepšie výsledky pri pevnom rozpočte.
Okrem použitia dodatočných výpočtov založených na inferenčnom čase závisí úspech techniky od dvoch kľúčových komponentov: od modelu odmeňovania, ktorý vyhodnocuje odpovede SLM, a od vyhľadávacieho algoritmu, ktorý optimalizuje cestu potrebnú na spresnenie odpovedí.
Rôzne uvažovacie algoritmy
Najjednoduchší spôsob, ako použiť škálovanie testovacieho času, je ‚väčšinové hlasovanie‘, kde sa rovnaká výzva odošle modelu viackrát a vyberie sa ten s najvyšším hlasom. Väčšinové hlasovanie sa môže ukázať ako užitočné pri jednoduchých problémoch, ale jeho zisky sa rýchlo vyrovnajú pri zložitých problémoch s uvažovaním alebo úlohách, kde sú chyby konzistentné naprieč generáciami.
Pokročilejšia metóda uvažovania je „Best-of-N“. Pri tejto technike SLM generuje viacero odpovedí, ale namiesto väčšinového hlasovania sa na vyhodnotenie odpovedí a výber tej najlepšej používa model odmeňovania. Vážený Best-of-N, jemnejšia verzia tejto metódy, berie do úvahy konzistentnosť pri výbere odpovedí, ktoré sú sebavedomé a bežnejšie ako ostatné.
Výskumníci použili „procesný model odmeňovania“ (PRM), ktorý hodnotí odpoveď SLM nielen na základe konečnej odpovede, ale aj na základe rôznych štádií, ktorými SLM prechádza, aby k tejto odpovedi dospel. Ich experimenty ukázali, že vážené Best-of-N a PRM priniesli Llama-3,2 1B blízko k úrovni Llama-3,2 8B v ťažkom benchmarku MATH-500.
Pridať vyhľadávanie
Na ďalšie zlepšenie výkonu modelu výskumníci pridali do procesu uvažovania modelu vyhľadávacie algoritmy. Namiesto generovania odpovede naraz použili „vyhľadávanie pomocou lúča“, algoritmus, ktorý vedie proces odpovede modelu krok za krokom.
V každom kroku SLM generuje viacero čiastočných odpovedí. Vyhľadávací algoritmus používa model odmeňovania na vyhodnotenie odpovedí a vyberie podmnožinu, ktorú stojí za to preskúmať. Proces sa opakuje, kým model nevyčerpá svoj odhadovaný rozpočet alebo kým nedosiahne správnu odpoveď. Týmto spôsobom je možné obmedziť rozpočet na odvodenie a zamerať sa na najsľubnejšie odpovede.
Výskumníci zistili, že zatiaľ čo vyhľadávanie pomocou lúčov zlepšuje výkon modelu pri zložitých problémoch, má tendenciu zaostávať za inými technikami pri jednoduchých problémoch. Na riešenie tejto výzvy pridali do svojej stratégie odvodenia ďalšie dva prvky.
Prvým bol Diverse Verifier Tree Search (DVTS), variant vyhľadávania pomocou lúča, ktorý bráni SLM uviaznuť na falošných cestách uvažovania a diverzifikuje jeho vetvy odpovedí. Po druhé, vyvinuli „počítačovo optimálnu škálovaciu stratégiu“, ako je navrhnuté v dokumente DeepMind, ktorá dynamicky vyberá najlepšiu testovaciu stratégiu škálovania na základe náročnosti vstupného problému.
Kombinácia týchto techník umožnila Llame-3.2 1B preraziť nad svojou hmotnosťou a výrazne prekonať model 8B. Zistili tiež, že stratégia bola škálovateľná a keď ju aplikovali na Llama-3.2 3B, boli schopní prekonať oveľa väčší model 70B.
Zatiaľ to nie je dokonalé riešenie
Škálovanie výpočtov v testovacom čase mení dynamiku nákladov modelu. Firmy majú teraz možnosť vybrať si, kam rozdelia svoje výpočtové zdroje. Napríklad, ak máte nedostatok pamäte alebo dokážete tolerovať pomalšie časy odozvy, môžete použiť malý model a stráviť viac časových cyklov odvodenia, aby ste vygenerovali presnejšie odpovede.
Zväčšovanie času testovania má však aj svoje obmedzenia. Napríklad v experimentoch vykonaných Hugging Face výskumníci použili špeciálne vyškolený model Llama-3.1-8B ako PRM, ktorý vyžaduje paralelné spustenie dvoch modelov (aj keď je oveľa efektívnejšie z hľadiska zdrojov ako model 70B). Výskumníci uznávajú, že svätým grálom škálovania testovacích časov je „samooverenie“, kde pôvodný model overuje svoju vlastnú odpoveď a nie spoliehať sa na overovateľa tretej strany. Toto je otvorená oblasť výskumu.
Technika škálovania času testu prezentovaná v tejto štúdii je tiež obmedzená na problémy, pri ktorých je možné jasne vyhodnotiť odpoveď, ako je kódovanie a matematika. Vytváranie modelov odmeňovania a overovacích mechanizmov pre subjektívne úlohy, akými sú kreatívne písanie a dizajn produktov, si vyžaduje ďalší výskum.
Je však jasné, že zväčšovanie času testovania vyvolalo veľký záujem a aktivitu a môžeme očakávať, že v nasledujúcich mesiacoch sa objaví ešte viac nástrojov a techník. Spoločnosti by bolo rozumné sledovať, ako sa krajina vyvíja.