> resis

|

Thinkless: Ragionamento Adattivo nei Modelli Linguistici di Grandi Dimensioni

Pubblicato il 23/05/2025

Introduzione

I modelli linguistici di grandi dimensioni (LLM) eccellono nei compiti complessi ma applicano talvolta ragionamenti estesi anche quando non necessari. Thinkless consente al modello di scegliere quando approfondire, ottimizzando le risorse.

L'Approccio Thinkless

Modalità Adattive di Ragionamento

Con i token di controllo <short> e <think>, Thinkless alterna risposte concise e ragionamenti dettagliati senza perdere accuratezza.

Framework di Apprendimento per Rinforzo

L'algoritmo Decoupled Group Relative Policy Optimization (DeGRPO) separa la scelta della modalità dal miglioramento dell'accuratezza, stabilizzando l'addestramento.

Addestramento e Ottimizzazione

Distillazione per il Riscaldamento

Il modello viene inizialmente istruito imitando due esperti: uno specializzato in risposte lunghe e uno in risposte brevi, creando la base per lo switching adattivo.

Decoupled GRPO

Nella fase di apprendimento per rinforzo, pesi differenti per i token di controllo e di risposta mantengono bilanciato l'addestramento e preservano i percorsi decisionali.

Prestazioni e Risultati

Benchmark Empirici

Su dataset come MATH-500 e GSM8K, Thinkless riduce il ricorso a ragionamenti lunghi dal 50% al 90%, accelerando l'inferenza.

Dinamiche di Addestramento

Durante l'addestramento, il modello passa gradualmente da risposte dettagliate a soluzioni concise man mano che comprende la complessità dei compiti.

Vantaggi Comparativi

Rispetto ai modelli tradizionali o a metodi euristici, Thinkless equilibra meglio profondità di ragionamento e costi computazionali.

Direzioni Future

Miglioramenti futuri potrebbero includere tecniche di fine-tuning avanzate e dataset più ampi per migliorare le prestazioni iniziali.

Conclusione

Thinkless rappresenta un passo avanti nel ragionamento adattivo dei LLM, riducendo i costi computazionali senza perdere accuratezza.