Pubblicato il 23/05/2025
I modelli linguistici di grandi dimensioni (LLM) eccellono nei compiti complessi ma applicano talvolta ragionamenti estesi anche quando non necessari. Thinkless consente al modello di scegliere quando approfondire, ottimizzando le risorse.
Con i token di controllo <short>
e <think>
, Thinkless alterna risposte concise e ragionamenti dettagliati senza perdere accuratezza.
L'algoritmo Decoupled Group Relative Policy Optimization (DeGRPO) separa la scelta della modalità dal miglioramento dell'accuratezza, stabilizzando l'addestramento.
Il modello viene inizialmente istruito imitando due esperti: uno specializzato in risposte lunghe e uno in risposte brevi, creando la base per lo switching adattivo.
Nella fase di apprendimento per rinforzo, pesi differenti per i token di controllo e di risposta mantengono bilanciato l'addestramento e preservano i percorsi decisionali.
Su dataset come MATH-500 e GSM8K, Thinkless riduce il ricorso a ragionamenti lunghi dal 50% al 90%, accelerando l'inferenza.
Durante l'addestramento, il modello passa gradualmente da risposte dettagliate a soluzioni concise man mano che comprende la complessità dei compiti.
Rispetto ai modelli tradizionali o a metodi euristici, Thinkless equilibra meglio profondità di ragionamento e costi computazionali.
Miglioramenti futuri potrebbero includere tecniche di fine-tuning avanzate e dataset più ampi per migliorare le prestazioni iniziali.
Thinkless rappresenta un passo avanti nel ragionamento adattivo dei LLM, riducendo i costi computazionali senza perdere accuratezza.