Rivoluzione nel Ragionamento degli LLM: Come il Power Sampling Sblocca il Genio Nascosto dei Modelli di Base

Il miglioramento delle capacità di ragionamento nei Large Language Models (LLM) di frontiera è stato a lungo dominato dal Reinforcement Learning (RL). Tecniche come il Group Relative Policy Optimization (GRPO) sono state applicate con successo in fase di post-addestramento (posttraining), garantendo notevoli guadagni di performance in domini complessi come la matematica, il codice e la scienza (es. MATH500, HumanEval, GPQA).

Tuttavia, un recente e rivoluzionario paper di Harvard intitolato Reasoning with Sampling: Your Base Model is Smarter Than You Think ha dimostrato che le capacità di ragionamento comparabili, e talvolta superiori, a quelle ottenute tramite RL, possono essere estratte dai modelli di base (base models) semplicemente modificando il processo di campionamento durante l'inferenza, senza alcun addestramento aggiuntivo.

L'essenza di questa scoperta risiede nell'idea del "distribution sharpening" (affilamento della distribuzione).

1. Il Paradigma del Distribution Sharpening

La ricerca suggerisce che i miglioramenti apportati dall'RL non sono comportamenti fondamentalmente nuovi non presenti nei modelli di base, ma piuttosto una versione "affilata" della distribuzione del modello di base.

Il problema dell'RL: Dopo l'addestramento con RL, la distribuzione di confidenza del modello si sposta notevolmente verso destra. Gli output generati sono "super confidenti" (molto più fiduciosi token per token) e tendono a concentrarsi strettamente su regioni ad alta probabilità/confidenza.
Il compromesso: Sebbene questo sharpening porti a risultati eccellenti nel ragionamento a risposta singola (single-shot reasoning), provoca un crollo della diversità di generazione negli output multipli (multi-shot, o $pass@k$), dove i modelli di base non addestrati possono addirittura superare quelli post-addestrati con RL per $k$ grandi.

Gli autori hanno quindi chiesto: è possibile ottenere lo stesso effetto di sharpening senza gli svantaggi e i costi dell'RL (training-free, dataset-free, verifier-free)?

2. Il Power Sampling: Campionamento dalla Distribuzione di Potenza

La soluzione è il Power Sampling, un algoritmo che utilizza un campionamento iterativo intelligente.

2.1. Il Target: La Distribuzione di Potenza ($p^\alpha$)

Il Power Sampling mira a campionare dalla distribuzione di potenza $p^\alpha$, dove $\alpha \in [1, \infty]$ è il fattore di affilamento. Esponenziare la distribuzione $p$ (la probabilità di sequenza del modello di base) aumenta il peso relativo sulle sequenze con maggiore probabilità. Empiricamente, un valore di $\alpha = 4.0$ è risultato il più performante per i compiti di ragionamento.

2.2. Differenza Cruciale dal Campionamento a Bassa Temperatura

È fondamentale notare che il campionamento dalla distribuzione di potenza $p^\alpha$ non è equivalente al campionamento a bassa temperatura (low-temperature sampling, $\tau = 1/\alpha$).

Low-Temperature Sampling (LTS): Esponenzia solo le distribuzioni condizionali del token successivo. Opera in modo "avido" (greedily), mediando le probabilità dei percorsi futuri.
Power Sampling (PS): Campionando da $p^\alpha$, tiene intrinsecamente conto di tutti i completamenti futuri. Questo approccio favorisce i token che hanno "pochi, ma ad alta probabilità percorsi futuri", mentre LTS può favorire token con "diversi completamenti a bassa probabilità". Questo bias è cruciale per i compiti di ragionamento, in quanto incoraggia implicitamente la "pianificazione" verso sequenze ad alta probabilità.

2.3. Implementazione MCMC (Metropolis-Hastings)

Poiché il campionamento diretto da $p^\alpha$ è computazionalmente intrattabile (richiederebbe la normalizzazione su tutte le sequenze possibili), l'algoritmo utilizza una tecnica Markov Chain Monte Carlo (MCMC), specificamente l'algoritmo Metropolis-Hastings (MH).

L'algoritmo MCMC:

Iterazione a Blocchi: Sfrutta la struttura sequenziale della generazione autoregressiva, eseguendo un processo MCMC in blocchi di token (ad esempio, $B=192$).
Generazione Candidata: Ad ogni passo, viene selezionato casualmente un indice e viene generata una sequenza candidata risampionando la sottosequenza successiva (funzione di proposta $q$).
Accettazione/Rifiuto: La sequenza candidata viene accettata o rifiutata in base a un rapporto di accettazione (Equazione 9). Questo rapporto utilizza i pesi relativi $p^\alpha$, assicurando che la catena converga alla distribuzione target $p^\alpha$.

L'algoritmo Power Sampling (Algoritmo 1) introduce una sequenza di distribuzioni intermedie per mitigare il problema dei tempi di mescolamento esponenziali tipici dell'MCMC in spazi ad alta dimensione.

3. Risultati Empirici Sbalorditivi e Vantaggi

I risultati mostrano che il Power Sampling non solo eguaglia l'RL, ma lo supera spesso in compiti out-of-domain.

Modello	Metodo	MATH500 (In-Domain)	HumanEval (Out-of-Domain)	AlpacaEval 2.0 (Generale)
Qwen2.5-Math-7B	Base	49.6%	32.9%	1.61
Qwen2.5-Math-7B	GRPO (RL)	78.5%	53.7%	2.38
Qwen2.5-Math-7B	Power Sampling (Ours)	74.8%	57.3%	2.88

A. Aumento Massiccio del Ragionamento Single-Shot:

MATH500: Sul Qwen2.5-Math-7B, il Power Sampling ha portato a un aumento di accuratezza dal 49.6% al 74.8% (quasi il 25% di incremento). Questo risultato è paragonabile all'RL (GRPO, 78.5%) sul compito in-domain.
HumanEval (Codifica): Su questo compito out-of-domain, il Power Sampling ha raggiunto il 57.3% (Qwen2.5-Math-7B), superando il GRPO (53.7%). Risultati simili di superamento si sono visti su Phi-3.5-mini-instruct (73.2% contro 13.4% di GRPO).
Generalizzabilità (AlpacaEval 2.0): Power Sampling ha superato costantemente l'RL (GRPO) sul benchmark non verificabile AlpacaEval 2.0, suggerendo una generalizzabilità al di là dei domini facilmente verificabili.

B. Mantenimento della Diversità Multi-Shot (Pass@k):

Mentre l'RL (GRPO) subisce un calo delle prestazioni multi-shot a causa del collasso della diversità, il Power Sampling offre prestazioni $pass@k$ migliori del modello di base e supera nettamente GRPO per $k > 1$. In altre parole, ottiene il meglio di entrambi i mondi: eccellenti capacità single-shot e diversità di risposta sostenuta.

4. Implicazioni e Costi

Questa tecnica introduce un nuovo asse per lo scaling in fase di inferenza.

Training-Free: L'aspetto più importante è che l'algoritmo è senza addestramento, senza dataset curati e senza un verificatore. Questo evita le instabilità dell'addestramento e la necessità di hyperparameter sweep estensivi tipici dell'RL.
Costo Computazionale: Il Power Sampling richiede un compute aggiuntivo in fase di inferenza (utilizza più generazioni di token). Per una sequenza tipica, il costo stimato di token generati è circa 8.84 volte superiore rispetto all'inferenza standard. Questo costo aggiuntivo in inferenza viene però ripagato sbloccando capacità latenti altrimenti inaccessibili.

In conclusione, questa ricerca dimostra che le capacità latenti di ragionamento nei nostri LLM esistenti sono molto più profonde di quanto rivelato dai metodi di campionamento tradizionali, come se stessimo premendo il bottone sbagliato della calcolatrice per risolvere problemi complessi. L'implementazione di questo metodo può potenziare notevolmente qualsiasi modello di base, compresi quelli specifici per domini aziendali.

Riferimenti

Link del paper https://arxiv.org/pdf/2510.14901
Link repo ufficiale: https://github.com/aakaran/reasoning-with-sampling