Pubblicato il 27/10/2025
Il miglioramento delle capacità di ragionamento nei Large Language Models (LLM) di frontiera è stato a lungo dominato dal Reinforcement Learning (RL). Tecniche come il Group Relative Policy Optimization (GRPO) sono state applicate con successo in fase di post-addestramento (posttraining), garantendo notevoli guadagni di performance in domini complessi come la matematica, il codice e la scienza (es. MATH500, HumanEval, GPQA).
Tuttavia, un recente e rivoluzionario paper di Harvard intitolato Reasoning with Sampling: Your Base Model is Smarter Than You Think ha dimostrato che le capacità di ragionamento comparabili, e talvolta superiori, a quelle ottenute tramite RL, possono essere estratte dai modelli di base (base models) semplicemente modificando il processo di campionamento durante l'inferenza, senza alcun addestramento aggiuntivo.
L'essenza di questa scoperta risiede nell'idea del "distribution sharpening" (affilamento della distribuzione).
La ricerca suggerisce che i miglioramenti apportati dall'RL non sono comportamenti fondamentalmente nuovi non presenti nei modelli di base, ma piuttosto una versione "affilata" della distribuzione del modello di base.
Gli autori hanno quindi chiesto: è possibile ottenere lo stesso effetto di sharpening senza gli svantaggi e i costi dell'RL (training-free, dataset-free, verifier-free)?
La soluzione è il Power Sampling, un algoritmo che utilizza un campionamento iterativo intelligente.
Il Power Sampling mira a campionare dalla distribuzione di potenza $p^\alpha$, dove $\alpha \in [1, \infty]$ è il fattore di affilamento. Esponenziare la distribuzione $p$ (la probabilità di sequenza del modello di base) aumenta il peso relativo sulle sequenze con maggiore probabilità. Empiricamente, un valore di $\alpha = 4.0$ è risultato il più performante per i compiti di ragionamento.
È fondamentale notare che il campionamento dalla distribuzione di potenza $p^\alpha$ non è equivalente al campionamento a bassa temperatura (low-temperature sampling, $\tau = 1/\alpha$).
Poiché il campionamento diretto da $p^\alpha$ è computazionalmente intrattabile (richiederebbe la normalizzazione su tutte le sequenze possibili), l'algoritmo utilizza una tecnica Markov Chain Monte Carlo (MCMC), specificamente l'algoritmo Metropolis-Hastings (MH).
L'algoritmo MCMC:
L'algoritmo Power Sampling (Algoritmo 1) introduce una sequenza di distribuzioni intermedie per mitigare il problema dei tempi di mescolamento esponenziali tipici dell'MCMC in spazi ad alta dimensione.
I risultati mostrano che il Power Sampling non solo eguaglia l'RL, ma lo supera spesso in compiti out-of-domain.
| Modello | Metodo | MATH500 (In-Domain) | HumanEval (Out-of-Domain) | AlpacaEval 2.0 (Generale) |
|---|---|---|---|---|
| Qwen2.5-Math-7B | Base | 49.6% | 32.9% | 1.61 |
| Qwen2.5-Math-7B | GRPO (RL) | 78.5% | 53.7% | 2.38 |
| Qwen2.5-Math-7B | Power Sampling (Ours) | 74.8% | 57.3% | 2.88 |
Mentre l'RL (GRPO) subisce un calo delle prestazioni multi-shot a causa del collasso della diversità, il Power Sampling offre prestazioni $pass@k$ migliori del modello di base e supera nettamente GRPO per $k > 1$. In altre parole, ottiene il meglio di entrambi i mondi: eccellenti capacità single-shot e diversità di risposta sostenuta.
Questa tecnica introduce un nuovo asse per lo scaling in fase di inferenza.
In conclusione, questa ricerca dimostra che le capacità latenti di ragionamento nei nostri LLM esistenti sono molto più profonde di quanto rivelato dai metodi di campionamento tradizionali, come se stessimo premendo il bottone sbagliato della calcolatrice per risolvere problemi complessi. L'implementazione di questo metodo può potenziare notevolmente qualsiasi modello di base, compresi quelli specifici per domini aziendali.
Link del paper https://arxiv.org/pdf/2510.14901
Link repo ufficiale: https://github.com/aakaran/reasoning-with-sampling