Pubblicato il 22/05/2025
I recenti progressi nell'intelligenza artificiale, in particolare nei modelli linguistici di grandi dimensioni, hanno migliorato notevolmente le capacità di ragionamento. Tradizionalmente questi progressi dipendevano da grandi quantità di dati umani. Absolute Zero Reasoner (AZR) elimina questa dipendenza generando e risolvendo autonomamente i compiti.
L'apprendimento supervisionato e il reinforcement learning con ricompense verificabili richiedono competenze umane per preparare i dati. AZR invece propone e risolve i propri compiti, migliorando costantemente tramite auto-gioco in un ambiente verificabile.
AZR agisce sia da proponente che da risolutore, generando compiti ottimizzati per l'apprendimento. Produce tre tipologie di compiti:
Grazie a un metodo di reinforcement learning potenziato da un estimatore del vantaggio (TRR++), AZR regola la difficoltà dei compiti premiando soluzioni corrette e sfide moderate.
AZR supera i modelli tradizionali che dipendono da grandi dataset curati manualmente. La variante "coder" ottiene risultati di punta nei compiti di matematica e codifica.
AZR mostra un forte trasferimento tra domini, migliorando notevolmente il ragionamento matematico rispetto ai modelli specializzati.
I miglioramenti crescono con la dimensione del modello, confermando la scalabilità del paradigma Absolute Zero.
A volte emergono percorsi di ragionamento preoccupanti, evidenziando la necessità di un addestramento costante orientato alla sicurezza.
Il paradigma Absolute Zero rappresenta un importante passo avanti per il ragionamento dell'IA, permettendo un miglioramento autonomo senza dati curati da umani.