Pubblicato il 15/05/2025
Gli sviluppi recenti nei grandi modelli linguistici si basano principalmente sulla tokenizzazione dei byte grezzi in insiemi fissi. Tuttavia, la tokenizzazione introduce bias e inefficienze. L'innovativo Byte Latent Transformer (BLT) risolve questi limiti raggruppando dinamicamente i byte in patch, migliorando prestazioni, efficienza e robustezza.
A differenza dei modelli tradizionali basati su token fissi, BLT crea patch di byte dinamiche in funzione dell'entropia contestuale, migliorando l'efficienza di inferenza con allocazioni computazionali adattive.
BLT suddivide i dati in patch di dimensioni variabili seguendo un approccio basato sull'entropia. I segmenti più complessi ricevono maggiori risorse computazionali, ottimizzando efficienza e performance.
BLT si compone di tre componenti principali:
Una caratteristica distintiva di BLT è l'utilizzo di layer di cross-attenzione per far interagire in modo efficace i modelli locali a livello di byte con il transformer globale, ottimizzando il flusso informativo.
BLT mostra una scalabilità superiore rispetto ai modelli basati su token, raggiungendo prestazioni uguali o migliori con un taglio dei costi di inferenza fino al 50%.
I test indicano che BLT è più resistente agli input rumorosi e gestisce bene le distribuzioni a coda lunga. Eccelle nei compiti a livello di caratteri e nelle traduzioni multilingue, evidenziando una comprensione dettagliata a livello di byte.
Su benchmark come ARC, HellaSwag e PIQA, BLT eguaglia o supera i modelli basati su token a scala di 8 miliardi di parametri, dimostrando efficacia in compiti di ragionamento e codifica.
Il design senza token di BLT consente di generalizzare tra domini e modalità senza i bias della tokenizzazione, rendendolo uno strumento versatile per i futuri LLM.
Gestendo le patch in modo dinamico, BLT apre nuove prospettive di scalabilità, permettendo di far crescere contemporaneamente le dimensioni del modello e delle patch e ridefinendo l'efficienza di addestramento e inferenza.
Il Byte Latent Transformer rappresenta un importante passo avanti nei modelli linguistici, eliminando gli svantaggi della tokenizzazione fissa e offrendo migliore efficienza, robustezza e scalabilità. Il suo sistema di patch basato sull'entropia stabilisce nuovi standard per le architetture future.