Gli scienziati di Alexa di Amazon dimostrano che l'intelligenza artificiale più grande non è sempre migliore

Nonostante l'ossessione del deep learning per i grandi modelli e gli approcci generalisti, Amazon mostra che si possono ottenere i migliori risultati con modelli economici.

Screenshot dei paragrafi di testo seguiti da un riepilogo di una frase — Un compito semplice, ridurre tutte le parole di un articolo a una sequenza compatta di parole che spieghi il punto centrale dell'articolo, è tra i compiti di riferimento nel deep learning. È qui che gli scienziati di Alexa AI di Amazon affermano di poter sfruttare al meglio gli sforzi di programmi per computer molto più grandi di DeepMind, Google, Meta, OpenAI e altri. Il lavoro ha implicazioni per l'uso di energia e l'efficienza dell'impronta di carbonio.
AmazonAlexa AI 2022

Due filoni di ricerca dominano fortemente l'apprendimento automatico in questi giorni: rendere i programmi più generali nel loro approccio (per gestire qualsiasi potenziale compito) e renderli più grandi.

Le più grandi reti neurali, misurate dai loro parametri o "pesi", arrivano a oltre mezzo trilione di pesi. Modelli come Pathways Language Model di Google, o PaLM, e Nvidia e Microsoft

Megatron-Turing NLG 530B sono tra i più grandi, rispettivamente con 540 miliardi e 530 miliardi di parametri. Più parametri ha un programma, in generale, maggiore è la quantità di potenza di calcolo che consuma per allenarsi e anche per eseguire previsioni, ciò che viene chiamato inferenza.

Intelligenza artificiale

7 suggerimenti avanzati per la scrittura rapida di ChatGPT che devi conoscere
I 10 migliori plugin ChatGPT del 2023 (e come sfruttarli al meglio)
Ho testato molti strumenti di intelligenza artificiale per il lavoro. Questi sono i miei 5 preferiti finora
Umano o robot? Questo gioco di prova di Turing mette alla prova le tue abilità di individuazione dell'IA

I conoscitori dell'IA insistono sul fatto che il percorso è decisamente in alto ea destra per il conteggio dei parametri, verso un trilione di parametri e ben oltre in un futuro non così lontano. La cifra di 100 trilioni è una specie di obiettivo magico perché lo è ritenuto essere il numero di sinapsi in un cervello umano, quindi serve come una sorta di punto di riferimento.

Anche: Nvidia chiarisce l'affermazione sulla scala Megatron-Turing

Allo stesso tempo, c'è un fervore nel creare reti neurali profonde che possano essere il più generali possibile. Per gran parte della storia dell'apprendimento automatico degli ultimi 40 anni, i programmi erano specializzati per attività come il riconoscimento di immagini o il riconoscimento vocale. Ciò è cambiato negli ultimi anni, con sempre più programmi che si offrono di essere generalisti, come DeepMind Percettore ARe un altro programma DeepMind, Gato, indicato come "un agente generalista" in grado di risolvere una miriade di compiti.

La tendenza alla generalizzazione è stata rafforzata dalle osservazioni dei pionieri dell'apprendimento automatico come Richard Sutton, che lo ha osservato "Storicamente, i modelli generici che sfruttano meglio il calcolo hanno anche avuto la tendenza a superare approcci specifici di dominio più specializzati infine."

Anche: "Gato" di DeepMind è mediocre, quindi perché l'hanno costruito?

Eppure, ci sono risultati di deep learning che a volte vanno dall'altra parte: contro gigante e generale a economico e in qualche modo mirato, se non specializzato.

In contrasto con questi mega-sforzi, i ricercatori di Amazon la scorsa settimana hanno svelato un programma di rete neurale con solo 20 miliardi di parametri che supera alcuni dei modelli più grandi e generali su alcuni importanti compiti di benchmark del deep learning, come come riassumere un articolo.

Nel documento "AlexaTM 20B: apprendimento a pochi colpi utilizzando un modello Seq2Seq multilingue su larga scala" pubblicato la scorsa settimana su arXiv, l'autore Saleh Soltan e colleghi di Amazon Alexa AI mostrano che 20 miliardi di parametri sono sufficienti per battere modelli più grandi come PaLM su determinate attività, come riassumere un articolo in poche frasi.

Oltre alla carta, Soltan ha scritto un post sul blog sull'argomento.

Il lavoro di Amazon fa parte di un'ampia tendenza nella letteratura recente per trovare alternative all'aumento delle dimensioni. Un documento pubblicato la scorsa settimana da Meta Properties (proprietari di Facebook e Instagram) intitolato "Apprendimento immediato con recupero di modelli linguistici aumentati"è un buon esempio. Descrive un modello linguistico chiamato Atlas che ha solo 11 miliardi di parametri e viene addestrato utilizzando solo 64 punti dati di esempio.

Come con AlexaTM 20B, il programma Atlas batte PaLM con un margine significativo, scrivono gli autori, anche solo con i 64 esempi. La chiave di Atlas è combinare il modello linguistico pre-addestrato con la capacità di recuperare informazioni da fonti online, come Wikipedia, come se si chiamasse un amico per la risposta.

Anche: DeepMind's Perceiver AR: un passo verso una maggiore efficienza dell'IA

Nel caso di AlexaTM 20B, gli autori di Amazon usano tre modifiche per ottenere i loro punteggi.

Diagramma Amazon 2022 AlexTM 20B

Amazzonia

La prima modifica interessante è tornare alle origini e ripristinare qualcosa che è stato tolto dai recenti modelli di linguaggio gigante. La base di AlexaTM 20B è la stessa di PaLM e GPT-3 e altri, un codificatore-decodificatore Transformer, l'approccio sperimentato nel 2017 dagli scienziati di Google Ashish Vaswani e colleghi.

Il Transformer utilizza unità chiamate "auto-attenzione" per ottenere un punteggio di probabilità su come ogni parola può essere trovata nel contesto di altre parole. Quel punteggio viene quindi utilizzato per riempire gli spazi vuoti durante la previsione delle parole per formare blocchi di testo significativi.

Nel caso di AlexaTM 20B, Soltan e colleghi si discostano in modo critico da PaLM e GPT-3 e da altri giganteschi discendenti del Transformer originale. Quei modelli più recenti hanno rinunciato a metà del Transformer, quello che viene chiamato il codificatore (la cosa che mappa i dati di input in stati nascosti per poi essere decodificati in una risposta). Invece, PaLM e GPT-3 uniscono l'input con il decoder, per formare un programma ridotto che è un modello "solo decoder".

Il team di Alexa rimette il codificatore nel programma. La loro affermazione è che avere entrambi gli elementi aiuta a migliorare la precisione in quello che viene chiamato "de-noising", il che significa ricostruire una frase originale in cui alcune parole sono state eliminate.

Nel modello del solo decodificatore, la probabilità condizionale del testo previsto va solo in una direzione: ogni risposta successiva si basa solo su ciò che è venuto prima. Nella versione completa codificatore-decodificatore, al contrario, il modello effettua una valutazione delle probabilità in entrambe le direzioni: cosa è venuto prima di una data parola e cosa segue. Ciò serve meglio nei compiti in cui non si sta solo generando l'elemento successivo in una frase, ma anche facendo cose come il confronto parola per parola, come nei compiti di traduzione da una lingua all'altra.

Modelli solo decoder Amazon 2022 AlexTM 20B

Amazzonia

Anche: L'enorme opera di traduzione multilingue di Meta si imbatte ancora in greco, armeno, oromo

Mentre scrivono, "AlexaTM 20B raggiunge un nuovo stato dell'arte dell'82,63% nell'impostazione zero-shot nella modalità di riduzione del rumore. Il motivo principale per cui la modalità di riduzione del rumore offre prestazioni migliori per questa attività è che nella modalità di riduzione del rumore l'input viene ricevuto ripetuto in encoder e decoder consentendo al modello di utilizzare completamente sia l'encoder che il decoder per trovare il meglio risposta."

La seconda cosa che gli autori aggiungono è addestrare il modello con quella che viene chiamata "modellazione del linguaggio causale". CLM, in breve, è l'attività utilizzata in GPT-3 e in altri Transformer solo decoder. Rappresenta specificamente ogni parola come dipendente solo dalle parole precedenti: una dipendenza sequenziale unidirezionale che viene addestrata per generare frasi basate su un prompt iniziale.

Gli autori mescolano il compito di de-noising con il compito causale nell'addestramento di AlexaTM 20B, con il de-noising che occupa l'80% dell'attività di addestramento e la modellazione causale il restante quinto.

La virtù dell'aggiunta di modellazione causale è che, simile a GPT-3, aiuta in quello che viene chiamato "nel contesto apprendimento." L'apprendimento nel contesto è un'ampia rubrica che copre tutti i modelli in grado di eseguire zero o pochi scatti apprendimento. Ciò significa che il programma non ha conoscenze specifiche del dominio; gli dai solo un prompt di esempio e il programma fa una previsione che è in accordo con il tipo di domanda posta.

A causa di quel regime di allenamento ibrido, AlexTM 20B non solo riesce bene a ricostruire le frasi: il compito di de-noising, è anche "il primo modello multilingue seq2seq [da sequenza a sequenza] in grado di apprendere nel contesto", gli autori scrivere. È un programma ibrido, in altre parole.

La terza modifica interessante di Soltan e colleghi è quella di aumentare enormemente il numero di punti dati immessi nel programma durante l'allenamento. Immettono un trilione di "token", singoli pezzi di dati, durante l'addestramento; è più del triplo di quanto riceve GPT-3. I set di dati di addestramento in questo caso sono costituiti da voci di Wikipedia e anche da ciò che viene chiamato mC4, un set di dati per l'addestramento di Transformers introdotto lo scorso anno di Linting Xue e colleghi di Google. Si basa sul testo in linguaggio naturale in 101 lingue dalle origini dati raschiate dal Web di Common Crawl.

Anche: Senziente? Google LaMDA sembra un tipico chatbot

L'uso di una grande quantità di dati di input training è uno degli elementi chiave del lavoro di Alexa. Soltan e il team hanno deciso di seguire questa strada, scrivono, sulla base di un'osservazione fatta da Jordan Hoffman e colleghi di OpenAI, come pubblicato in un articolo lo scorso marzo, "Addestramento di modelli di linguaggio di grandi dimensioni ottimali per il calcolo."

In quel documento, Hoffman e colleghi concludono che "gli attuali modelli di linguaggio di grandi dimensioni sono significativamente sotto-addestrati, una conseguenza della recente attenzione al ridimensionamento modelli linguistici mantenendo costante la quantità di dati di addestramento." Prendendo un'ampia gamma di modelli linguistici di diverse dimensioni e testandoli tutti con quantità variabili di token di input, gli autori hanno concluso che "per l'addestramento ottimale per il calcolo, la dimensione del modello e il numero di token di addestramento dovrebbero essere ridimensionati allo stesso modo».

Quindi, AlexaTM 20B non è solo parsimonioso: mira a dimostrare che è possibile bilanciare meno parametri con più dati di allenamento per ottenere prestazioni convincenti.

ZDNET Raccomanda

Quale Amazon Echo comprare? Come scegliere il miglior dispositivo Alexa per le tue esigenze

Amazon ora ha un intero esercito di dispositivi Echo. Alcuni ti ascoltano. Alcuni ti guardano anche. Quale dovresti scegliere? Ti aiutiamo a decidere.

Leggi ora

Per inciso, gli autori si preoccupano anche di modellare la maggior parte dell'input come naturale parlato testo, eliminando maiuscole e punteggiatura, che ha importanza in un ambiente Alexa. "Includiamo più testo parlato che scritto per soddisfare i nostri casi d'uso interni", scrivono.

Alcune delle tecnologie del team Alexa AI sono utilizzate nei prodotti Alexa, anche se Amazon ha detto ZDNet in un'e-mail che il gruppo "[fa] anche ricerche lungimiranti". Il modello AlexaTM 20B, ha affermato Amazon, "è principalmente un progetto di ricerca in questa fase".

Amazon ha aggiunto: "È possibile che questo modello venga implementato in produzione in futuro, ma solo la versione modificata con guardrail verrà utilizzata per sviluppare funzionalità e prodotti Alexa".

Anche: L'enorme lavoro di traduzione linguistica di Google identifica dove si sbaglia

Gli autori addestrano il modello AlexaTM 20B "per 120 giorni su 128 GPU [Nvidia] A100 per un totale di 500k aggiornamenti con la dimensione del batch accumulata di 2 milioni di token (totale di 1 trilione di aggiornamenti di token)," they scrivere.

Potrebbe sembrare molto, ma è meno di PaLM, che è stato addestrato da Google su due dei suoi Pod TPU di quarta generazione, costituiti da 3.072 chip TPU in ciascun Pod, collegati a 768 host computer.

Come autori di Google Aakanksha Chowdhery e team notato in aprile, quella era "la più grande configurazione TPU descritta fino ad oggi".

I risultati sono enunciati in risultati di test specifici. Soltan e il team pongono un'enfasi speciale sul loro successo in compiti particolari rispetto a ogni compito concepibile. Ad esempio, Soltan e il team osservano che "AlexaTM 20B funziona meglio o alla pari del più grande modello di solo decodificatore denso fino ad oggi (ovvero PaLM 540B) nel riepilogo sia nelle impostazioni 1-shot che di regolazione fine." Ciò è particolarmente vero in un compito di riepilogo dei paragrafi noto come SommaML; in tedesco, spagnolo e francese, AlexaTM 20B ha battuto facilmente PaLM.

Il test di riferimento MLSum, introdotto nel 2020 dal Centro nazionale francese per la ricerca scientifica, comprende 1,5 milioni di articoli di giornali. Il compito è che un modello linguistico emetta alcune frasi di testo che esprimano l'idea esposta nell'intero articolo. Ciò richiede molta riduzione, ovviamente, di centinaia di parole fino forse a poche dozzine.

Amazzonia

Scambia i tuoi vecchi dispositivi con buoni regalo Amazon. Ecco come
Amazon aggiunge 4 prodotti alla gamma Echo: Alexa ottiene nuovi altoparlanti, display e auricolari
Amazon sta lavorando al proprio chatbot AI per assistere i suoi acquirenti
Amazon Fire Stick vs Roku Streaming Stick: quale è giusto per te?
Amazon Anywhere cambia la definizione di acquisti in-app

In un quarto test, XSum, eseguito in inglese, il modello AlexaTM 20B si è piazzato secondo e ha battuto un versione di PaLM più grande di AlexaTM 20B ma più piccola della versione da 540 miliardi di parametri di Palma.

Mentre eccelle nel riepilogo, l'AlexTM 20B fallisce in alcuni altri compiti. Ad esempio, testato su insiemi di dati di "ragionamento" (come MultiArith) e attività di ragionamento "a catena di pensiero" (che sono molto semplici problemi aritmetici scritti in linguaggio naturale), il programma rimane molto indietro rispetto a quanto realizzato dai modelli molto più grandi come GPT-3.

Anche: Il futuro dell'intelligenza artificiale è una storia di software, afferma il CEO di Graphcore

Scrivi Soltan e il team, "AlexaTM 20B ha prestazioni leggermente migliori rispetto a modelli di dimensioni simili, tuttavia, non abbiamo osservato il guadagno che modelli molto più grandi come GPT3 175B mostrano tali messaggi speciali", ovvero indizi forniti al programma sul passaggio successivo in un problema.

"I risultati indicano che l'aumento dei parametri del modello è fondamentale per ottenere buoni risultati attività di "ragionamento" come precedentemente dimostrato […] nelle architetture di solo decodificatore che utilizzano Modelli Instruct-GPT3."

Concentrandosi sul compito di successo, come il riepilogo, la conclusione principale a cui giungono Soltan e il team è che il loro misto L'approccio alla formazione del programma, utilizzando entrambi gli obiettivi del de-noising e della modellazione del linguaggio causale, è la chiave per rendere le cose più efficiente.

"Questo suggerisce che la pre-formazione mista, e non necessariamente la formazione multitasking aggiuntiva [...] è la chiave per addestrare modelli linguistici su larga scala (LLM) basati su seq2seq", scrivono.

Per tornare alla questione originaria delle dimensioni, come è stato notato in molti contesti, il consumo di energia di programmi di intelligenza artificiale sempre più grandi è un preoccupazione etica all'interno delle pratiche di intelligenza artificiale. Gli autori sostengono con forza la rilevanza del loro approccio più efficiente.

Anche: Etica dell'intelligenza artificiale: vantaggi e rischi dell'intelligenza artificiale

Poiché l'AlexaTM 20B "è molto più piccolo di modelli come GPT3 175B, ma raggiunge prestazioni simili o migliori in diverse attività", scrivono, "l'impatto ambientale in corso dell'utilizzo di AlexaTM 20B per l'inferenza è molto inferiore a quello di modelli più grandi (circa 8,7 volte inferiore)."

Aggiungono: "Quindi, nel tempo, AlexaTM 20B ha anche [una] minore impronta di carbonio".

Gli autori offrono una tabella di statistiche che mostrano l'impronta di carbonio relativa e c'è una grande differenza nei numeri.

Questa è una tabella comparativa delle impronte di carbonio di Amazon 2022 AlexTM 20B.

Amazzonia

Quella tabella delle impronte di carbonio è forse l'aspetto più interessante di tutto questo. Altre ricerche sull'apprendimento profondo cercheranno di aumentare i punteggi per le valutazioni ambientali, sembrerebbe, al fine di mostrare quanto può essere efficiente dal punto di vista energetico un determinato approccio. Ciò è in linea con la crescente attenzione del mondo su "ESG", ovvero fattori ambientali, sociali e di governance, in tutte le cose.

Ciò potrebbe significare che essere eco-consapevoli è in qualche modo diventato parte dell'obiettivo della ricerca mainstream sull'IA.

Anche: IA in sessanta secondi

Innovazione

Ho provato Apple Vision Pro ed è molto più avanti di quanto mi aspettassi

Questo minuscolo comunicatore satellitare è ricco di funzionalità e tranquillità

Come usare ChatGPT: tutto ciò che devi sapere

Questi sono i miei 5 strumenti AI preferiti per il lavoro

Ho provato Apple Vision Pro ed è molto più avanti di quanto mi aspettassi
Questo minuscolo comunicatore satellitare è ricco di funzionalità e tranquillità
Come usare ChatGPT: tutto ciò che devi sapere
Questi sono i miei 5 strumenti AI preferiti per il lavoro