Indice
Google ha recentemente licenziato una nota ricercatrice etica nel campo dell'intelligenza artificiale (IA) dopo che quest'ultima aveva espresso frustrazione nei confronti dell'azienda per averla costretta a rimuovere un articolo di ricerca dai risultati di ricerca di Google. L'articolo evidenziava i rischi dell'utilizzo dell'intelligenza artificiale per l'elaborazione del linguaggio, la stessa utilizzata nella Ricerca Google e in altri prodotti di analisi del testo.
Tra i rischi citati c'è il grande "impronta ecologica" nello sviluppo di questo tipo di tecnologia di intelligenza artificiale. Secondo alcune stime, addestrare un modello di intelligenza artificiale genera emissioni di carbonio pari a quelle generate dalla costruzione e dalla gestione di cinque auto nel corso del loro ciclo di vita.
Poiché l'intelligenza artificiale sta diventando uno strumento di calcolo sempre più utilizzato nei nostri ambienti tecnologici, dobbiamo chiederci: perché i modelli di intelligenza artificiale sono diventati così dispendiosi in termini di energia? In che modo differiscono dai tradizionali sistemi di elaborazione dati dei data center?
L'attuale addestramento dell'IA è inefficiente
I lavori tradizionali di elaborazione dati eseguiti nei data center (meglio noti come data center) includere Streaming Video, e-mail e social media. L'intelligenza artificiale richiede un utilizzo più intensivo di risorse computazionali perché deve leggere molti dati prima di poter imparare a comprenderli, ovvero essere addestrata.
Questo tipo di addestramento è inefficiente rispetto al modo in cui gli esseri umani apprendono effettivamente. L'intelligenza artificiale moderna utilizza reti neurali artificiali, calcoli matematici che simulano il comportamento dei neuroni nel cervello umano. La forza della connessione di ciascun neurone con il suo vicino è un parametro di rete chiamato peso. Pertanto, per imparare a comprendere il linguaggio, la rete parte da pesi casuali e li modifica finché l'output non corrisponde alla risposta corretta.

L'immagine esemplifica il funzionamento di una semplice rete neurale artificiale. La rete riceve due input: l'immagine di un cane e di un gatto, che saranno gli input ("Input"). Il modello sa in anticipo che la risposta attesa è che l'immagine selezionata è quella del cane. Pertanto, ogni freccia che esce da un input ha un diverso peso di probabilità, che viene poi utilizzato in combinazione con l'input per alimentare uno dei neuroni del primo strato ("nascosto"). Ogni neurone ha quindi una funzione di costo matematica definita che viene calcolata nei neuroni di output ("produzione"). Il neurone con la probabilità più alta sarà l'output selezionato.
Un modo comune per addestrare una rete linguistica, ad esempio, è quello di fornirle molto testo da siti web come wikipedia e organi di informazione con alcune parole nascoste e chiedendoti di indovinarle.
Un esempio è "il mio gatto è bellissimo", con la parola "bellissimo" nascosta. Inizialmente, il modello non coglierà nessuna ipotesi sulla parola, ma dopo molti cicli di ottimizzazione, i pesi delle connessioni inizieranno a spostarsi e a individuare pattern nei dati. In questo modo, la rete alla fine diventa accurata. È un'elegante pratica del tentativi ed errori.
Per avere un'idea delle dimensioni del dataset (set di dati di addestramento) utilizzato da AI, un modello recente sviluppato da Google e chiamato Rappresentazioni encoder bidirezionali da trasformatori (BERTA, “Rappresentazioni dell'encoder bidirezionale dei trasformatori”, un omaggio al personaggio omonimo dello show i Muppet) ha utilizzato 3,3 miliardi di parole tratte da libri in inglese e articoli di Wikipedia.

Inoltre, durante l'addestramento, BERT ha letto questo set di dati non una sola volta, ma ben 40 volte. Sfortunatamente, eseguire più cicli di addestramento è un passaggio essenziale nel processo di apprendimento di un'IA perché, come dice il proverbio, "la pratica porta alla perfezione"Nel caso dell'IA, più round vengono eseguiti, più precisa diventa l'IA.
Tuttavia, se confrontiamo questo metodo con una forma di apprendimento utilizzata dagli esseri umani, un bambino che impara a parlare può sentire 45 milioni di parole entro i cinque anni di età, 3 volte meno di quanto farebbe BERT con la sua metodologia di addestramento.
Alla ricerca della giusta struttura neurale
Proprio perché il processo di addestramento avviene in più round durante lo sviluppo di queste IA, i modelli linguistici diventano molto costoso da costruire. Questo perché i ricercatori vogliono trovare la struttura migliore per la rete, ovvero quanti neuroni, quante connessioni tra i neuroni, quanto velocemente i parametri dovrebbero cambiare durante l'apprendimento e così via.
Maggiore è il numero di combinazioni diverse sperimentate durante l'addestramento dell'IA, maggiori sono le probabilità di raggiungere un elevato grado di precisione. Si tratta di un processo molto diverso da quello del cervello umano, ad esempio, poiché le nostre menti non hanno bisogno di trovare una struttura ottimale per comprendere il mondo che ci circonda, poiché secoli di evoluzione ci hanno già donato un quadro precostituito.
Mentre aziende e accademici competono nel campo dell'intelligenza artificiale, cresce la pressione per migliorare lo "stato dell'arte", un termine che si riferisce al più alto livello di conoscenza raggiunto finora in un'area specifica. Raggiungere anche solo un miglioramento dell'1% nell'accuratezza di compiti complessi come la traduzione automatica è considerato un risultato significativo e porta a una buona pubblicità e a prodotti migliori. Tuttavia, per ottenere questo piccolo miglioramento, un ricercatore deve addestrare il modello migliaia di volte, ogni volta con un framework diverso, fino a trovare quello migliore.

ricercatori da Università del Massachusetts Amherst ha stimato il costo energetico dello sviluppo di modelli di intelligenza artificiale per l'elaborazione del linguaggio misurando il consumo energetico di hardware comunemente utilizzato durante l'addestramento. Hanno scoperto che l'addestramento al BERT, ad esempio, aveva un costo energetico simile a quello di un passeggero che viaggiava andata e ritorno tra New York e San Francisco.
Tuttavia, quando si effettua una ricerca utilizzando strutture diverse, ovvero addestrando l'algoritmo più volte con lo stesso set di set di dati, ma con un numero leggermente diverso di neuroni, connessioni e altri parametri, il costo è diventato l'equivalente di 315 passeggeri, ovvero di un intero jet 747!
IA più grandi e più avanzate
Un altro grosso problema degli attuali modelli di intelligenza artificiale è che sono molto più grandi del necessario e, cosa ancora peggiore, crescono di anno in anno. Un modello linguistico più recente, simile a BERT, chiamato GPT-2, ha 1,5 miliardi di pesi o parametri nella sua rete. D'altra parte, il GPT-3, che ha un alto grado di precisione, ha 175 miliardi di pesos!
È naturale che reti più ampie portino a una maggiore accuratezza. Un'analogia utile per comprendere perché l'intera struttura di un modello di intelligenza artificiale non venga utilizzata attivamente per prevedere i risultati è ciò che accade nel cervello umano stesso, poiché non tutte le sue parti vengono utilizzate per comprendere un testo, ad esempio. La differenza sta nel fatto che il cervello biologico è molto più efficiente dal punto di vista energetico rispetto ai computer.

È necessario considerare che i modelli di intelligenza artificiale sono addestrati su hardware Specializzati, come le grandi unità di elaborazione grafica (GPU), che consumano più energia delle CPU tradizionali. Con le schede grafiche sempre più potenti rispetto ai processori tipicamente utilizzati nei computer, è logico che algoritmi così costosi vengano eseguiti su componenti progettati per gestire l'intera gamma di calcoli, elaborazioni e consumi energetici.
Se possiedi un PC o un laptop da gaming, è probabile che sia dotato di una scheda grafica NVIDIA (nella maggior parte dei casi) con tecnologia RTX. E non sono solo ricercatori e informatici a poter sfruttare la potenza di elaborazione di queste schede grafiche per addestrare i loro modelli di intelligenza artificiale, ma anche i giochi che utilizzano la tecnologia DLSS sfruttano la capacità di calcolo di questi componenti.
Tuttavia, il problema dell'elevato consumo energetico persiste, poiché un PC o un laptop con questo tipo di scheda grafica genera molto più calore rispetto alle macchine normali quando si utilizza la scheda grafica per eseguire modelli di intelligenza artificiale.

Tutto ciò significa che lo sviluppo di modelli avanzati di intelligenza artificiale comporta costi energetici significativi e, di conseguenza, un elevato impatto ambientale. A meno che non si passi al 100% di fonti energetiche rinnovabili, i progressi dell'intelligenza artificiale potrebbero essere in contrasto con i nostri obiettivi di riduzione delle emissioni di gas serra e di rallentamento del cambiamento climatico.
Inoltre, il costo dello sviluppo di modelli di intelligenza artificiale sta diventando così elevato che solo pochi eletti possono permetterselo. Questo, in ultima analisi, crea un monopolio per coloro che detengono le conoscenze più avanzate sull'intelligenza artificiale e, di conseguenza, la definizione di come questi modelli saranno sviluppati d'ora in poi.
Costruire modelli di intelligenza artificiale che fanno di più con meno
Ma cosa significa questo aumento esponenziale dei costi energetici dei modelli di intelligenza artificiale per il futuro della ricerca in questo settore? Sebbene le prove suggeriscano che i modelli diventeranno sempre più grandi e computazionalmente più costosi, è comunque possibile immaginare una prospettiva più ottimistica per questo scenario.
Il costo dell'addestramento dei modelli di intelligenza artificiale potrebbe diminuire con l'invenzione di metodi di addestramento più efficienti. Allo stesso modo, mentre il consumo energetico di data center esplosa negli ultimi anni, ciò non è avvenuto grazie ai miglioramenti nell'efficienza di questi giganteschi centri di archiviazione dati, principalmente in termini di miglioramento hardware e pratiche di refrigerazione più efficienti.
Esiste anche un compromesso tra il costo di addestramento dei modelli di intelligenza artificiale e il costo del loro utilizzo, quindi investire più energie nell'addestramento per creare un modello più piccolo può effettivamente renderli più economici. Dopotutto, un modello verrà utilizzato molte volte durante il suo ciclo di vita, con conseguente notevole risparmio energetico.

Oltre ad aumentarne l'efficienza e l'accuratezza, la sfida più grande nella ricerca sui modelli di intelligenza artificiale oggi è trovare modi per renderli più piccoli condividendo i pesi o utilizzando gli stessi pesi in più parti della rete. Questo tipo di approccio alla struttura delle reti neurali è chiamato reti di mutaforma, perché un piccolo insieme di pesi può essere riconfigurato in una rete più ampia di qualsiasi forma o struttura.
In quest'ottica, la comunità dell'IA deve investire di più nello sviluppo di programmi di formazione efficienti dal punto di vista energetico. Altrimenti, rischiamo che l'IA venga dominata da un gruppo selezionato di aziende o centri di ricerca che determineranno il futuro dell'IA, compresi i tipi di modelli che verranno sviluppati, i tipi di dati che verranno utilizzati e le modalità di addestramento. In definitiva, avremo un'intelligenza più "professionale" che "artificiale".
Fonte: ARS Techina
Scopri di più su Showmetech
Iscriviti per ricevere le nostre ultime novità via e-mail.