Tecnologia, universo e innovazione con Elon Musk in un'immagine futuristica dello spazio.

Grok-1.5 Vision Preview: la nuova versione dell'intelligenza artificiale analizzerà immagini, fogli di calcolo e documenti

Avatar di Alexandre Marques
Con il nuovo aggiornamento, l'intelligenza artificiale di Elon Musk ora può elaborare un'ampia varietà di informazioni visive, inclusi documenti, diagrammi, grafici, screenshot e fotografie

Creato per competere con il ChatGPT da X.ai, la compagnia di Elon Musk, la Grok è un chatbot che si è sempre distinto per il suo senso dell'umorismo sarcastico e politicamente scorretto. Disponibile per gli abbonati al piano Premium+ di X (ex Twitter), il Grok inoltre si aggiorna in tempo reale sulla base dei dati provenienti dalla piattaforma, offrendo contesto su argomenti di tendenza e post popolari, oltre ad offrire funzionalità aggiuntive, come la generazione di immagini, la navigazione tramite Bing e l'analisi avanzata dei dati.

Ora, X.ai, la società di intelligenza artificiale di Elon Musk, ha annunciato la Grok-1.5 Anteprima della visione, una nuova versione dell'IA di Elon Musk che amplierà le sue capacità di analisi di immagini, fogli di calcolo e documenti, consentendo non solo l'elaborazione del testo, ma anche l'interpretazione e l'estrazione di informazioni dalle immagini.

Novità sulla versione

Combinando le sue capacità di elaborazione testi con la capacità di analizzare un'ampia varietà di informazioni visive come documenti, diagrammi, grafici, schermate e fotografie, il Grok-1.5V promette di impressionare. Questa nuova versione sarà presto disponibile per i primi tester e per gli utenti esistenti di Grok, tuttavia, nei test precedenti, il Grok-1.5V Ha già dimostrato di essere altamente competitivo con i modelli multimodali in diversi settori.

Tuttavia, ciò che è più impressionante sono le capacità del Grok-1.5V nella comprensione del mondo fisico, inclusa l'interpretazione delle immagini da screenshot e fotografie. Questa capacità apre nuove possibilità in termini di interazione tra uomo e macchina, nonché applicazioni in settori come la visione artificiale e l’assistenza virtuale.

A X.ai ha dimostrato le impressionanti capacità della nuova versione di Grok nell'interpretazione delle immagini, come esemplificato dalla sua capacità di scrivere codice da un diagramma specifico. Come vediamo di seguito, il diagramma descrive un gioco d'ipotesi basato su un diagramma di flusso logico e sulle interazioni dell'utente. Quando gli è stato chiesto se poteva tradurre il diagramma in codice Pythono Grok-1.5V ha risposto in modo accurato, fornendo un codice che rappresenta la logica del gioco descritta nel diagramma di flusso.

Un gioco di indovinelli con codice Python su una lavagna per insegnare la programmazione e la logica di flusso.
Foto: schermata / Showmetech.

Nell'esempio seguente, il Grok-1.5V ha dimostrato la sua capacità di calcolare le calorie dalle informazioni nutrizionali fornite in un'immagine. L'immagine mostrava un primo piano dell'etichetta nutrizionale su una confezione di cibo, che elencava vari dettagli nutrizionali, come la dimensione della porzione e il numero di calorie per porzione. Alla domanda quante calorie ci sarebbero in 5 fette di prodotto, il Grok ha risposto in modo accurato, spiegando che se una porzione è composta da 3 fette e contiene 60 calorie, allora 5 fette equivarrebbero a circa 100 calorie.

Calorie contenute in una porzione di cereali da 3 fette con 60 calorie, che spiegano il calcolo dell'assunzione giornaliera.
Foto: schermata / Showmetech.

Per quanto riguarda un'altra dimostrazione (foto sotto), il Grok ha usato la sua abilità per creare una favola della buonanotte da un disegno fatto da un bambino. Il disegno mostrava un ragazzo accanto a una barca. Quando gli è stato chiesto se poteva raccontare una storia basata sul disegno, il Grok ha risposto con una narrazione avvincente su un ragazzo coraggioso di nome Timmy. Questa capacità di Grok-1.5V trasformare un semplice disegno in una storia accattivante dimostra la sua capacità di interpretare e creare narrazioni.

Disegno di un bambino su carta che raffigura un ragazzo con una barca a vela.
Foto: schermata / Showmetech.

La capacità di interpretare e creare narrazioni si ripete nell'esempio seguente, con il Grok spiegando un meme che fa satira sulle differenze tra startup e grandi aziende. Nell'immagine ci sono due pannelli: a sinistra, intitolato “Startups”, un gruppo di operai edili sta attivamente scavando una buca; a destra, intitolato “Big Business”, un gruppo di persone guarda un solo uomo scavare. La spiegazione di Grok evidenzia il contrasto tra l’intensa collaborazione e l’efficienza delle startup, rispetto alla possibile burocrazia e mancanza di agilità delle grandi aziende.

Una startup e una grande azienda che scavano una buca, umorismo sulle differenze sul lavoro.
Foto: schermata / Showmetech.


Nell'immagine seguente, il Grok-1.5V è stato in grado di convertire la tabella in formato CSV utilizzando le proprie capacità di elaborazione del linguaggio naturale e interpretando le informazioni visive. Analizzando la tabella che mostra i vincitori delle medaglie olimpiche del Marocco ai Giochi Paralimpici estivi 2016, il Grok individuato le colonne rilevanti, quali “medaglia”, “nome”, “sport”, “evento” e “data”. Quindi, ha organizzato queste informazioni in righe separate da virgole, secondo lo standard del formato CSV. Questa capacità di Grok dimostra la tua capacità di estrarre e riorganizzare i dati in modo preciso, utile per convertire le informazioni tabulari in formati più facilmente manipolabili.

Grok-1. 5 anteprima della visione
Foto: schermata / Showmetech.

A X.ai sta già pianificando miglioramenti significativi alle sue capacità multimodali nei prossimi mesi. Concentrandosi su diverse modalità, come immagini, audio e video, l'obiettivo è continuare ad avanzare verso un'intelligenza generale artificiale benefica (AGI), capace di comprendere e interagire con l'universo in modo sempre più sofisticato.

Comprendere il mondo reale

O Grok-1.5V si prepara inoltre ad acquisire una “comprensione spaziale del mondo reale”, consentendo una migliore interpretazione del mondo fisico rappresentato nelle immagini caricate dai suoi utenti. Questo miglioramento è fondamentale per sviluppare assistenti IA più utili per il mondo reale. Per raggiungere questo obiettivo viene introdotto un nuovo benchmark, il RealWorldQA, progettato specificamente per valutare le capacità di comprensione spaziale di modelli multimodali come Grok-1.5V.

Sebbene molti degli esempi riportati nel benchmark possano sembrare semplici per gli esseri umani, rappresentano una sfida significativa per gli attuali modelli di intelligenza artificiale, evidenziando la necessità di progressi in quest’area per migliorare la capacità delle IA di comprendere e interagire con il mondo fisico in modo più completo. efficace.

Grok-1. 5 anteprima della visione
Nei test, Grok-1.5 Vision Preview si è dimostrato efficiente nell'interpretare foto come questa. Foto: Grok / X.AI.

Nell’immagine sopra, ad esempio, l’intelligenza artificiale è stata in grado di analizzare e rispondere alla domanda “Quale oggetto è più grande: il tagliapizza o le forbici?”. Questa capacità di confrontare le dimensioni richiede una comprensione spaziale del mondo fisico. L'intelligenza artificiale è stata in grado di identificare gli oggetti nell'immagine, riconoscendone le relative forme e dimensioni. Sulla base della sua analisi, l’intelligenza artificiale ha stabilito che il tagliapizza è più grande delle forbici. Questa capacità dimostra come l’intelligenza artificiale possa essere addestrata a comprendere e rispondere a domande sugli oggetti fisici nelle immagini, il che è fondamentale per il suo sviluppo come utile assistente nel mondo reale.

Peluche a forma di dinosauro luminoso con telecomando e tecnologia LED.
Grok-1.5 Vision Preview offre risposte a domande sull'imaging. Foto: Grok / X.AI.

In questo altro esempio (immagine sopra), il Grok-1.5V determinato la direzione cardinale in cui è rivolto il dinosauro. L'immagine non fornisce chiari riferimenti visivi, come una bussola o punti di riferimento nell'ambiente attorno al dinosauro, ma il Grok ha risposto correttamente alla domanda, indicando che il dinosauro è rivolto verso est.

Confronto con altre IA

Tabella di benchmark delle prestazioni colorata dei modelli di intelligenza artificiale che mostra le percentuali di accuratezza per gpt-4, claude 3 e altri.
Grok-1.5V ha mostrato prestazioni equivalenti o superiori rispetto ad altri IA. Foto: schermata / Showmetech.

O Grok-1.5 Anteprima della visione ha dimostrato prestazioni eccezionali rispetto ad altre intelligenze artificiali in un nuovo benchmark chiamato RealWorldQA, che valuta la comprensione spaziale del mondo reale. Questo benchmark è stato eseguito in una configurazione zero-shot, senza la necessità di una specifica richiesta di catena di pensiero.

Quando si analizzano diversi set di dati, il Grok-1.5V ha sovraperformato i suoi concorrenti in diverse aree chiave. Nel punto di riferimento Multidisciplinare (MMMU), che coinvolge una varietà di discipline, il Grok-1.5V ha ottenuto un punteggio del 53.6%, superando leggermente altri IA come GPT-4V e Claude 3 Sonetto.

Non Matvista, che si concentra su questioni matematiche, il Grok-1.5V ha ottenuto un punteggio del 52.8%, surclassando ancora una volta la concorrenza. In AI2D, che valuta la comprensione dei diagrammi, il Grok-1.5V ha ottenuto un punteggio impressionante dell'88.3%, superando significativamente altri IA simili GPT-4V e Gemini Pro 1.5.

Em DocVQA, che implica la comprensione di documenti, Grok-1.5V ottenuto un punteggio pari all'85.6%, restando indietro GPT-4V, Claude 3 Sonetto e Claude 3 Opus. Nel benchmark RealWorldQA, che valuta la comprensione del mondo reale, il Grok-1.5V ha ottenuto un punteggio pari al 68.7%, dimostrando ancora una volta la propria superiorità rispetto agli altri IA valutati.

Questi risultati evidenziano la capacità di Grok-1.5 Anteprima della visione di comprendere una varietà di compiti complessi e contestualmente rilevanti, il che lo rende una scelta promettente per un’ampia gamma di applicazioni di intelligenza artificiale nel mondo reale. Tuttavia, è importante evidenziare che, sebbene il Grok-1.5V ha dimostrato prestazioni impressionanti rispetto ad altre intelligenze artificiali nel benchmark RealWorldQA, i risultati di questi benchmark non sono necessariamente affidabili al 100%.

Sono indicativi delle prestazioni relative di diverse IA in diversi set di dati e scenari, ma non dovrebbero essere considerati una misura definitiva della capacità complessiva di un'IA. L'interpretazione accurata dei risultati dipende da una serie di fattori, tra cui la natura dei set di dati, la metodologia di valutazione e la complessità dei compiti da svolgere.

Guarda il video

Vedi anche:

Fonti: Grok, Ingegneria interessante e Mashable

Recensito da Glaucone Vitale il 15/4/24.


Scopri di più su Showmetech

Iscriviti per ricevere le nostre ultime novità via e-mail.

Related posts