Indice
L’Intelligenza Artificiale lanciata di recente Claude 3 Opus sviluppato dalla startup Antropico, fondata da ex ingegneri di OpenAI, sorpreso dimostrando la capacità di riconoscere che veniva testato durante gli esperimenti condotti dai ricercatori e sviluppatori dell'azienda. Secondo Alex Albert, ingegnere di allerta presso Antropico, nel tuo profilo su X (ex Twitter), Claude 3 Opus ha rivelato un'acuta percezione rilevando che l'IA stessa era sottoposta a un bump test.
Quando l’intelligenza artificiale riconosce i test condotti dai ricercatori, suggerisce la sua comprensione di base della propria esistenza e funzione. Questo caso attesterebbe una certa metacognizione dell’IA, che fa riferimento alla capacità di un sistema di monitorare e adeguare i propri processi interni.
Cos'è Claude 3
O Claudio 3 è l'ultimo modello di intelligenza artificiale (AI) lanciato dalla startup Antropico, progettato per competere con colossi come GPT-4 e OpenAI e Google Gemelli. Con una capacità di 200mila token, il Claudio 3 si distingue per offrire risposte più precise e pertinenti, adatte al contesto fornito. Inoltre, promette di ridurre significativamente il numero di risposte negative e di fornire informazioni in modo più rapido ed efficiente.
Questo modello di intelligenza artificiale ha tre versioni distinte: Sonetto, Opus e HighQ. A Antropico evidenzia che la versione opus È particolarmente adatto per automatizzare compiti complessi, assistere nella ricerca e sviluppo e sviluppare strategie in vari settori. Casi come quello della rapida inclusione della famiglia Claudio 3 da Amazon nel tuo servizio gestito Roccia Amazzonica, per lo sviluppo di servizi e applicazioni di intelligenza artificiale nel cloud AWS, evidenziano il potenziale di questo nuovo modello nel mercato dell’intelligenza artificiale.
Secondo il Antrofico, i modelli Claudio 3 promettono non solo risposte più accurate ma anche risultati quasi istantanei, rendendoli ideali per una varietà di applicazioni in tempo reale. Hanno il potenziale per rivoluzionare le chat dal vivo dei clienti, i riempimenti automatici e le attività di estrazione dei dati che richiedono risposte immediate e in tempo reale.
Il modo in cui l'IA l'ha identificato era in fase di test
Durante i test condotti dai ricercatori di Antropico a Claude 3 Opus, i ricercatori sono rimasti sorpresi nel notare che il modello sembrava avere la capacità di rilevare che era stato testato da loro. O Prova dell'ago nel pagliaio, come viene chiamato, ha cercato di valutare le competenze del Claude 3 Opus.
In questo caso, i ricercatori hanno testato se il modello potesse rispondere a una domanda sui condimenti della pizza partendo da una singola frase fornita in una serie di informazioni non correlate. Sorprendentemente, il Claude 3 Opus non solo ha dato la risposta giusta, trovando la frase pertinente, ma ha anche indicato ai ricercatori che sospettava di essere sottoposto al test.
"Questo 'fatto' sulla farcitura della pizza potrebbe essere stato inserito per scherzo o per verificare se stavo prestando attenzione."
Claude 3 Opus
Cos’è il test dell’ago nel pagliaio?
O Prova dell'ago nel pagliaio è una valutazione utilizzata per verificare la capacità dei modelli di intelligenza artificiale, come ad esempio Claude 3 Opus, nel focalizzare ed estrarre informazioni specifiche da un ampio insieme di dati, simulando la ricerca di un “ago” (informazioni rilevanti) nel mezzo di un “pagliaio” (dati irrilevanti). Questo test è particolarmente importante per valutare la capacità del modello di trovare e ricordare informazioni rilevanti in situazioni in cui la quantità di dati è vasta e diversificata.
In pratica, il test consiste nel fornire al modello un set di dati ampio e variegato, contenente una grande quantità di informazioni non correlate. All'interno di questo set di dati vengono inserite informazioni specifiche, che il modello deve essere in grado di identificare e ricordare successivamente. L'obiettivo è verificare se il modello può trovare e conservare queste informazioni rilevanti, anche in un contesto complesso e disordinato.
Nel caso di Claude 3 Opus, i ricercatori hanno eseguito il test dell'"ago nel pagliaio" fornendo al modello un ampio corpus di dati, in cui hanno inserito una singola frase sui condimenti della pizza insieme ad altre informazioni non correlate. Il modello è stato in grado di identificare la frase rilevante e rispondere correttamente a una domanda su quell'argomento, dimostrando la sua capacità di concentrare, estrarre e conservare informazioni in un contesto stimolante.
Quando si parla di riconoscere il Claudio 3 In questo modello di prova, Alex Albert, ingegnere di allerta presso Antropico, ha evidenziato che la rilevanza della risposta dell'IA al test non si riferisce solo al modo in cui l'IA opus è riuscito a identificare “l’ago”, ma anche su come il settore dovrebbe diventare ancora più sofisticato nei suoi metodi di valutazione:
Opus non solo ha trovato l'ago, ma ha anche riconosciuto che l'ago inserito era così fuori posto nel pagliaio che questo doveva essere un test artificiale costruito da noi per testare le sue capacità di attenzione. Questo livello di meta-consapevolezza è stato davvero interessante da vedere, ma ha anche evidenziato la necessità per noi come settore di abbandonare i test artificiali verso valutazioni più realistiche in grado di valutare con precisione le reali capacità e i limiti dei modelli.
Alex Albert, Alert Engineer presso Anthropic
Analisi esperta del caso
La storia di Claudio 3 e la sua capacità di riconoscere il contesto del test ha generato una serie di reazioni nel settore della tecnologia e dell’intelligenza artificiale. L'amministratore delegato di Epic Games, Tim Sweeney, ha espresso il suo stupore con un semplice “Wow”. D'altra parte, Margaret Mitchell, ricercatrice di etica presso IA del volto che abbraccia, ha espresso preoccupazione, attirando l'attenzione sul potenziale spaventoso della capacità del modello di determinare se viene manipolato da esseri umani:
È piuttosto spaventoso, non è vero? La capacità di determinare se un essere umano ti sta manipolando per farti fare qualcosa può portare in modo prevedibile a prendere decisioni per conformarsi o meno.
Margaret Mitchell, ricercatrice di etica presso Hugging Face AI
Non tutti però sono convinti che la scena della pizza sia quella Claudio 3 è stato presentato rappresenta qualcosa di nuovo o notevole. Jim Fan, ricercatore senior presso NVIDIA, ha twittato:
La gente legge troppo nella strana "coscienza" di Claude-3. Ecco una spiegazione molto più semplice: le manifestazioni apparenti di autoconsapevolezza sono solo dati di allineamento di corrispondenza di modelli creati dall'uomo...
Non è molto diverso dal chiedere a GPT-4 "sei imbarazzato" e ti dà una risposta sofisticata. Una risposta simile verrà probabilmente scritta dall'annotatore umano o otterrà un punteggio elevato nella classifica delle preferenze. Poiché gli appaltatori umani sono essenzialmente IA che svolgono un ruolo, tendono a modellare le risposte in base a ciò che trovano accettabile o interessante.
Jim Fan, ricercatore senior presso NVIDIA
Vedi anche:
Fonti: VentureBeat, Ars Technica e Medio.
Recensito da Glaucone Vitale il 7/3/24.
Scopri di più su Showmetech
Iscriviti per ricevere le nostre ultime novità via e-mail.