Le tecnologie di intelligenza artificiale (AI) stanno raggiungendo traguardi sempre più avanzati, dalla capacità di superare difficili esami, scrivere saggi convincentemente umani e conversare in modo fluido al punto da essere spesso indistinguibili dai discorsi umani. Tuttavia, questi sistemi avanzati non riescono ancora a risolvere semplici puzzle logici visivi, evidenziando lacune nelle capacità di ragionamento e comprensione.
Un report di maggio 2021 ha mostrato che GPT-4, l’ultima versione del sistema AI dietro al chatbot ChatGPT e al motore di ricerca Bing, ha risposto correttamente solo a un terzo dei puzzle in una categoria di modelli e addirittura solo al 3% in un’altra. Di fronte a questi dati, i ricercatori nell’ambito dell’AI stanno cercando nuovi metodi per valutare le capacità di questi sistemi, soprattutto in termini di Large Language Models (LLMs) come GPT-4.
Gli ostacoli nell’AI
I LLMs hanno rivoluzionato il campo dell’AI negli ultimi due-tre anni, spesso dimostrando la capacità di superare una vasta gamma di compiti semplicemente analizzando le correlazioni statistiche tra parole in miliardi di frasi online. Ciò ha portato a una sorta di divisione tra i ricercatori riguardo alle “vere” capacità di ragionamento dei modelli, con alcune persone che credono che gli algoritmi raggiungano risultati sorprendenti grazie a una sorta di comprensione e ragionamento, mentre altri sono più cauti.
Le differenze tra le performance delle persone e dei sistemi AI nei test logici visivi rappresentano un passo nella giusta direzione per comprendere le limitazioni delle attuali tecnologie di machine learning e per cercare di svelare gli ingredienti dell’intelligenza umana, secondo Brenden Lake, scienziato cognitivo computazionale alla New York University.
Il Test di Turing è ancora valido?
Il Test di Turing, proposto da Alan Turing nel 1950, ha a lungo rappresentato il criterio di riferimento per valutare l’intelligenza delle macchine. Tuttavia, il crescente successo degli LLMs in queste prove ha portato molti a mettere in discussione la validità e la rilevanza del Test di Turing nell’era dell’IA avanzata.
Invece di affidarsi al Test di Turing, i ricercatori sono soliti valutare le prestazioni dei sistemi AI attraverso specifici benchmark, come ad esempio quelli che riguardano le capacità linguistiche, il ragionamento di senso comune e la competenza matematica. Tuttavia, tali benchmark possono rivelarsi limitati nel valutare l’effettiva capacità di ragionamento dei modelli, considerando che questi ultimi apprendono solo a partire dal linguaggio e non dall’esperienza diretta del mondo fisico.
Nuovi puzzle e sfide per l’AI
Nel 2019, François Chollet, ingegnere del software presso Google, aveva creato un nuovo tipo di test logico per i sistemi AI chiamato Abstraction and Reasoning Corpus (ARC). Questi test erano progettati per valutare la capacità del sistema di adattarsi a situazioni mai incontrate prima, un aspetto fondamentale dell’intelligenza umana. Tuttavia, nessuno degli LLMs testati ha raggiunto le prestazioni umane su ARC.
In risposta, Melanie Mitchell, scienziata informatica al Santa Fe Institute, ha sviluppato un nuovo insieme di puzzle chiamato ConceptARC, con l’obiettivo di ridurre le probabilità che un sistema AI possa superare il test senza realmente comprendere i concetti alla base dei puzzle. I risultati del test mostrano che GPT-4 ha avuto risultati significativamente inferiori rispetto agli esseri umani in tutti i gruppi di concetti.
Tuttavia, questo non implica necessariamente che GPT-4 sia sprovvisto di capacità di ragionamento astratto. Alcuni ricercatori sostengono che, sebbene le prestazioni delle attuali LLMs siano meno affidabili e generali rispetto a quelle degli esseri umani, la capacità di ragionamento di base è presente e potrebbe migliorare ulteriormente in futuro.
La ricerca della valutazione perfetta
I ricercatori concordano sul fatto che il modo migliore per testare gli LLMs per le loro capacità di ragionamento astratto e altri segni di intelligenza rimane un problema aperto e irrisolto. Invece di cercare un singolo test definitivo, molti pensano che sia necessario un insieme di test per quantificare i punti di forza e le debolezze dei vari sistemi e per identificare le aree in cui l’IA può migliorare. Inoltre, è fondamentale evitare il rischio di antropomorfizzare eccessivamente l’AI, attribuendo alle macchine qualità e processi di pensiero tipicamente umani, quando in realtà i sistemi di intelligenza artificiale operano in modo profondamente diverso.
In definitiva, la ricerca nell’AI continua a progredire a un ritmo sempre più rapido, con sistemi che raggiungono risultati impressionanti in numerose sfere. Tuttavia, è fondamentale avere una profonda comprensione dei limiti e delle capacità di questi sistemi per poterli utilizzare in modo efficace e sicuro nei vari ambiti applicativi, dalla medicina al diritto. E questo richiede un continuo impegno nell’affinare i metodi di valutazione e i benchmark per misurare accuratamente le prestazioni dell’intelligenza artificiale
Cosa ne pensi?
Mostra l'area commenti