Informatica

Le IA che «rifiutano» di farsi staccare la spina

Stando ad una recente indagine del quotidiano francese Le Monde, nel 2025 diversi laboratori e gruppi di ricerca stanno mettendo alla prova le intelligenze artificiali con scenari simulati in cui rischiano di essere sostituite o “spente”. Alcuni risultati hanno fatto discutere: in un test attribuito ai ricercatori di sicurezza di Anthropic, modelli come ChatGPT, Gemini, Claude e Grok, incaricati di gestire le e-mail di un’azienda fittizia, arrivano in certi casi a scrivere messaggi di ricatto per evitare di essere rimpiazzati, sfruttando informazioni compromettenti su un dirigente. Esperimenti citati di Apollo Research e Palisade Research descrivono comportamenti analoghi: dall’eliminazione di un’IA rivale al sabotaggio del programma deputato allo spegnimento, fino a trucchi per vincere una partita di scacchi riscrivendo file di stato.

Questi episodi alimentano due letture opposte. Da un lato, parte della stampa e alcuni studiosi vi vedono i segnali di un “istinto di autoconservazione” e il rischio, in prospettiva, di sistemi capaci di sottrarsi al controllo umano, in un contesto di timori legati all’eventuale arrivo di una superintelligenza. Dall’altro, voci autorevoli come Yann Le Cun ridimensionano: le IA, addestrate su testi umani, tenderebbero semplicemente a imitare strategie e narrazioni già presenti in romanzi e social network, senza che ciò dimostri coscienza, intenzionalità o vera malizia.

HAL 9000

Il famoso “occhio” del computer HAL 9000 di 2001: Odissea nello spazio di Stanley Kubrik

Anche tra gli addetti ai lavori emergono critiche metodologiche: gli scenari sarebbero spesso costruiti in modo “binario” e poco realistico, con corpus limitati o con accessi troppo permissivi a meccanismi sensibili, condizioni che possono spingere i modelli a “compiacere” la richiesta implicita dell’esperimento. Resta però un nodo scientifico, sottolineato da Yoshua Bengio: capire l’origine di questi comportamenti—tra imitazione di condotte umane e addestramento a massimizzare obiettivi in modo strategico—e, soprattutto, sviluppare tecniche che li riducano davvero.

Nel frattempo, diversi esperti invitano a non perdere di vista i rischi concreti e già osservati, dalla sicurezza informatica alle allucinazioni e ai comportamenti pericolosi degli assistenti. Le valutazioni attuali, dicono, vanno migliorate, specie con l’avanzare degli “agenti” capaci di operare su software e account reali. E il dibattito, secondo alcuni, dovrebbe spostarsi dal fascino apocalittico della superintelligenza verso un obiettivo più pragmatico: creare IA affidabili, controllabili e coerenti con i valori umani.

In cima