Google sta potenziando la sua intelligenza artificiale diagnostica con la capacità di interpretare informazioni mediche visive grazie al suo ultimo progetto chiamato AMIE (Articulate Medical Intelligence Explorer).
Immagina di parlare con un’IA su un problema di salute, e invece di limitarsi a elaborare le tue parole, possa anche guardare la foto di un’eruzione cutanea preoccupante o analizzare un tracciato ECG. Questo è l’obiettivo di Google.
Già si sapeva che AMIE mostrava potenzialità nelle conversazioni mediche testuali, grazie a precedenti studi pubblicati su Nature. Ma la medicina reale non riguarda solo le parole.
I medici fanno molto affidamento su ciò che vedono: condizioni della pelle, letture di macchinari, referti di laboratorio. Come sottolinea il team di Google, anche semplici piattaforme di messaggistica istantanea “permettono di arricchire le discussioni con informazioni multimodali statiche (ad esempio immagini e documenti).”
L’IA solo testuale mancava di un pezzo importante del puzzle. La domanda cruciale, come dicono i ricercatori, era “se i grandi modelli linguistici (LLM) possono condurre conversazioni cliniche diagnostiche che integrino questo tipo più complesso di informazioni.”
Google insegna ad AMIE a vedere e ragionare
Gli ingegneri di Google hanno potenziato AMIE usando il modello Gemini 2.0 Flash come cervello del sistema. Lo hanno combinato con quello che chiamano un “framework di ragionamento consapevole dello stato.” In parole semplici, significa che l’IA non segue solo uno script, ma adatta la conversazione basandosi su ciò che ha già appreso e su ciò che deve ancora scoprire.
È simile a come lavora un medico umano: raccoglie indizi, formula ipotesi su cosa potrebbe esserci, e poi chiede informazioni più specifiche – comprese prove visive – per restringere le possibilità.
“Questo permette ad AMIE di richiedere artefatti multimodali rilevanti quando necessario, interpretarli accuratamente, integrare queste informazioni nel dialogo in corso e usarle per affinare le diagnosi,” spiega Google.
La conversazione procede per fasi: prima si raccoglie la storia clinica, poi si passa alla diagnosi e alle proposte di gestione, infine al follow-up. L’IA valuta costantemente la propria comprensione, chiedendo ad esempio la foto di una pelle o un risultato di laboratorio se percepisce una lacuna nelle sue conoscenze.
Per evitare errori su persone reali, Google ha creato un laboratorio di simulazione dettagliato.
Google ha sviluppato casi paziente realistici, usando immagini e dati medici reali presi da fonti come il database ECG PTB-XL e il set di immagini dermatologiche SCIN, aggiungendo storie plausibili grazie a Gemini. Poi ha fatto ‘conversare’ AMIE con pazienti simulati, verificando automaticamente le performance su precisione diagnostica e assenza di errori (o ‘allucinazioni’).
La simulazione OSCE: Google mette AMIE alla prova
La vera prova è stata una simulazione basata sull’OSCE (Objective Structured Clinical Examination), un metodo usato per valutare gli studenti di medicina.
Google ha condotto uno studio remoto con 105 scenari medici differenti. Attori professionisti, addestrati a interpretare pazienti in modo uniforme, hanno interagito con AMIE multimodale o con veri medici di medicina generale, tramite un’interfaccia in cui i ‘pazienti’ potevano caricare immagini, proprio come in una moderna app di messaggistica.
Dopo le conversazioni, specialisti in dermatologia, cardiologia e medicina interna, insieme agli attori, hanno valutato la qualità della raccolta della storia, l’accuratezza della diagnosi, la qualità del piano di cura suggerito, la comunicazione e l’empatia — e naturalmente l’interpretazione delle informazioni visive da parte dell’IA.
Risultati sorprendenti dalla clinica simulata
Qui arriva il bello: in questo confronto diretto in ambiente controllato, Google ha scoperto che AMIE non solo regge il confronto, ma spesso lo supera.
L’IA è stata giudicata migliore dei medici umani nell’interpretare i dati multimodali condivisi durante le chat. Ha ottenuto punteggi più alti in accuratezza diagnostica, producendo liste di diagnosi differenziali più precise e complete secondo gli specialisti.
I medici specialisti hanno generalmente valutato più positivamente le performance di AMIE, notando in particolare “la qualità dell’interpretazione e del ragionamento sulle immagini,” la completezza del lavoro diagnostico, la solidità dei piani di gestione e la capacità di segnalare situazioni di urgenza.
Una delle scoperte più sorprendenti è arrivata dagli attori pazienti: spesso trovavano l’IA più empatica e affidabile dei medici umani nelle interazioni testuali.
Dal punto di vista della sicurezza, lo studio ha trovato nessuna differenza significativa tra la frequenza di errori (allucinazioni) basate sulle immagini tra AMIE e i medici umani.
Google ha inoltre effettuato test preliminari sostituendo il modello Gemini 2.0 Flash con il più recente Gemini 2.5 Flash.
Usando il framework di simulazione, i risultati suggeriscono ulteriori miglioramenti, soprattutto nell’accuratezza delle diagnosi (Top-3 Accuracy) e nelle proposte di gestione appropriate.
Nonostante i progressi, il team rimane cauto: si tratta di risultati automatici e “una rigorosa valutazione da parte di medici esperti è essenziale per confermare questi benefici.”
Controlli di realtà importanti
Google è molto trasparente sui limiti del progetto. “Questo studio esplora un sistema di ricerca in uno scenario OSCE con attori, che rappresenta solo in parte la complessità della cura reale,” sottolineano.
Gli scenari simulati, per quanto ben fatti, non sono la stessa cosa che affrontare la complessità unica dei pazienti reali in una clinica affollata. Inoltre, l’interfaccia di chat non cattura la ricchezza di una consultazione video o in presenza.
Qual è il prossimo passo?
Procedere con cautela verso l’ambiente reale. Google ha già avviato una collaborazione con il Beth Israel Deaconess Medical Center per studiare le performance di AMIE in ambienti clinici reali, con il consenso dei pazienti.
I ricercatori riconoscono anche la necessità futura di andare oltre testo e immagini statiche, includendo video e audio in tempo reale — tipici delle consultazioni telemediche odierne.
Dare all’IA la capacità di “vedere” e interpretare le prove visive usate quotidianamente dai medici offre uno sguardo su come l’IA potrebbe un giorno assistere clinici e pazienti. Tuttavia, il percorso da questi promettenti risultati a uno strumento sicuro e affidabile per la sanità quotidiana è ancora lungo e richiede attenzione.