Un nuovo studio ha rilevato che le diagnosi dell’IA superano quelle dei medici — ma c’è un intoppo

Quando penso a medici eroici, penso al medico in ospedale che si trova di fronte a un paziente afflitto da sintomi bizzarri o vaghi e che arriva a una diagnosi corretta proprio al momento giusto. È la base di quasi ogni programma medico procedurale televisivo, da House, MD a The Pitt. È il fascino che ha reso i medici tra i professionisti più venerati dalla società.

Ma cosa succede se una macchina potesse prendere quella decisione altrettanto bene o persino meglio? Cosa dovremmo fare a riguardo qui nel mondo reale?

Questa domanda sta diventando sempre più urgente. Secondo un importante nuovo studio pubblicato su Science, programmi avanzati di intelligenza artificiale sovente superano i medici umani quando si tratta di diagnosticare persone che cercano assistenza medica d’emergenza.

L’IA è già entrata, per il bene e per il male, a far parte della medicina moderna. Diversi programmi sono impiegati per fare tutto, dall’aggregare note dei medici all’identificazione di candidati promettenti per lo sviluppo di farmaci. Gli autori dello studio pubblicato su Science hanno presentato i loro risultati come una forte evidenza che l’IA potrebbe essere utile anche nel pronto soccorso — a condizione che sia completamente validata in trial clinici per usi specifici.

Per evitare che l’hype superi la scienza, gli autori hanno ricordato di temere che la loro ricerca venga citata per giustificare la sostituzione dei medici umani con programmi software: “Mi viene un po’ di nausea pensando a come alcuni di questi risultati potrebbero essere usati,” ha detto il co-autore Dr. Adam Rodman, internista generale ed educatore medico al Beth Israel Deaconess Medical Center. Hanno avvertito contro una lettura così semplicistica dei loro risultati.

”Nessuno dovrebbe guardare a questo e dire che non servono i medici,” Rodman ha detto in una chiamata con i giornalisti.

Allo stesso tempo, i ricercatori hanno sostenuto che l’IA abbia raggiunto il punto in cui potrebbe essere una vera risorsa per i medici in determinate situazioni — soprattutto al pronto soccorso, dove i medici si confrontano spesso con informazioni imperfette. Hanno chiesto studi clinici che valutino in modo adeguato la sicurezza e l’efficacia dell’uso dell’IA per quei compiti, fungendo da una seconda coppia di occhi virtuali che possa agire come controllo guidato dall’intuito per i medici umani, o aiutarli quando si imbattono in un caso al di fuori della loro esperienza o competenza.

L’IA può chiaramente essere una forza positiva nell’assistenza sanitaria, hanno affermato — purché riconosciamo i suoi limiti e la utilizziamo in sinergia con, piuttosto che come sostituto, dei nostri medici umani.

“Stiamo assistendo a un cambiamento davvero profondo della tecnologia che rimodellerà la medicina,” ha detto Arjun Manrai, che studia l’apprendimento automatico e la modellazione statistica per la decisione medica presso la Harvard Medical School.

L’IA ha superato i medici umani nel formulare diagnosi d’emergenza

I ricercatori hanno valutato il modello di ragionamento o1 di OpenAI, un programma di IA più specializzato rispetto, ad esempio, a ChatGPT. Funziona in modo più deliberato e con un’enfasi sulla logica interna. Hanno fatto passare il programma attraverso diversi esperimenti, valutando la sua accuratezza sia in casi simulati sia in casi storici utilizzati nell’addestramento medico per testare il pensiero critico dei medici, nonché casi d’emergenza reali provenienti dall’ospedale Beth Israel. Lo studio ha poi confrontato le prestazioni del modello o1 con quelle di medici umani, ChatGPT e medici umani che usano ChatGPT.

Valutando i casi di addestramento, i ricercatori hanno potuto confrontare la performance di o1 con un vasto campione di dati esistenti provenienti da medici umani che avevano sostenuto gli stessi test. E in tutti quei scenari differenti, l’IA ha costantemente superato tali medici e ha offerto la diagnosi corretta o un piano utile per la gestione del paziente nella stragrande maggioranza dei casi esaminati.

Iscriviti alla newsletter Good Medicine

Ma la sua accuratezza nel valutare i dati grezzi delle cartelle cliniche elettroniche provenienti da casi reali di ER era particolarmente impressionante. Questo si avvicina alla realtà caotica che i medici d’emergenza devono spesso affrontare: si occupano di una persona bisognosa di trattamento rapido, con informazioni incomplete e non filtrate, se hanno anche molta informazione. Analizzando quei casi, il modello o1 ha identificato la diagnosi esatta o una diagnosi molto vicina nel 67% delle volte al momento della presentazione iniziale del paziente al triage (rispetto al 50% e 55% rispettivamente per due medici esperti contro cui è stata misurata l’IA) e l’81% delle volte una volta che il paziente era pronto per essere ammesso in ospedale (rispetto al 70% e 79% per i medici umani).

“Possiamo dire in modo definitivo che… i modelli di ragionamento possono soddisfare quei criteri per un ragionamento diagnostico ai livelli più alti di prestazione umana,” ha detto Rodman ai giornalisti.

Due esperti che ho consultato e che non erano affiliati allo studio — il Dr. Sanjay Basu della UC-San Francisco e Nigam Shah di Stanford — hanno elogiato la rigorosità, ma hanno anche notato le sue limitazioni. I casi di addestramento preesistenti studiati sono stati selezionati appositamente per valutare l’accuratezza dei medici, quindi potrebbero sovrastimare quanto bene il modello opererebbe nel mondo reale. In uno degli esperimenti di caso che includeva una serie di diagnosi “da non perdere” quando il paziente è a rischio di gravi danni o morte, il modello IA non si è comportato meglio di ChatGPT né dei medici umani.

Anche i risultati al pronto soccorso, che si avvicinano di più a valutare l’operato del modello o1 in condizioni vicine alla realtà, erano revisioni retrospettive di casi esistenti; al modello non veniva chiesto di diagnosticare o gestire i pazienti in tempo reale.

Questo è il motivo per cui, come hanno sostenuto anche gli autori dello studio Science, il passo successivo non dovrebbe essere affidare immediatamente il modello di OpenAI al triage di emergenza negli ospedali di tutto il paese. Invece hanno chiesto studi clinici che potrebbero valutare le prestazioni del modello — sia in termini di accuratezza sia di sicurezza — in condizioni reali.

“La medicina è ad alto rischio… e abbiamo modi per mitigare questi rischi. Si chiamano trial clinici,” ha detto Rodman ai giornalisti. “Ciò che questi risultati supportano è un programma di ricerca robusto e ambizioso.”

L’IA potrebbe essere preziosa per i medici — ma i pazienti dovrebbero essere cauti

Il clamore sull’IA, soprattutto in medicina, è elevato in questo momento. Mentre ascoltavo gli autori discutere dei loro risultati, ciò che mi ha colpito è la loro consapevolezza che la loro ricerca potrebbe essere usata come giustificazione per tagliare la forza lavoro medica umana — e i rischi che ciò potrebbe creare per i pazienti.

“Ci sono molte di quelle cosiddette aziende di dottori IA là fuori che cercano di tagliare i medici fuori dal flusso di lavoro o di avere una supervisione clinica minimale,” ha detto Rodman. “Come uno dei coautori anziani dello studio, non penso che questi risultati sostengano questo.”

Gli autori hanno sottolineato che, in base ai loro risultati, immaginerebbero modelli IA nell’ER supervisionati da un medico reale. Fare una diagnosi è solo una parte del trattamento di un paziente; comprende anche definire un piano di trattamento e monitorare gli sviluppi — nonché l’elemento umano. “Gli esseri umani vogliono che altri esseri umani li guidino nelle decisioni di vita o di morte,” ha detto Manrai.

Basu e Shah hanno detto di sostenere usi dell’IA nell’ER ben definiti, basati sulla ricerca collettiva finora. Potrebbe offrire seconde opinioni quando un paziente viene affidato a un altro clinico o pesare in situazioni specifiche ad alto rischio (come un paziente che presenta sepsi o sintomi di ictus) dove il tempo è essenziale. Potrebbe anche ridurre la burocrazia per i medici, un’applicazione presente nella stagione più recente di The Pitt. Shah ha indicato l’autorizzazione preventiva, la documentazione e la pianificazione come aree ovvie in cui l’IA potrebbe aiutare.

Allo stesso tempo, i modelli IA non dovrebbero assolutamente essere impiegati per diagnosticare e gestire autonomamente il trattamento, ha detto Basu.

Le persone dovrebbero anche essere prudenti nell’usare l’IA per prendere decisioni mediche. Altri studi sulla diagnosi tramite IA hanno rilevato risultati allarmanti, soprattutto per i modelli destinati ai consumatori come ChatGPT. Un articolo pubblicato su Nature Medicine all’inizio di quest’anno ha valutato come ChatGPT si è comportato di fronte a scenari che andavano da non urgenti a emergenti e ha rilevato che il modello sottovalutava la gravità della condizione del paziente nel 52% dei casi; i pazienti sull’orlo dello shock diabetico o dell’insufficienza respiratoria sono stati invece indirizzati al monitoraggio di 24 o 48 ore. Il modello ha ripetutamente fallito nell’identificare chiari segni di ideazione suicidaria.

Come mi ha detto Shah, l’articolo di Science rappresenta un “soglia” superiore per l’uso dell’IA nella diagnosi, mentre l’articolo di Nature Medicine rappresenta un “pavimento”. I due studi mostrano quanto dobbiamo essere precisi quando consideriamo l’uso dell’IA per prendere decisioni cliniche: mentre il modello o1, più sofisticato, ha avuto buoni risultati nello studio Science che esamina casi selezionati, ChatGPT, orientato ai consumatori e sviluppato dalla stessa azienda, OpenAI, ha mostrato prestazioni inferiori nell’altro articolo.

«Entrambe le cose possono essere vere», mi ha detto Basu.

Nella chiamata con i giornalisti, Manrai ha descritto sia scenari “verdi” (a basso rischio) in cui un’IA potrebbe essere davvero utile anche per un non esperto, sia casi “rossi” (ad alto rischio) in cui si dovrebbe sempre coinvolgere un professionista medico. Un uso verde potrebbe, ad esempio, essere chiedere a un modello consigli su una dieta che potrebbe aiutare a gestire l’ipertensione o su stretching che potrebbe alleviare un recente infortunio alla schiena. Pensalo più come consigli sullo stile di vita che come indicazioni cliniche rigide.

Un uso rosso, invece, comporterebbe situazioni mediche gravi con conseguenze di vita o di morte: il dolore toracico, per citare un esempio tra i tanti, è una ragione per recarsi direttamente da un medico o in ospedale, non per consultare ChatGPT.

Ci stiamo avvicinando a sbloccare l’enorme potenziale di questi potenti programmi per migliorare l’assistenza sanitaria, rendendo realtà ciò che una volta era fantascienza. Ma anche questi ricercatori all’avanguardia concordano che dobbiamo procedere con cautela — e mantenere i veri esperti, i medici, nel giro.

Tommaso Rinaldi

Mi occupo di analisi geopolitica con un’attenzione particolare alle relazioni tra potenze emergenti e scenari europei. Nei miei articoli cerco di offrire una lettura chiara e strutturata di dinamiche complesse, mantenendo un approccio rigoroso. Scrivere per Eurasia significa contribuire a una comprensione più approfondita degli equilibri internazionali contemporanei.

Merz perde il favore di Trump guadagnato a fatica

Perché Nicole Kidman e altre star vogliono diventare accompagnatrici di fine vita