Il margine d’errore di chi si affida ai chatbot per ottenere risposte mediche è ancora troppo ampio. Un’analisi approfondita pubblicata sull’European Journal of Pathology rivela una statistica che non lascia spazio a fraintendimenti: sette risposte su dieci fornite da sistemi di intelligenza artificiale presentano errori, alcuni dei quali potenzialmente pericolosi. Il dato emerge da uno studio che ha ricevuto un importante riconoscimento medico in Italia, confermando quanto questi strumenti debbano ancora maturare prima di essere integrati in modo sicuro nella pratica clinica.
Diagnosi Errate e Fonti Inventate: Le Lacune dei Chatbot Medici
Nel corso della sperimentazione, l’IA è stata sottoposta a duecento quesiti clinici, spaziando tra diverse sottospecialità della patologia. Il risultato è stato allarmante: il 70% delle risposte conteneva almeno un errore, e nel 30% dei casi i riferimenti bibliografici forniti erano errati o completamente inventati. Non si trattava di piccoli fraintendimenti o approssimazioni marginali: in più di un’occasione, l’IA ha sbagliato la diagnosi di forme tumorali, confondendo ad esempio due diversi tipi di cancro al seno o indicando un carcinoma cutaneo inesistente. Il problema non era solo nella risposta errata, ma anche nell’autorevolezza simulata delle fonti citate, che pur essendo false risultavano estremamente verosimili.
Cinque Scenari Clinici per Testare l’Affidabilità dell’IA
Per testare le reali capacità dell’IA, i ricercatori hanno creato cinque scenari clinici realistici, ricostruendo la prassi quotidiana di un patologo che si affida a un chatbot per validare o approfondire una diagnosi. Ogni scenario è stato costruito in conformità con le linee guida più aggiornate, e validato da esperti del settore. L’obiettivo era verificare in che misura un sistema di IA potesse affiancare, o addirittura sostituire, il giudizio umano. I risultati, però, hanno lasciato poco spazio all’ottimismo: soltanto nel 32% dei casi le risposte non contenevano errori, mentre il resto includeva imprecisioni cliniche, diagnosi errate e bibliografie inattendibili.
La Clinica Neurologica Conferma: I Medici Restano Più Affidabili
Un secondo studio sperimentale, realizzato da una struttura sanitaria milanese, ha esteso l’analisi anche al campo neurologico, confrontando le prestazioni di due tra i principali modelli linguistici disponibili. Mettendo alla prova ChatGPT e Gemini durante una prima visita neurologica su 28 pazienti reali, i ricercatori hanno scoperto che i medici diagnostici avevano un’accuratezza del 75%, mentre i modelli di intelligenza artificiale si fermavano rispettivamente al 54% e 46%. Entrambi tendevano anche a suggerire un numero eccessivo di esami diagnostici, con una frequenza compresa tra il 17% e il 25%.
L’Intelligenza Artificiale È Ancora un’Allieva, Non una Guida
Nonostante la loro utilità in ambiti come l’analisi dei big data o il supporto nella ricerca bibliografica, i modelli attuali mostrano una pericolosa tendenza all’allucinazione: costruiscono realtà inesistenti con una coerenza che può trarre in inganno anche i professionisti. Gli autori dello studio non negano il potenziale della tecnologia, ma richiamano all’adozione di un uso prudente, controllato, sempre supervisionato da un essere umano. Servono formazione specifica, protocolli di utilizzo e – soprattutto – consapevolezza dei limiti.
Prevenzione Predittiva: Il Caso Delphi-2M
Parallelamente alla questione diagnostica, il panorama medico sta esplorando nuove frontiere dell’IA nella prevenzione. Uno dei progetti più ambiziosi in questo senso è Delphi-2M, un modello sviluppato da un consorzio europeo di ricercatori, capace di calcolare la probabilità che un individuo sviluppi una delle oltre mille patologie in un arco temporale di dieci o vent’anni. L’algoritmo analizza lo stile di vita, la storia clinica e i fattori di rischio comuni per disegnare una mappa predittiva del futuro sanitario dell’individuo. Sebbene ancora non personalizzabile, rappresenta un primo passo verso una medicina predittiva accessibile e scalabile.
 
			



