Fast die Hälfte aller medizinischen Auskünfte von populären KI-Chatbots ist fehlerhaft oder lückenhaft. Das zeigt eine Studie, die im Fachjournal BMJ Open erschienen ist. Die Forschenden untersuchten die Genauigkeit, die Quellenarbeit und die Lesbarkeit von fünf weit verbreiteten Modellen. In 50 Prozent der Fälle stuften die Experten die Antworten als problematisch oder sogar hochgradig problematisch ein. Die Resultate verdeutlichen erhebliche Risiken für die öffentliche Gesundheit durch ungeprüfte KI-Informationen.
Wissenschaftler prüften die Chatbots ChatGPT, Gemini, Meta AI, DeepSeek und Grok mit insgesamt 250 Anfragen. Die Fragen deckten die Bereiche Krebs, Impfungen, Stammzellen, Ernährung und sportliche Leistung ab. Pro Kategorie bewerteten jeweils zwei Fachleute die Antworten auf ihre wissenschaftliche Korrektheit. Mit 50,4 Prozent erwies sich nur gerade die Hälfte der Rückmeldungen als unbedenklich.
Die andere Hälfte der Antworten waren gemäss der Untersuchung mangelhaft. Dabei stuften die Experten 30 Prozent als «etwas problematisch» und knapp 20 Prozent als «hochgradig problematisch» ein. Besonders bei offenen Fragestellungen produzierten die Modelle viele Fehler. Geschlossene Fragen führten hingegen zu verlässlicheren Ergebnissen.
Problematische Antworten bei Stammzellen
Inhaltlich zeigten die Modelle grosse Unterschiede je nach Themengebiet. Bei Impfungen und Krebs fielen die Ergebnisse vergleichsweise gut aus. Grosse Defizite zeigten sich hingegen bei den Themen Stammzellen, Ernährung und Fitness. Hier wichen die Antworten oft vom wissenschaftlichen Konsens ab oder erzeugten ein falsches Gleichgewicht zwischen Fakten und Mythen.
Werbung
Zwischen den einzelnen Chatbots gab es bei der Gesamtqualität kaum statistisch signifikante Differenzen. Grok generierte jedoch die meisten hochgradig problematischen Antworten. Gemini schnitt in diesem Bereich am besten ab und lieferte die meisten korrekten Rückmeldungen. Die KI-Modelle verweigerten die Antwort nur in zwei von 250 Fällen.
Mangelhafte Quellen und komplizierte Sprache
Ein grosses Problem stellt die Belegführung der Systeme dar. Die durchschnittliche Vollständigkeit der Quellenangaben lag bei lediglich 40 Prozent. Alle untersuchten Chatbots halluzinierten Quellen oder gaben erfundene Zitate an. Keine einzige KI konnte eine vollständig korrekte Referenzliste vorlegen.
Für Laien sind die Texte zudem oft kaum verständlich. Sprachlich bewegen sie sich auf akademischem Niveau. Die Forschenden fordern angesichts dieser Befunde eine bessere öffentliche Aufklärung und eine stärkere Regulierung.
Quelle
Nicholas B. Tiller et al., «Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit», BMJ Open, 15.04.2026, DOI: 10.1136/bmjopen-2025-112695



