Choose your country / language
Artikel Cybersecurity Data & AI

Datenschutz und sichere KI im Gesundheitswesen

Healthcare AI Data Cyber

Warum Anonymisierung im Zeitalter von Large Language Models nicht mehr ausreicht

Künstliche Intelligenz wird zunehmend in Gesundheitsprozesse, Forschung, digitale Gesundheitsservices sowie in die Patientenkommunikation integriert. Insbesondere Large Language Models verändern die Art und Weise, wie klinische Daten verarbeitet und interpretiert werden.

Gleichzeitig gerät eine grundlegende Annahme ins Wanken: dass Anonymisierung allein ausreicht, um personenbezogene Daten zu schützen.

Seit 2024 zeigt sich immer deutlicher, dass Daten, die bislang als anonym galten, unter bestimmten Bedingungen mithilfe moderner KI-Inferenztechnologien wieder einzelnen Personen zugeordnet werden können. Dadurch verändert sich grundlegend, wie Datenschutzrisiken bewertet und gesteuert werden müssen.

Da die durchschnittlichen Kosten einer Datenschutzverletzung im Gesundheitswesen mittlerweile bei 10,93 Millionen US-Dollar pro Vorfall liegen, stellt sich nicht mehr die Frage, ob KI die Effizienz steigert, sondern ob bestehende Datenschutzmechanismen in einer zunehmend KI-gestützten Umgebung überhaupt noch ausreichen.

Die neue Realität des Datenschutzes

Gesundheitsorganisationen müssen sich heute der Tatsache stellen, dass Daten, die bisher als anonym galten, aufgrund moderner KI-Technologien möglicherweise nicht mehr den rechtlichen und ethischen Anforderungen entsprechen. KI kann Anonymisierung teilweise rückgängig machen und Personen wieder identifizierbar machen.

Durch die Fähigkeit moderner KI-Systeme, enorme Datenmengen automatisiert auszuwerten, können bestehende Sicherheits- und Datenschutzstandards zunehmend unterlaufen werden. Ein wichtiger Referenzrahmen in diesem Zusammenhang ist das NIST AI Risk Management Framework (AI RMF)¹. Dieses hebt die zunehmenden Datenschutzrisiken im Zusammenhang mit KI ausdrücklich hervor und empfiehlt Organisationen, Risiken wie Re-Identifikation und die Umkehrung der Anonymisierung aktiv zu erkennen und zu steuern.

Risiken verstehen

Die Folgen von Angriffen auf Large Language Models sind längst keine theoretische Gefahr mehr. KI-Systeme können Muster in anonymisierten Datensätzen mit öffentlich verfügbaren Informationen kombinieren und dadurch unbeabsichtigt Patientenidentitäten offenlegen.

Eine Studie der Cornell University zeigte beispielsweise, dass sich 9 % anonymisierter klinischer Notizen mithilfe von Large Language Models wieder einzelnen Personen zuordnen liessen². Die daraus gewonnenen Informationen konnten anschliessend ohne Zustimmung genutzt werden.

Darüber hinaus stellt auch die Manipulation klinischer Prozesse und medizinischer Geräte durch missbräuchlich eingesetzte KI ein ernstzunehmendes Risiko für die Patientensicherheit dar.

Neue regulatorische Anforderungen

Die regulatorischen Anforderungen nehmen weltweit deutlich zu. Behörden verlangen heute nachvollziehbare und nachweisbare Compliance-Massnahmen.

Die unbefugte Nutzung von Daten kann sowohl Datenschutz- als auch Urheberrechtsverletzungen nach sich ziehen, insbesondere wenn urheberrechtlich geschützte Inhalte personenbezogene Informationen enthalten.

Trotz dieser Entwicklung gehen viele Gesundheitsorganisationen weiterhin davon aus, dass Anonymisierung einen ausreichenden Schutz bietet. Diese Annahme bildet häufig die Grundlage für die Einhaltung von Datenschutzgesetzen wie dem Datenschutzgesetz (DSG), der Datenschutz-Grundverordnung (DSGVO) oder HIPAA.

Die möglichen Folgen sind erheblich: Geldstrafen von bis zu 20 Millionen Euro oder 4 % des weltweiten Jahresumsatzes sowie erhebliche Reputationsschäden und rechtliche Risiken.

Die Kosten des Nichtstuns

Im Jahr 2024 führte der Angriff auf Change Healthcare dazu, dass durch eine Ransomware-Attacke Daten von 190 Millionen Patienten entwendet wurden, darunter Kontaktdaten und medizinische Informationen³.

Zwar wurde ein Lösegeld von 22 Millionen US-Dollar bezahlt, dennoch behielt die Angreifergruppe BlackCat die Daten weiterhin in ihrem Besitz. Der Vertrauens- und Compliance-Schaden war irreparabel.

Dieser Vorfall verdeutlicht einen wachsenden Trend in der Cyberkriminalität: Das Gesundheitswesen bleibt die am stärksten betroffene und zugleich teuerste Branche für Datenschutzverletzungen. Laut dem IBM Cost of a Data Breach Report 2023 liegen die durchschnittlichen Kosten pro Vorfall bei 10,93 Millionen US-Dollar⁴ und damit mehr als doppelt so hoch wie im Finanzsektor.

Angriffe auf Large Language Models

Historisch betrachtet bestand Anonymisierung vor allem darin, direkte Identifikatoren wie Namen, Adressen oder Kontaktdaten zu entfernen. Lange Zeit galt dies als ausreichender Schutz der Privatsphäre.

Heute hat sich die Situation grundlegend verändert. Moderne KI-Systeme können anonymisierte Datensätze analysieren und mithilfe kontextueller Hinweise sowie externer Wissensquellen Personen mit überraschend hoher Genauigkeit re-identifizieren.

Im Folgenden betrachten wir zwei häufige Angriffsmethoden.

Membership Inference Attack

Eine Membership Inference Attack ist ein Datenschutzangriff, bei dem Angreifer herausfinden wollen, ob bestimmte Daten zum Training eines Machine-Learning-Modells oder eines Large Language Models verwendet wurden.

Dabei übermitteln Angreifer Datenbeispiele wie Sätze, E-Mails oder Datensätze an das Modell und analysieren die Antworten sehr genau. Liefert das Modell besonders präzise, detaillierte oder sogar wortgleiche Ausgaben, kann dies darauf hindeuten, dass die Daten Teil des Trainingsdatensatzes waren.

Fällt die Antwort hingegen allgemein oder ungenau aus, ist es weniger wahrscheinlich, dass die Daten im Training verwendet wurden. Auf diese Weise können Angreifer Rückschlüsse darauf ziehen, welche Informationen im Trainingsmaterial enthalten waren.

Risiken in realen Anwendungsszenarien

Ein Angreifer könnte beispielsweise anonymisierte medizinische Daten oder Kaufhistorien an ein Modell übermitteln. Durch den Vergleich der Antworten mit öffentlich verfügbaren Informationen könnten einzelne Personen re-identifiziert oder bestätigt werden, dass bestimmte Datensätze zum Training verwendet wurden.

Damit werden klassische Datenschutzmechanismen zunehmend ausgehebelt, insbesondere in sensiblen Bereichen wie dem Gesundheitswesen.

Prompt Injection bei Large Language Models

Prompt Injection ist eine Angriffsmethode, mit der Anwendungen mit Large Language Models wie Chatbots oder KI-Assistenten gezielt manipuliert werden.

Dabei verstecken Angreifer schädliche Anweisungen in scheinbar normalen Benutzereingaben. Ziel ist es, das Modell dazu zu bringen, sensible Informationen preiszugeben oder Fehlinformationen zu verbreiten.

Ein zentrales Problem besteht darin, dass Systemanweisungen und Benutzereingaben im Modell häufig gemeinsam als einfacher Text verarbeitet werden. Das Modell kann deshalb nicht zuverlässig unterscheiden, welche Inhalte vom Entwickler vorgegeben wurden und welche vom Nutzer stammen.

Wenn Angreifer ihre Eingaben gezielt formulieren, können sie ursprüngliche Systemanweisungen überschreiben oder umgehen.

KI-Sicherheit in der Praxis testen

Organisationen, die KI-gestützte Datenschutzrisiken als strategisches Thema verstehen, gehen zunehmend über klassische Compliance-Prüfungen hinaus und setzen auf strukturierte Sicherheits- und Belastungstests.

Ziel ist es nicht nur, regulatorische Anforderungen zu erfüllen, sondern auch zu verstehen, wie sich KI-Systeme unter realistischen Angriffsszenarien und Inferenzangriffen tatsächlich verhalten.

Diese Tests verbinden technische Analysen mit Governance-Bewertungen. Auf technischer Ebene werden gezielte Simulationen durchgeführt, um zu prüfen, ob Modelle Trainingsdaten offenlegen, sensible Attribute ableiten oder gespeicherte Informationen unbeabsichtigt preisgeben.

Dazu gehören unter anderem:

  • kontrollierte Membership-Inference-Tests
  • Analysen zur Attribut-Inferenz
  • gezielte Versuche zur Datenextraktion

Diese Simulationen dienen nicht nur dazu, einzelne Angriffsszenarien nachzustellen. Vielmehr helfen sie dabei, systemische Risiken sichtbar zu machen:

  • Wie widerstandsfähig ist der Datensatz?
  • Wie vorhersehbar verhält sich das Modell?
  • Wo entstehen unbeabsichtigte Transparenz- oder Inferenzpfade?

Im Gesundheitswesen muss diese Bewertung zudem über das Modell selbst hinausgehen und auch die Infrastruktur sowie die Bereitstellungsarchitektur berücksichtigen.

Cloudbasierte KI-Lösungen schaffen zusätzliche Angriffsflächen, darunter:

  • Risiken durch grenzüberschreitende Datenübertragungen
  • unzureichende vertragliche Absicherungen mit Drittanbietern
  • fehlende Klarheit über Datenlokalisierung
  • fehlerhafte Zugriffs- und Berechtigungskonzepte

Dieser strukturierte Ansatz lässt sich als AI Robustness Maturity Assessment verstehen, also als systematische Bewertung der Widerstandsfähigkeit von KI-Systemen über Daten-, Modell-, Anwendungs- und Governance-Ebenen hinweg.

Ein solches Assessment umfasst typischerweise:

  • Inferenztests auf Datensatzebene
  • Verhaltensanalysen auf Modellebene
  • Sicherheitsbewertungen der Anwendungsschicht
  • Prüfung von Cloud- und Vertragsgovernance

Anstatt sich nur auf einzelne Schwachstellen zu konzentrieren, ermöglicht ein AI Robustness Maturity Assessment einen strukturierten Überblick über systemische Risiken und den Reifegrad der Governance.

In einer zunehmend KI-gestützten Gesundheitslandschaft sind Datenschutz, Sicherheit und Vertrauen keine optionalen Zusatzthemen mehr.