Statistik, Lügen und Geheimnisse
Wie bringen wir Gesundheitsdaten zum Sprechen?

Was macht eigentlich die Geschichten, die in Gesundheitsdaten stecken, so spannend? Vor allem: Was macht sie spannend, wenn man nicht herausfinden kann, welcher Patient sich hinter einem ganz bestimmten Datensatz verbirgt? Denn dass sich Versicherungen brennend dafür interessieren dürften, ob Herr Meier oder Frau Müller an einer chronischen Erkrankung leiden oder ein besonders hohes Risiko für Krebs aufweisen, das kann sich jeder lebhaft vorstellen.

Die Antwort gab die weltberühmte Krankenschwester und Statistikerin Florence Nightingale schon im Jahr 1863: „In kaum einem Fall war ich in der Lage, Krankenhausakten zu erhalten, die für irgendeinen Vergleichszweck geeignet waren ... Wenn sie klug eingesetzt werden, könnten [Krankenhausaufzeichnungen] uns mehr über den relativen Wert bestimmter Operationen und Behandlungsmethoden sagen.“
Heute veröffentlichen Krankenkassen regelmäßig Studien zur Verbreitung und Entwicklung bestimmter Krankheitsbilder. So hat die DAK in ihrem jährlichen Kinder- und Jugendreport zuletzt untersucht, wie sich Erstdiagnosen verschiedener Erkrankungen im Pandemiejahr 2021 gegenüber dem Vorjahr verändert haben. Solche deskriptiven, also beschreibenden, Analysen von Patientengruppen können helfen, mittel- bis langfristige Veränderungen des Versorgungsbedarfs zu erkennen und zu evaluieren, ob bestimmte Maßnahmen mit diesen Veränderungen in statistischem Zusammenhang stehen. Dazu ist es nicht nötig, Einzeldaten zu betrachten.
Anders passiert es bei induktiven, d. h. auf verallgemeinerbare Muster schließenden Auswertungen von Patientenregistern, die ebenfalls heute schon üblich sind. Dabei analysiert man die Auswirkung von Interventionen auf der Ebene des einzelnen Patienten, ähnlich wie bei einer klinischen Studie. Das Leipzig Heart Institute konnte so herausfinden, wie sich die Krankheitsverläufe von hospitalisierten COVID-19-Patienten unterschieden, je nachdem, ob sie an Delta oder Omikron erkrankt waren. Das war möglich, weil die Helios Kliniken seit Beginn der Pandemie ein COVID-19-Register führen, das alle aufgenommenen Patienten umfasst. Egal ob sie in einer kleinen Spezialklinik behandelt wurden oder in einem großen Universitäts-Krankenhaus.
Schon viel länger gibt es das Deutsche Mukoviszidose-Register. Mukoviszidose ist eine schwere, erbliche Stoffwechselerkrankung, die dazu führt, dass ein zäher Schleim allmählich lebenswichtige Organe verstopft. Vieles an dieser Krankheit ist noch wenig erforscht, nicht zuletzt, weil sie selten ist und die Verläufe sehr unterschiedlich sein können. Um die Behandlungsqualität zu verbessern, erstellt das Mukoviszidose-Register jedes Jahr ein Benchmarking der spezialisierten Ambulanzen in Deutschland. Um zu verstehen, warum manche dieser Ambulanzen bessere Behandlungsergebnisse erzielen als andere, muss man berücksichtigen, welche Patienten und Patientinnen sie behandeln. Denn manche Ambulanzen sind auf Kinder spezialisiert, andere auf Erwachsene. Manche Ambulanzen behandeln viele Patienten, die bereits eine Organtransplantation hinter sich haben oder sich allgemein in einem schwereren Stadium befinden. Ignoriert man solche Informationen, dann würde man Äpfel mit Birnen vergleichen und womöglich falsche Empfehlungen ableiten.
Dazu müssen Registerdaten eventuell mit anderen Datenquellen angereichert werden. Das österreichische Impfregister wurde mit der Todesfallstatistik verknüpft. So ließ sich zeigen, dass geimpfte Personen seltener verstarben als ungeimpfte. Eine solche Verknüpfung ist aufwändig, weil die Daten sorgfältig pseudonymisiert werden müssen, um den Datenschutz zu garantieren. Aber demgegenüber steht ein hoher Nutzen. Denn nur an Einzeldaten kann man untersuchen, ob die zeitweise recht parallelen Verläufe von Impfungen und Todesfällen womöglich bedeuteten, dass die Impfung zu einer erhöhten Sterblichkeit führte. Ein naiver Blick auf die Daten offenbarte, dass mit steigender Zahl der Impfungen auch die Zahl der Todesfälle anstieg; statistisch gesehen gab es eine durchaus hohe Korrelation. Dank des Impfregisters ließ sich allerdings nachweisen, dass es nur ein zeitliches Zusammentreffen war und kein kausales: Während der „Corona-Wellen“ im Jahr 2021 ließen sich eben viele Menschen impfen und viele, vor allem ungeimpfte, sind verstorben.
Über 100 Jahre nach Florence Nightingales Tod ist es immer noch schwierig, an gut organisierte Gesundheitsdaten zu kommen. Und sie allein reichen auch nicht, um das Potenzial von Daten auszuschöpfen. Es braucht zwei weitere Bausteine, um „Real World Evidence“, also Evidenz aus dem „realen“ Behandlungsalltag in der breiten Bevölkerung, zu gewinnen. Wenn Daten aus verschiedenen Quellen zusammengeführt werden, braucht es erstens Verfahren, die die Vergleichbarkeit von Patienten herstellen, und zweitens Verfahren, die den Datenschutz gewährleisten. Real-World-Studien sind so bedeutsam, weil klinische Forschung sehr teuer ist und sich oft auf streng selektierte Patienten und Patientinnen beschränkt. Das macht es schwierig, die Ergebnisse auf andere zu übertragen, die von der zu erforschenden Behandlungsmethode ebenfalls profitieren könnten.
Ein wichtiger Treiber für Real-World-Studien ist der 2016 durch die US-amerikanische Arzneimittel- Zulassungsbehörde FDA (Food and Drug Administration) verabschiedete „21st Century Cures Act“. Er fördert eine beschleunigte Entwicklung neuer Medikamente, indem Zulassungsstudien an bereits vorhandenen Daten möglich werden. Es ist also nicht mehr in jedem Fall nötig, Patienten aufwändig zu rekrutieren.
So eröffnet der Cures Act die Möglichkeit, sogenannte historische Kontrollgruppen zu bilden. In einer klassischen klinischen Studie wird ein neues Medikament an einer Patientengruppe getestet, während eine andere, sonst in allen wichtigen Merkmalen vergleichbare Gruppe ein Placebo oder ein bereits zugelassenes Medikament erhält. Soll nun ein weiterer innovativer Wirkstoff getestet werden, könnte man erheblich Zeit und Kosten sparen, wenn man einfach eine Kontrollgruppe aus einer früheren Studie benutzen könnte. Es wäre möglicherweise sogar ethischer, weil man nicht erneut Patienten mit einem potenziell weniger wirksamen Mittel behandeln muss – dasjenige, dessen Unterlegenheit man beweisen möchte.
Das Problem bei Daten aus früheren klinischen Studien oder von Krankenkassen ist, dass die dort dokumentierten Patienten nicht unbedingt miteinander vergleichbar sind. Unterscheiden sich Patientengruppen aber in ihrer Altersstruktur oder in ihren Begleiterkrankungen, dann lässt sich nicht mehr eindeutig sagen, ob ein Unterschied im Behandlungserfolg auf die Therapie zurückzuführen ist oder auf andere Effekte. Das gilt selbst, wenn Daten aus einer einzigen Quelle stammen.
Wenn man sich zum Beispiel dafür interessiert, ob eine Rehabilitationsmaßnahme bei Patientinnen nach einer Herzklappen-Operation die Sterblichkeit reduziert, dann steht man vor dem Problem, dass nur eine Auswahl von Patienten überhaupt eine solche Maßnahme bekommt. Diejenigen, die zu gesund sind oder zu krank, erhalten keine Reha. Sterblichkeit und die Entscheidung, ob ein Patient an der Reha teilnimmt, hängen also beide vom Gesundheitszustand ab.
Das motiviert den ersten Baustein zur besseren Nutzung von Gesundheitsdaten: Verfahren, die eine Vergleichbarkeit von Patienten herstellen. Eine solche ist der Propensity Score (PS). Er beschreibt die Wahrscheinlichkeit, eine bestimmte Behandlung zu erhalten, abhängig von weiteren Merkmalen des Patienten. PS-Methoden werden häufig verwendet, um die Patientenstruktur in der Behandlungs- und Nichtbehandlungsgruppe auszugleichen. Entweder werden Patienten mit ähnlichem PS in beiden Gruppen 1:1 „gematcht“, d. h. man bildet Zwillingspaare. Das kann schnell sehr aufwändig werden. Deswegen beschränkt man sich bei der Stratifizierung darauf, keine perfekten Matches zu bilden, sondern Patienten in Gruppen mit ähnlichem PS einzuteilen, sogenannte Strata. Das ist ähnlich wie die Bildung von Kampfklassen beim Boxen.
Andere Methoden wie die Heckman-Adjustierung berechnen eine Gewichtung, mit der jeder Patient in die Analyse eingeht. Damit berechnet man die „wahren“ Behandlungsunterschiede oder „True Treatment Differences“. Das kann man sich stark vereinfacht vorstellen wie bei der Wahlforschung – weil die Neigung von Wahlberechtigten, tatsächlich wählen zu gehen, sich von Partei zu Partei unterscheidet, müssen Wahlprognosen bei der „Sonntagsfrage“ entsprechende Gewichtungsfaktoren einbauen. Die „wahren“ Unterschiede bei den hochgerechneten Prozenten der Parteien sind dann die erfragten, adjustiert mit dem jeweiligen Gewicht.

Offensichtlich beruhen solche Analysen auf vielen sensiblen Daten, die in ihrem Zusammenspiel so individuell wie ein Fingerabdruck des Patienten sein können. Wie garantiert man, dass niemand anhand dieses Fingerabdrucks identifiziert werden kann?
Dazu braucht es den zweiten Baustein der Gesundheitsdaten-Nutzung: Verfahren, die den Datenschutz gewährleisten. Das Problem lösen Forschungsdatenzentren, indem sie Auswertungsergebnisse, die auf wenigen Individuen beruhen, blockieren. Auch statistische Ämter arbeiten so: Werden etwa in einer kleinen Gemeinde im Jahr 2022 nur 6 Kinder geboren, dann kann man die Daten nicht getrennt nach Geschlecht abfragen. Beim Propensity Score Matching wäre es entsprechend nicht möglich, das Durchschnittsalter eines einzigen Zwillingspaares zu erhalten.
Nun ist es bei Durchschnitten ziemlich einfach festzulegen, wann man aus statistischen Analysen etwas über die Einzelwerte erfahren kann und wann nicht. Am Beispiel von Farben kann man sich leicht vorstellen, dass in Grün die Farben Gelb und Blau stecken. Bei einem undefinierbaren Graubraun ist es hingegen schwer, die Ausgangsfarben der Mischung zu bestimmen.
Bei komplexen statistischen Analysen, etwa Überlebensmodellen oder sogenannten „Mixed Models“, wird die Sache heikler. Es ist unter Umständen möglich, ein statistisches Modell mit scheinbar wenigen Komponenten so zu gestalten, dass jeder Patient individuell modelliert wird und damit mit entsprechendem Know-how und Aufwand Einzelpersonen auch in größeren Gruppen identifizierbar sind. Eine scharfe Grenze, wann Ergebnisse berichtet werden und wann nicht, nützt da nicht viel.
Eine mögliche Lösung sind synthetische Datensätze: Simulierte Individuen, die es gar nicht gibt, die es aber hypothetisch geben könnte, weil sie in ihrer Gesamtheit dieselben statistischen Eigenschaften aufweisen wie „echte“ Menschen. Max Mustermann und Martina Musterfrau, sozusagen, und Simon Sonderling, der einen untypischen Patienten repräsentiert. Damit das funktioniert, braucht man allerdings sehr große Datensätze.
„Differential Privacy“, ein kryptographisches Verfahren, setzt entweder bei den individuellen Daten an oder erst bei den Ergebnissen der durchgeführten Datenanalysen. Unternehmen wie Apple nutzen Differential-Privacy-Methoden bereits, um das Verhalten ihrer Kunden zu analysieren, ohne gegen Datenschutzgesetze zu verstoßen. Apples „Local Differential Privacy „ steht für das Verrauschen der Daten selbst. Auf dem Handy des Benutzers wird zu seinen Daten eine Zufallszahl addiert und das Ergebnis steht allen Benutzern zur Analyse zur Verfügung. Das Rauschen ist so berechnet, dass man zwei Datensätze nur mit geringer Wahrscheinlichkeit unterscheiden kann; es verfälscht einzelne Datensätze sehr stark. Aber weil sich das Rauschen über alle Datensätze hinweg „ausmittelt“, verändern sich statistische Analyseergebnisse der Daten kaum. Jedenfalls, solange man mit sehr großen Datenmengen arbeitet, etwa einer Milliarde aktiver iPhone-Nutzer.

Differential Privacy im herkömmlichen Sinne bezieht sich auf die Analyseergebnisse. Diese Ergebnisse, zum Beispiel Mittelwerte, werden mit einem zufälligen Rauschen überlagert. Aus dem Farben- Durchschnitt „Froschgrün“ wird im obigen Beispiel also Türkis oder Oliv. Oder vielleicht auch ein grünliches Grau. Denn wie stark das Rauschen ist, hängt davon ab, wie hoch die Wahrscheinlichkeit ist, dass man aus dem Ergebnis der Analyse auf eine Einzelperson zurückschließen kann. Standard-Umsetzungen wie „Google DP“ ermöglichen das Verrauschen von einfachen Auswertungen wie der Summe oder der Anzahl.
Aus diesen einfachen Auswertungs-Elementen kann man komplexere Auswertungen zusammensetzen: Eine Korrelation ist eine Kombination von quadrierten Summen, die man durcheinander teilt. Aber das Rauschen wird dabei immer größer. Deswegen funktionieren auch diese gängigen Methoden nur für große Datensätze. Bei rund 8.000 Mukoviszidose-Patienten, die derzeit in Deutschland leben, versagen sie.
Mathematisch ist es allerdings möglich, für sehr viel kleinere Gruppen von ein paar Dutzend oder hundert Patienten Differential Privacy anzuwenden, indem man das Rauschen direkt für komplexere statistische Modelle konstruiert. Ein solcher vielversprechender Ansatz wird aktuell in einem interdisziplinären Kooperationsprojekt mit Statistikern, Mathematikern und Gesundheitsexperten erprobt.
An Gesundheitsdaten mangelt es in Deutschland prinzipiell nicht. Nur sind sie bisher in vielen Fällen nicht zugänglich. Das liegt in Teilen an der mangelnden Dateninfrastruktur – noch immer werden Diagnosen teilweise per Fax übermittelt – und somit an technischen Hürden, die Daten zu beschaffen und vorzuhalten. Eine Dateninfrastruktur ist aber viel mehr als eine Datenplattform, in der man mehr oder weniger rohe Daten ohne viel Aufwand finden kann. Es braucht zudem geeignete Werkzeuge, um diese Daten „smart“ zu machen. Und es braucht die Kompetenz, diese Werkzeuge anzuwenden, damit die Daten die in ihnen enthaltene Information auch preisgeben. Ohne dabei Lügen zu erzählen oder Geheimnisse auszuplaudern.

Autorin
Katharina Schüller
Geschäftsführerin bei STAT-UP
Katharina Schüller leitet seit fast 20 Jahren das Beratungsunternehmen STATUP mit Fokus auf Datenstrategien, Data Science und KI und ist Vorstandsmitglied der Deutschen Statistischen Gesellschaft. Als Expertin für Datenkompetenz verfasste sie u. a. für das BBSR Studien und Beiträge, etwa zur Smart City Charta des Bundes und berät das BMBF zur „Initiative Digitale Bildung“ sowie zur „Roadmap Datenkultur und Datenkompetenz“ im Rahmen der Datenstrategie der Bundesregierung. Auch initiierte sie die Data Literacy Charta unter Trägerschaft des Stifterverbands. Die IEEE Standards Association berief sie 2021 zur Leiterin einer Arbeitsgruppe, die einen globalen Standard für Data & AI Literacy entwickelt. Sie erhielt zahlreiche Auszeichnungen, z. B. „Vordenker“ (Handelsblatt/BCG), „TopVoice“ (LinkedIn), Digital Female Leader Award u. v. a. m. und ist Mitglied verschiedener Beiräte in Wirtschaft, Wissenschaft und Politik.
https://www.stat-up.com
https://www.linkedin.com/in/schuellerstats/