Scheinbar klare Verhältnisse werden in ihr Gegenteil verkehrt: Das Paradox ist seit Jahren bekannt. Eine Warnung vor dem naiven Vertrauen in Statistiken
Mit einem Doppelblindversuch soll die Wirksamkeit eines neuerfundenen Krebsmedikaments getestet werden. Nach einem Jahr haben von 20 Patienten, die das neue Medikament bekamen, 18 überlebt. Von den 80 Patienten, die mit dem traditionellen Medikament behandelt wurden, waren es 64. Ein kleiner, aber deutlicher Unterschied in der Überlebensrate: 90 gegenüber 80 Prozent. Aber ist dieser Beweis gut genug?
Um sicher zu gehen wird ein zweiter Test durchgeführt, diesmal an Patienten in einem fortgeschrittenen Stadium der Krankheit. Weil das neue Medikament vermutlich besser ist, bekommen in diesem Doppelblindversuch von 80 Patienten nur noch 20 (ohne es zu wissen) das alte Medikament. Und tatsächlich: von diesen haben nach einem Jahr nur sechs überlebt. Eine Quote von
Quote von 30 Prozent. Von den 60 Patienten, die das neue Medikament bekamen, waren es 30 Überlebende, also 50 Prozent.Spätestens jetzt scheint die Sache sonnenklar: Bei Krebspatienten im Frühstadium steigert sich die Überlebensrate von 80 auf 90 Prozent, bei solchen im Spätstadium von 30 auf 50 Prozent. In jedem Fall ist das neue Medikament besser als das alte. Es wäre unmoralisch, weiterhin das alte Medikament zu benutzen. Krankenkassen sollten trotz der Kosten verpflichtet werden, für die Behandlung mit dem neuen Medikament zu bezahlen.Teile und herrscheGenau so würde man in diesem (fiktiven) Beispiel denken – bis jemand auf die Idee kommt, die Ergebnisse beider Studien einfach einmal zusammenzuzählen: Insgesamt wurden 80 Patienten mit dem neuen Medikament behandelt, von denen insgesamt 48 überlebten. Macht eine Überlebensrate von 60 Prozent. Mit dem traditionellen Medikament wurden in beiden Tests zusammengenommen 100 Patienten behandelt, von denen insgesamt 70 überlebten. Macht eine Überlebensrate von 70 Prozent. Plötzlich sieht es so aus, dass das bewährte alte Medikament doch das bessere ist. Und dieses Ergebnis kann ein starkes Argument für sich in Anspruch nehmen: Es ist durch eine größere empirische Datenbasis abgesichert als die beiden einzelnen Studien, weil ja die Einzelergebnisse zusammengenommen wurden.Dies ist ein Beispiel für das „Simpson-Paradox“. Seit Jahrzehnten ist dieses Paradox bekannt und eigentlich gut erforscht. Es gehört zur Grundausbildung jedes Statistikers. Und seit Jahrzehnten fordern die Statistiker mit Nachdruck, dieses Paradox endlich der breiten Öffentlichkeit zu erzählen, es zum Lehrstoff an sämtlichen allgemeinbildenden Schulen zu machen. Aber aus irgendwelchen Gründen gehört es heute immer noch nicht zur Allgemeinbildung. Was zur Folge hat, dass Pharmafirmen, Politiker, Volkswirte und Experten aller Art die öffentliche Meinung noch ganz ungestört mit irreführenden „Zahlen-Beweisen“ vernebeln können.Dabei wäre es so einfach. Das Paradox benötigt ausschließlich Grundrechenarten. Jeder kann es verstehen. Und trotzdem ist es so kniffelig, dass selbst Philosophieprofessoren daran verzweifeln. Soll heißen: Das Simpson-Paradox besitzt keine Auflösung; keine „richtige Antwort“. Mit dem Paradox wird man auf ein Problem aufmerksam gemacht, das Leute, die das Paradox nicht kennen, regelmäßig ignorieren: die Möglichkeit, eine Gesamtmenge so zu zerteilen, dass eine Eigenschaft der Gesamtmenge im Widerspruch zu den Eigenschaften sämtlicher Teilmengen steht. In der Gesamtmenge ist das traditionelle Medikament wirksamer. In jeder Teilmenge hingegen das neue Medikament.Die zentrale Frage mit dem Simpson-Paradox lautet: Was von beiden stimmt denn nun wirklich? Die Eigenschaft der Teilmengen oder die der Gesamtmenge? Was soll man einem Krebspatienten jetzt raten? Soll er das neue Medikament nehmen oder das alte? Und genau auf diese Fragen gibt das Simpson-Paradox selbst keine Antwort. Für eine Antwort genügt es nicht, nur auf die Zahlen zu schauen – man muss sich mit den genauen Umständen des jeweiligen Beispiels befassen.Seit 1900 bekanntIm Fall des neuen Krebsmedikaments ist die Antwort noch relativ leicht: Die beiden Medikamententests wurden an einer zufälligen Auswahl von Patienten vorgenommen und die ganze Verwirrung des Paradoxons ist nur dadurch entstanden, dass dummerweise unterschiedlich große Testgruppen verwendet wurden. Wie hätte das Ergebnis ausgesehen, wenn korrekterweise in jeder Testgruppe genau gleich viele, sagen wir, 20 Patienten gewesen wären?Beim ersten Test hatten 80 Patienten das alte Medikament genommen und 64 davon haben überlebt. Wenn wir voraussetzen, dass dieses Resultat statistisch valide ist, sollte man unter 20 Patienten genau 16 Überlebende erwarten. Und im zweiten Test ergibt sich bei 30 Überlebenden von 60 Patienten, die das neue Medikament bekommen haben, die Erwartung, dass, hätte man nur 20 Patienten getestet, 10 überlebt hätten. Wenn man nun die beiden so modifizierten Testergebnisse addiert, dann sollten von den zwei mal 20 Patienten, die das neue Medikament bekamen, 28 überlebt haben. Und von den zwei mal 20 Patienten, die das alte Medikament bekamen, nur 16 plus 6, also 22. Das Paradox verschwindet und als Ergebnis wird in diesem Fall offensichtlich, dass das neue Medikament tatsächlich etwas besser ist.Aber diese Auflösung des Paradoxons funktioniert bei weitem nicht immer. Oftmals sind die Teilmengen eben keine zufällig ausgewählten und beliebig austauschbaren Testobjekte, sondern nur genau einmal und genau in dieser Verteilung von der Natur vorgegeben. Dann ist die Frage, was gewesen wäre, wenn alle Teilgruppen die gleiche Größe gehabt hätten, mit statistischen Mitteln nicht mehr zu beantworten, sondern fällt in den Zuständigkeitsbereich der metaphysischen Spekulation.Das Simpson-Paradox ist eigentlich uralt. Die Tatsachen sind seit mindestens 1900 bekannt. Aber zum Thema einer wissenschaftlichen Debatte wurde es erst Anfang der 1970er Jahre im Zusammenhang mit einem spektakulären Rechtsstreit. Damals wurde es auch erstmals „Simpson“-Paradox genannt – zu Ehren des eher zweitrangigen englischen Mathematikers Edward Hugh Simpson, der 1951 einen Aufsatz darüber geschrieben hatte.Besser nicht fragenDamals, 1974, wurde die Universität von Berkeley in Kalifornien beschuldigt, Frauen bei den Aufnahmeprüfungen zu den begehrten Studienplätzen zu benachteiligen. Die Universität musste daraufhin sämtliche Zahlen offenlegen – sie hatten genau die Verhältnisse eines Simpson-Paradoxons. Um es einfacher zu machen, lässt sich dieser Fall mit den exakt gleichen Zahlen wie aus dem Krebsmedikament-Beispiel illustrieren. So vereinfacht war die Lage in Berkeley so: Insgesamt waren 70 Prozent der Männer, aber nur 60 Prozent der Frauen, die sich um einen Studienplatz bewarben, erfolgreich. Offensichtlich ein klarer Fall von Diskriminierung, oder?Aber dann schaute man auf die Zahlen der einzelnen Fachbereichen, und hier war es genau umgekehrt: In sämtlichen Fächern wurden prozentual mehr Frauen als Männer aufgenommen. Für die Universität bedeutete diese Entdeckung den Freispruch. Aber ist damit auch schon die Gerechtigkeitsfrage geklärt? Nein, denn eigentlich muss man zugeben, dass sich die Frage, wie Männer und Frauen abschneiden würden, wenn sich tatsächlich jeweils gleich viele Männer und Frauen bei den naturwissenschaftlichen wie bei den geisteswissenschaftlichen Fächern beworben hätten, prinzipiell mit diesen Zahlen nicht beantworten lässt.Eine weitverbreitete Methode, mit statistischem Zahlenmaterial Schindluder zu treiben, besteht darin, nur die Gesamtzahlen zu veröffentlichen und sämtliche Teilergebnisse zu unterschlagen. Ein prominentes Lehrbuchbeispiel geht so: In einer Stadt mit 200.000 Einwohnern, davon 60.000 Ausländern, werden jedes Jahr 110 Schwerverbrechen verübt, davon 51 von Ausländern, 59 von Deutschen. Dem unbedarften Zeitungsleser wird damit suggeriert, dass Ausländer mehr als doppelt so kriminell wie Deutsche seien: 51 von 60.000 ergibt 0,85 pro Tausend bei den Ausländern, und 59 von 140.000 ergibt 0,42 pro Tausend bei den Deutschen.Tatsächlich aber zerteilt sich diese Stadt in einen „Problembezirk“ und einen „Speckgürtel“. In Ersterem leben 50.000 Ausländer und 50.000 Deutsche und von beiden Gruppen werden durchschnittlich pro Jahr jeweils genau 50 Schwerverbrechen verübt. Im Speckgürtel leben 10.000 Ausländer mit 90.000 Deutschen und auch in diesem Bezirk ist die Verbrechensrate von Deutschen und Ausländern exakt gleich groß: Durchschnittlich ein Schwerverbrechen pro Jahr von einem Ausländer und neun von Deutschen. – Mit dieser zusätzlichen Information sieht man sofort, dass die Verbrechensrate nur vom Wohnbezirk abhängt und nicht im Geringsten von der Frage, ob jemand Ausländer oder Deutscher ist.Die seltsame Auswirkung von zusätzlichen Informationen auf die Interpretation der Zahlen macht das Simpson-Paradox zu einem beliebten Spielfeld von Philosophen. Die schlimmste metaphysische Verwirrung entsteht, wenn man das Simpson-Paradox quasi in umgekehrter Richtung aufrollt: Stellen Sie sich vor, Sie arbeiteten als Arzt bei einer telefonischen Gesundheitsberatung. Sie bekommen den Anruf von jemandem, der unter Allergien leidet. Nehmen wir weiter an, es gäbe genau zwei Medikamente dagegen, eines von der Firma A und ein anderes von der Firma B. Und auch bei diesem Beispiel nehmen wir die genau gleichen Zahlen wie vorhin beim Krebsmedikament und bei den Studienplatzbewerbern in Berkeley.Was raten Sie dem Anrufer? Natürlich zu dem Medikament B! Schließlich hat es sich bei 70 Prozent aller Testpersonen als wirksam herausgestellt. Medikament A hingegen nur bei 60 Prozent. Wohlgemerkt, Sie wissen bisher nur: Der Anrufer leidet unter einer Allergie. Aber als guter Arzt sollten Sie nicht blind Medikamente empfehlen. Sie wissen zum Beispiel, dass, obwohl insgesamt Medikament B wirksamer ist, bei einem Test mit einer Patientengruppe von ausschließlich weißen Europäern das Medikament A erfolgreicher war. Ob Sie wollen oder nicht, im Interesse des Patienten müssen Sie Ihrem Anrufer also die Frage stellen: „Sind Sie eigentlich ein weißer Europäer?“ – Sie ahnen schon, worauf das hinausläuft. Auch wenn der Anrufer „Nein“ antwortet, dann folgt aus dem anderen Medikamententest, dass auch in diesem Fall Medikament A das bessere ist.Allein durch das Stellen der Frage, völlig unabhängig von der Antwort, müssen Sie Ihre Entscheidung revidieren. Wenn Sie keine Frage nach der ethnischen Zugehörigkeit des Anrufers stellen, müssen Sie Medikament B empfehlen. Nachdem Sie die Frage gestellt haben, Medikament A.Was lernen wir daraus? Wenn Sie das nächste Mal zu einem Arzt gehen, fragen Sie ihn vorher, ob er schon mal vom „Simpson-Paradox“ gehört hat. Wenn er „Nein“ antwortet, suchen Sie sich besser einen anderen Arzt.