Nachdem wir im ersten Teil dieses Texts die Grundlagen zur Interpretation klinischer Studien wie Kontrollgruppen, Randomisierung und Verblindung abgedeckt haben, gehen wir heute einen Schritt weiter. Wir tauchen tiefer in die Bedeutung des Patientenkollektivs und die Rolle von Endpunkten ein. Warum ist es wichtig, wer an einer Studie teilnimmt? Wie beeinflussen dropouts die Aussagekraft der Ergebnisse? Und was genau sind klinische und Surrogatendpunkte?
In diesem Teil schauen wir uns an, wie man den Behandlungserfolg misst und warum das oft komplizierter ist, als es auf den ersten Blick scheint. Wir nehmen wieder die Beispielstudie „Nilotinib vs. Imatinib“ unter die Lupe und lernen dabei, worauf man achten sollte, um die Ergebnisse einer Studie korrekt einzuordnen. Am Ende dieses kleinen Leitfadens werdet ihr hoffentlich noch besser gerüstet sein, um klinische Studien kritisch und fundiert zu bewerten.
Das Patientenkollektiv und wer davon übrig bliebt
Bevor wir uns ansehen, wie der Behandlungserfolg überhaupt gemessen wird, müssen wir uns erst nochmal auf das Patientenkollektiv konzentrieren. Denn welche Teilnehmer:innen für eine Studie ausgewählt wurden hat einen großen Einfluss auf ihre Aussage.
Wie alt sind die Patient:innen, welches Geschlecht haben sie, wie weit ist ihre Erkrankung fortgeschritten, wurden sie vorher schon (unerfolgreich) behandelt, haben sie noch andere Erkrankungen? All das sind Fragen, die man stellen sollte, vor allem wenn man die Ergebnisse der Studie auf andere Patient:innen übertragen oder verallgemeinern möchte.
Außerdem lohnt es sich anzuschauen, wie viele Teilnehmer:innen bis zum Ende an der Studie teilgenommen haben. In den meisten Studien gibt es dropouts, Patient:innen, die aus welchem Grund auch immer nicht länger Teil der Studie sind. Das kann daran liegen, dass sie sich nicht an das Behandlungsschema gehalten haben und ausgeschlossen wurden, sie können zu starke Nebenwirkungen haben, sie können eine weitere Erkrankung bekommen haben, aufgrund derer sie ausgeschlossen werden mussten, oder sie können schlicht und ergreifend verstorben sein.
Wenn am Ende nur der Behandlungserfolg der Teilnehmer:innen ausgewertet wird, die bis zum Ende dabei waren, dann ignoriert das einen Teil der medizinischen Realität. Es halten sich nämlich auch „echte“ Patient:innen nicht an Behandlungspläne oder brechen eine Behandlung ab, wenn die Nebenwirkungen zu stark werden. Werden diese Fälle nicht berücksichtigt, wird wieder einmal der Behandlungserfolg überschätzt. Daher sollten Studien idealerweise eine intention-to-treat Analyse haben, bei der die Auswertung anhand aller Patient:innen erfolgt.
Unsere Beispielstudie „Nilotinib vs. Imatinib“ umfasst ursprünglich 846 Teilnehmer:innen, von denen 10 gar nicht erst behandelt wurden. Von den 836 behandelten Patient:innen haben 156 die Studie abgebrochen, meistens wegen starker Nebenwirkungen. Aber auch weil die Behandlung nicht angeschlagen hat oder die Teilnehmer:innen ihre Zustimmung widerufen haben. In der Analyse der Ergebnisse wurden zwar die 10 nicht behandelten Patient:innen nicht mit eingeschlossen, aber immerhin alle, die die Behandlung frühzeitig beendet haben.
Kurz zusammengefasst: Gerade um abschätzen zu können, für welche Menschen eine Behandlung vorteilhaft ist, lohnt sich ein Blick in das Patientenkollektiv der Studie. Und wenn man schonmal dabei ist, sollte man auch nachsehen, wie viele dropouts es gab und wie damit umgegangen wurde.
Die Bedeutung von Endpunkten bei klinischen Studien
Wenn eine klinische Studie durchgeführt wird, dann soll damit in der Regel ja gezeigt werden, wie gut die untersuchte Behandlung funktioniert. Dazu muss etwas gemessen werden, das belegt, ob die Behandlung erfolgreich war, und dieses etwas bezeichnet man als Endpunkt.
Letztendlich geht es bei den meisten Arzneimitteln darum, dass die Patient:innen durch ihre Anwendung wieder gesund werden, sich ihr Zustand nicht oder langsamer verschlechtert, sich ihr Befinden bessert usw. – das ist es, was die Patient:innen interessiert. Solche Kategorien können aber ganz schön schwierig zu messen sein, weshalb meist besser definierbare Endpunkte verwendet werden. Die vollständige Remission, also das komplette Verschwinden z.B. einer Krebserkrankung wäre ein Beispiel dafür. Ein ähnliches Beispiel ist das progressionsfreie Überleben, also Überleben ohne eine Verschlimmerung der Erkrankung. Diese beiden Endpunkte sind sogenannte klinische Endpunkte. Sie sind direkt an den Verlauf der Erkrankung geknüpft und für Patient:innen so erlebbar.
Im Gegensatz zu den klinischen Endpunkten stehen die Surrogatendpunkte. Sie sind nicht direkt für Patient:innen spürbar und dienen als Ersatz – als Surrogat – für klinische Endpunkte. Meistens sind das Biomarker, die nur mittelbar mit dem Verlauf der Erkrankung verknüpft sind. Ein solcher Biomarker ist beispielsweise das C-reaktive Protein, das bei Entzündungen in den Blutkreislauf abgegeben wird. Seine Konzentration korreliert also mit der Stärke der Entzündung und es dient deshalb als Entzündungsmarker.
Bei „Nilotinib vs. Imatinib“ wurden auch Biomarker als Surratendpunkte verwendet. Der primäre Endpunkt für die Wirksamkeit – der Endpunkt, der allein über die Wirksamkeit entscheidet – war die major molecular response nach zwölf Monaten. Im Prinzip ist das nichts anderes als eine knackige Bezeichnung für „Laborparameter, die das Anschlagen der Behandlung zeigen“. Das sagt uns jetzt noch nicht so viel; um diesen Endpunkt also beurteilen zu können, müssen wir uns etwas genauer anschauen, was dafür tatsächlich gemessen wurde.
Um die major molecular response zu messen, wurde bei den Patienten die Transkription von BCR-ABL bestimmt. BCR-ABL ist ein Gen, das durch eine Mutation der Chromosomen 9 und 22 entsteht. Es codiert für das BCR-ABL-Protein, das zur unkontrollierten Vermehrung der betroffenen Zelle führt und dadurch unter anderem die chronisch myeloische Leukämie auslöst. Da BCR-ABL damit kausal für die Entstehung der Tumorzellen verantwortlich ist, ist es als Surrogatendpunkt ziemlich gut geeignet. So ein kausaler Zusammenhang ist aber nicht bei allen Surrogatendpunkten vorhanden, was einer der Hauptgründe ist, weshalb man sie mit Vorsicht behandeln sollte.
Wie viele andere Studien auch hatte „Nilotinib vs. Imatinib“ sekundäre Endpunkte. Dazu gehört unter anderem die complete cytogenetic response. Das heißt, dass (quasi) keine Tumorzellen im Knochenmark mehr vorhanden sind – ein Surrogatendpunkt, der aber direkt mit dem Verlauf der Erkrankung und dem Überleben der Patient:innen verknüpft ist. Solche sekundären Endpunkte sind nicht dazu gedacht, alleine die Wirksamkeit der neuen Therapie zu beweisen. Stattdessen sollen sie mehr Details über die untersuchte Behandlung liefern.
Signifikant – aber auch relevant?
Da wir jetzt geklärt haben, was Endpunkte sind, können wir uns dem widmen, was uns wirklich interessiert, nämlich die Ergebnisse einer Studie. Dabei geht es vor allem um drei Dinge: Wurden die Endpunkte erreicht? Ist der Effekt statistisch signifikant? Und ist er dann auch klinisch relevant?
Statistische Tests werden dazu verwendet, zufällige Schwankungen im Ergebnis von echten, durch die Behandlung ausgelösten Effekten zu unterscheiden. Ist die Wahrscheinlichkeit, dass Verumgruppe (die eine neue Behandlung bekommt) und Kontrollgruppe gleich sind – und damit die Unterschiede zwischen den Ergebnissen nur Zufall – klein genug, bezeichnet man das als statistisch signifikant.
Einen extrem großen Einfluss auf das Ergebnis hat die Anzahl der Studienteilnehmer:innen. Je weniger Teilnehmer:innen, desto größer werden die zufälligen Abweichungen sein. Daher haben Studien mit einer sehr kleinen Teilnehmer:innenzahl auch weniger Aussagekraft. Im Gegenzug kann eine große Zahl an Teilnehmer:innen dafür sorgen, dass selbst sehr kleine positive Ergebnisse trotzdem signifikant sind. Und das ist auch genau der Grund, dass man sich die Effektstärke immer genauer ansehen sollte – selbst wenn der Effekt statistisch signifikant ist.
Zusätzlich dazu, dass der Effekt der neuen Behandlung signifikant sein sollte, muss er natürlich auch tatsächlich merkbar sein. Ein Effekt, der zwar unzweifelhaft vorhanden ist, aber so klein, dass er Patinet:innen keinen wirklichen Vorteil bringt, ist kein Grund, ein neues Arzneimittel zuzulassen. Gerade weil jedes Arzneimittel auch immer das Risiko für Nebenwirkungen birgt.
Unsere Beispielstudie „Nilotinib vs. Imatinib“ berichtet, dass 44% der Teilnehmer:innen mit Nilotinib (300 mg) den primären Endpunkt (die major molecular response) erreichen, im Gegensatz zu 22% in der Kontrollgruppe. Und zwar mit einem p-Wert kleiner als 0,001 – was einer Wahrscheinlichkeit von 99,9% entspricht, dass der Unterschied kein Zufall ist. Das ist schonmal ziemlich gut, aber ist der Effekt auch klinisch relevant? Tja, das ist noch so ein Problem mit Surrogatendpunkten. Es ist für Laien auf dem Gebiet (und hier bin ich genauso Laie wie die meisten anderen) ziemlich schwierig abzuschätzen, was dieser Effekt für die Patient:innen tatsächlich bedeutet.
Ein kleiner Test
Damit können wir die Sache im Prinzip abschließen. Natürlich gäbe es noch so viel mehr, was wir uns anschauen können, aber als erster Überblick soll das erst einmal genügen. Und als kleiner Test können wir versuchen, „Nilotinib vs. Imatinib“ anhand der beschriebenen Kriterien einzuordnen.
Im Großen und Ganzen ist „Nilotinib vs. Imatinib“ eine solide Studie mit guter Aussagekraft. Sie erfüllt die Bedingungen, die wir an kontrollierte randomisierte Studien stellen: Es gibt eine Kontrollgruppe, mit der die neue Behandlung verglichen werden kann, und die Zuteilung in die Gruppen erfolgt zufällig. Damit sind die größten Fehlerquellen so gut es geht minimiert. Eine andere häufige Ursache für einen möglichen Bias ist allerdings nicht beseitigt, denn die Studie ist nicht verblindet. Teilnehmer:innen wissen genauso wie die behandelnden und auswertenden Personen, in welcher Gruppe sie sind. Da nachgewiesen ist, dass dieses Wissen oft zur Überschätzung des Effekts einer neuen Behandlung führt, müssen wir hier definitiv vorsichtig sein!
Die Wirksamkeit der Behandlung wird zwar anhand von Surrogatendpunkten bewertet, die prinzipiell weniger aussagekräftig sind als klinische Endpunkte. Allerdings stehen die gemessenen Endpunkte in einem direkten kausalen Zusammenhang zur Erkrankung, was trotzdem eine gute Aussagekraft ohne allzu viele Annahmen ermöglicht. In der Behandlungsgruppe erreichen doppelt so viele Patient:innen den primären Endpunkt der major molecular response. Da diese so direkt mit dem Verlauf der Erkrankung verbunden ist, können wir annehmen, dass das auch zu einer spürbaren Verbesserung für die Patient:innen führt. Die Ergebnisse wurden als intention-to-treat-Analyse ausgewertet. Damit wurden also auch alle dropouts, bei denen die Behandlung vorzeitig beendet wurde, mit in die Auswertung einbezogen.
Die Patient:innen in der Studie haben ihre CML-Diagnose maximal 6 Monate früher erhalten. Sie durften vorher fast keine andere Behandlung erhalten haben, nur eine bestimmte Schwere der Erkrankung aufweisen, keine eingeschränkte Herzfunktion haben und viele andere Arzneimittel nicht gleichzeitig einnehmen. Das schränkt natürlich ziemlich ein, und um die Ergebnisse auf eine Patient:innengruppen zu übertragen, wären strenggenommen mehr Studien nötig.
Aber mehr Studien sind sowieso nötig, denn „eine Studie ist keine Studie“, wie man so schön sagt. Die beste Aussagekraft haben eine Vielzahl an Studien, die zu ähnlichen Ergebnissen kommen (und dann z.B. in einer sogenannten Metaanalyse zusammengefasst werden).
Ich hoffe, ihr habt jetzt einige Werkzeuge zur Interpretation von klinischen Studien mehr in eurem metaphorischen Werkzeugkasten. Wenn ihr euch weiter informieren wollt, nutzt doch gerne die verlinkte Literatur hier und im ersten Teil als Ausgangspunkt. Und wenn ihr hier keinen neuen Blogpost verpassen wollt, abonniert am besten meinen Newsletter. Ansonsten empfehlt diesen kleinen Leitfaden zur Interpretation klinischer Studien auch gerne weiter.
0 Comments
1 Pingback