Ein Blog über die Wissenschaft hinter Arzneimitteln

Tag: Gute Studien Schlechte Studien

Wie gut wirkt eine Behandlung – Klinische Studien verstehen, Teil 2

Nachdem wir im ersten Teil dieses Texts die Grundlagen zur Interpretation klinischer Studien wie Kontrollgruppen, Randomisierung und Verblindung abgedeckt haben, gehen wir heute einen Schritt weiter. Wir tauchen tiefer in die Bedeutung des Patientenkollektivs und die Rolle von Endpunkten ein. Warum ist es wichtig, wer an einer Studie teilnimmt? Wie beeinflussen dropouts die Aussagekraft der Ergebnisse? Und was genau sind klinische und Surrogatendpunkte?

In diesem Teil schauen wir uns an, wie man den Behandlungserfolg misst und warum das oft komplizierter ist, als es auf den ersten Blick scheint. Wir nehmen wieder die Beispielstudie „Nilotinib vs. Imatinib“ unter die Lupe und lernen dabei, worauf man achten sollte, um die Ergebnisse einer Studie korrekt einzuordnen. Am Ende dieses kleinen Leitfadens werdet ihr hoffentlich noch besser gerüstet sein, um klinische Studien kritisch und fundiert zu bewerten.

Das Patientenkollektiv und wer davon übrig bliebt

Bevor wir uns ansehen, wie der Behandlungserfolg überhaupt gemessen wird, müssen wir uns erst nochmal auf das Patientenkollektiv konzentrieren. Denn welche Teilnehmer:innen für eine Studie ausgewählt wurden hat einen großen Einfluss auf ihre Aussage.

Wie alt sind die Patient:innen, welches Geschlecht haben sie, wie weit ist ihre Erkrankung fortgeschritten, wurden sie vorher schon (unerfolgreich) behandelt, haben sie noch andere Erkrankungen? All das sind Fragen, die man stellen sollte, vor allem wenn man die Ergebnisse der Studie auf andere Patient:innen übertragen oder verallgemeinern möchte.

Außerdem lohnt es sich anzuschauen, wie viele Teilnehmer:innen bis zum Ende an der Studie teilgenommen haben. In den meisten Studien gibt es dropouts, Patient:innen, die aus welchem Grund auch immer nicht länger Teil der Studie sind. Das kann daran liegen, dass sie sich nicht an das Behandlungsschema gehalten haben und ausgeschlossen wurden, sie können zu starke Nebenwirkungen haben, sie können eine weitere Erkrankung bekommen haben, aufgrund derer sie ausgeschlossen werden mussten, oder sie können schlicht und ergreifend verstorben sein.

Wenn am Ende nur der Behandlungserfolg der Teilnehmer:innen ausgewertet wird, die bis zum Ende dabei waren, dann ignoriert das einen Teil der medizinischen Realität. Es halten sich nämlich auch „echte“ Patient:innen nicht an Behandlungspläne oder brechen eine Behandlung ab, wenn die Nebenwirkungen zu stark werden. Werden diese Fälle nicht berücksichtigt, wird wieder einmal der Behandlungserfolg überschätzt. Daher sollten Studien idealerweise eine intention-to-treat Analyse haben, bei der die Auswertung anhand aller Patient:innen erfolgt.

Unsere Beispielstudie „Nilotinib vs. Imatinib“ umfasst ursprünglich 846 Teilnehmer:innen, von denen 10 gar nicht erst behandelt wurden. Von den 836 behandelten Patient:innen haben 156 die Studie abgebrochen, meistens wegen starker Nebenwirkungen. Aber auch weil die Behandlung nicht angeschlagen hat oder die Teilnehmer:innen ihre Zustimmung widerufen haben. In der Analyse der Ergebnisse wurden zwar die 10 nicht behandelten Patient:innen nicht mit eingeschlossen, aber immerhin alle, die die Behandlung frühzeitig beendet haben.

Intention-to-treat Population von “Nilotinib vs. Imatinib”

Kurz zusammengefasst: Gerade um abschätzen zu können, für welche Menschen eine Behandlung vorteilhaft ist, lohnt sich ein Blick in das Patientenkollektiv der Studie. Und wenn man schonmal dabei ist, sollte man auch nachsehen, wie viele dropouts es gab und wie damit umgegangen wurde.

Die Bedeutung von Endpunkten bei klinischen Studien

Wenn eine klinische Studie durchgeführt wird, dann soll damit in der Regel ja gezeigt werden, wie gut die untersuchte Behandlung funktioniert. Dazu muss etwas gemessen werden, das belegt, ob die Behandlung erfolgreich war, und dieses etwas bezeichnet man als Endpunkt.

Letztendlich geht es bei den meisten Arzneimitteln darum, dass die Patient:innen durch ihre Anwendung wieder gesund werden, sich ihr Zustand nicht oder langsamer verschlechtert, sich ihr Befinden bessert usw. – das ist es, was die Patient:innen interessiert. Solche Kategorien können aber ganz schön schwierig zu messen sein, weshalb meist besser definierbare Endpunkte verwendet werden. Die vollständige Remission, also das komplette Verschwinden z.B. einer Krebserkrankung wäre ein Beispiel dafür. Ein ähnliches Beispiel ist das progressionsfreie Überleben, also Überleben ohne eine Verschlimmerung der Erkrankung. Diese beiden Endpunkte sind sogenannte klinische Endpunkte. Sie sind direkt an den Verlauf der Erkrankung geknüpft und für Patient:innen so erlebbar.

Im Gegensatz zu den klinischen Endpunkten stehen die Surrogatendpunkte. Sie sind nicht direkt für Patient:innen spürbar und dienen als Ersatz – als Surrogat – für klinische Endpunkte. Meistens sind das Biomarker, die nur mittelbar mit dem Verlauf der Erkrankung verknüpft sind. Ein solcher Biomarker ist beispielsweise das C-reaktive Protein, das bei Entzündungen in den Blutkreislauf abgegeben wird. Seine Konzentration korreliert also mit der Stärke der Entzündung und es dient deshalb als Entzündungsmarker.

Bei „Nilotinib vs. Imatinib“ wurden auch Biomarker als Surratendpunkte verwendet. Der primäre Endpunkt für die Wirksamkeit – der Endpunkt, der allein über die Wirksamkeit entscheidet – war die major molecular response nach zwölf Monaten. Im Prinzip ist das nichts anderes als eine knackige Bezeichnung für „Laborparameter, die das Anschlagen der Behandlung zeigen“. Das sagt uns jetzt noch nicht so viel; um diesen Endpunkt also beurteilen zu können, müssen wir uns etwas genauer anschauen, was dafür tatsächlich gemessen wurde.

Um die major molecular response zu messen, wurde bei den Patienten die Transkription von BCR-ABL bestimmt. BCR-ABL ist ein Gen, das durch eine Mutation der Chromosomen 9 und 22 entsteht. Es codiert für das BCR-ABL-Protein, das zur unkontrollierten Vermehrung der betroffenen Zelle führt und dadurch unter anderem die chronisch myeloische Leukämie auslöst. Da BCR-ABL damit kausal für die Entstehung der Tumorzellen verantwortlich ist, ist es als Surrogatendpunkt ziemlich gut geeignet. So ein kausaler Zusammenhang ist aber nicht bei allen Surrogatendpunkten vorhanden, was einer der Hauptgründe ist, weshalb man sie mit Vorsicht behandeln sollte.

Wie viele andere Studien auch hatte „Nilotinib vs. Imatinib“ sekundäre Endpunkte. Dazu gehört unter anderem die complete cytogenetic response. Das heißt, dass (quasi) keine Tumorzellen im Knochenmark mehr vorhanden sind – ein Surrogatendpunkt, der aber direkt mit dem Verlauf der Erkrankung und dem Überleben der Patient:innen verknüpft ist. Solche sekundären Endpunkte sind nicht dazu gedacht, alleine die Wirksamkeit der neuen Therapie zu beweisen. Stattdessen sollen sie mehr Details über die untersuchte Behandlung liefern.

Signifikant – aber auch relevant?

Da wir jetzt geklärt haben, was Endpunkte sind, können wir uns dem widmen, was uns wirklich interessiert, nämlich die Ergebnisse einer Studie. Dabei geht es vor allem um drei Dinge: Wurden die Endpunkte erreicht? Ist der Effekt statistisch signifikant? Und ist er dann auch klinisch relevant?

Statistische Tests werden dazu verwendet, zufällige Schwankungen im Ergebnis von echten, durch die Behandlung ausgelösten Effekten zu unterscheiden. Ist die Wahrscheinlichkeit, dass Verumgruppe (die eine neue Behandlung bekommt) und Kontrollgruppe gleich sind – und damit die Unterschiede zwischen den Ergebnissen nur Zufall – klein genug, bezeichnet man das als statistisch signifikant.

Einen extrem großen Einfluss auf das Ergebnis hat die Anzahl der Studienteilnehmer:innen. Je weniger Teilnehmer:innen, desto größer werden die zufälligen Abweichungen sein. Daher haben Studien mit einer sehr kleinen Teilnehmer:innenzahl auch weniger Aussagekraft. Im Gegenzug kann eine große Zahl an Teilnehmer:innen dafür sorgen, dass selbst sehr kleine positive Ergebnisse trotzdem signifikant sind. Und das ist auch genau der Grund, dass man sich die Effektstärke immer genauer ansehen sollte – selbst wenn der Effekt statistisch signifikant ist.

Zusätzlich dazu, dass der Effekt der neuen Behandlung signifikant sein sollte, muss er natürlich auch tatsächlich merkbar sein. Ein Effekt, der zwar unzweifelhaft vorhanden ist, aber so klein, dass er Patinet:innen keinen wirklichen Vorteil bringt, ist kein Grund, ein neues Arzneimittel zuzulassen. Gerade weil jedes Arzneimittel auch immer das Risiko für Nebenwirkungen birgt.

Ergebnis des primären Endpunkts major molecular response in “Nilotinib vs. Imatinib”

Unsere Beispielstudie „Nilotinib vs. Imatinib“ berichtet, dass 44% der Teilnehmer:innen mit Nilotinib (300 mg) den primären Endpunkt (die major molecular response) erreichen, im Gegensatz zu 22% in der Kontrollgruppe. Und zwar mit einem p-Wert kleiner als 0,001 – was einer Wahrscheinlichkeit von 99,9% entspricht, dass der Unterschied kein Zufall ist. Das ist schonmal ziemlich gut, aber ist der Effekt auch klinisch relevant? Tja, das ist noch so ein Problem mit Surrogatendpunkten. Es ist für Laien auf dem Gebiet (und hier bin ich genauso Laie wie die meisten anderen) ziemlich schwierig abzuschätzen, was dieser Effekt für die Patient:innen tatsächlich bedeutet.

Ein kleiner Test

Damit können wir die Sache im Prinzip abschließen. Natürlich gäbe es noch so viel mehr, was wir uns anschauen können, aber als erster Überblick soll das erst einmal genügen. Und als kleiner Test können wir versuchen, „Nilotinib vs. Imatinib“ anhand der beschriebenen Kriterien einzuordnen.

Im Großen und Ganzen ist „Nilotinib vs. Imatinib“ eine solide Studie mit guter Aussagekraft. Sie erfüllt die Bedingungen, die wir an kontrollierte randomisierte Studien stellen: Es gibt eine Kontrollgruppe, mit der die neue Behandlung verglichen werden kann, und die Zuteilung in die Gruppen erfolgt zufällig. Damit sind die größten Fehlerquellen so gut es geht minimiert. Eine andere häufige Ursache für einen möglichen Bias ist allerdings nicht beseitigt, denn die Studie ist nicht verblindet. Teilnehmer:innen wissen genauso wie die behandelnden und auswertenden Personen, in welcher Gruppe sie sind. Da nachgewiesen ist, dass dieses Wissen oft zur Überschätzung des Effekts einer neuen Behandlung führt, müssen wir hier definitiv vorsichtig sein!

Die Wirksamkeit der Behandlung wird zwar anhand von Surrogatendpunkten bewertet, die prinzipiell weniger aussagekräftig sind als klinische Endpunkte. Allerdings stehen die gemessenen Endpunkte in einem direkten kausalen Zusammenhang zur Erkrankung, was trotzdem eine gute Aussagekraft ohne allzu viele Annahmen ermöglicht. In der Behandlungsgruppe erreichen doppelt so viele Patient:innen den primären Endpunkt der major molecular response. Da diese so direkt mit dem Verlauf der Erkrankung verbunden ist, können wir annehmen, dass das auch zu einer spürbaren Verbesserung für die Patient:innen führt. Die Ergebnisse wurden als intention-to-treat-Analyse ausgewertet. Damit wurden also auch alle dropouts, bei denen die Behandlung vorzeitig beendet wurde, mit in die Auswertung einbezogen.

Die Patient:innen in der Studie haben ihre CML-Diagnose maximal 6 Monate früher erhalten. Sie durften vorher fast keine andere Behandlung erhalten haben, nur eine bestimmte Schwere der Erkrankung aufweisen, keine eingeschränkte Herzfunktion haben und viele andere Arzneimittel nicht gleichzeitig einnehmen. Das schränkt natürlich ziemlich ein, und um die Ergebnisse auf eine Patient:innengruppen zu übertragen, wären strenggenommen mehr Studien nötig.

Aber mehr Studien sind sowieso nötig, denn „eine Studie ist keine Studie“, wie man so schön sagt. Die beste Aussagekraft haben eine Vielzahl an Studien, die zu ähnlichen Ergebnissen kommen (und dann z.B. in einer sogenannten Metaanalyse zusammengefasst werden).

Ich hoffe, ihr habt jetzt einige Werkzeuge zur Interpretation von klinischen Studien mehr in eurem metaphorischen Werkzeugkasten. Wenn ihr euch weiter informieren wollt, nutzt doch gerne die verlinkte Literatur hier und im ersten Teil als Ausgangspunkt. Und wenn ihr hier keinen neuen Blogpost verpassen wollt, abonniert am besten meinen Newsletter. Ansonsten empfehlt diesen kleinen Leitfaden zur Interpretation klinischer Studien auch gerne weiter.

Wie man klinische Studien liest, Teil 1 – Gute Studien, Schlechte Studien

Klinische Studien sind eines der wichtigsten Werkzeuge der evidenzbasierten Medizin. Stellt euch einfach mal vor, ihr habt ein revolutionäres neues Arzneimittel entwickelt. Ihr seid euch sicher, dass es extrem wirksam und super verträglich ist. Aber wie könnt ihr andere davon überzeugen? Na klar, ihr müsst es testen, und zwar auf eine Art und Weise, die möglichst alle Fehler ausschließt, die das Ergebnis eures Tests verfälschen könnten. Und genau dafür sind klinische Studien da.

Das Schöne daran ist, dass nicht nur ihr damit die Welt von eurem revolutionären neuen Arzneimittel überzeugen könnt. Wenn ihr wisst, wie man solche Studien liest und interpretiert könnt ihr auch beurteilen, wie gut alle anderen Behandlungen sind und ob nicht doch jemand übertrieben hat, was die Wirksamkeit einer (Arznei-)Therapie angeht.

Kurzum: Das Wissen über klinische Studien ist die Tür zur evidenzbasierten Medizin und die beste Möglichkeit, Wirksames von Unwirksamem zu unterschieden. Daher möchte ich euch in dieser zweiteiligen Reihe die nötigen Werkzeuge an die Hand geben, damit ihr klinische Studien lesen und beurteilen könnt. Ich konzentriere mich dabei zwar auf Studien über Arzneimittel, aber grundsätzlich könnt ihr die gleichen Prinzipien auch auf andere Behandlungsmethoden übertragen.

Klinische Studie oder nicht?

Wir sollten damit anfangen, was klinische Studien überhaupt sind – und was nicht. Klinische Studien sind experimentelle Studien, um die Wirksamkeit von Arzneimitteln zu kontrollieren. Epidemiologische Studien, in denen die Forschung nicht in einem experimentellen Setting stattfindet sondern Gruppen von Menschen ausschließlich beobachtet werden, sind damit keine klinischen Studien.

Außerdem finden klinische Studien ausschließlich an Menschen statt. Tierversuche, Studien in Zellen oder Organoiden oder sogenannte ex vivo Versuche mit isolierten Organen gehören hingegen zu den präklinischen Studien. Solche präklinischen Studien sind aber auch ziemlich wichtig und liefern beispielsweise toxikologische Daten, um zu entscheiden, ob eine Studie mit menschlichen Proband:innen überhaupt möglich ist.

Die allermeisten klinischen Studien werden für die Zulassung neuer Arzneimittel durchgeführt. Und solche Zulassungsstudien unterschieden sich sehr, je nachdem in welcher Phase sie sind: Phase I-Studien werden an einer kleinen Zahl gesunder Proband:innen durchgeführt, vor allem um die Sicherheit des Arzneimittels nachzuweisen. In Phase II-Studien kommen nun erstmals erkrankte Patient:innen zum Einsatz, aber wieder nur relativ wenige. Hier wird zum ersten Mal die Wirksamkeit in Menschen untersucht, wenn auch nur auf einem sehr grundlegenden Level, um zum Beispiel eine angemessene Dosis zu finden. Und dann kommen schon die Studien der Phase III, die mit deutlich mehr Patient:innen durchgeführt werden und einen Wirksamkeitsnachweis für die Zulassung eines Arzneimittels erbringen können.

Es gibt außerdem noch Phase IV-Studien, die typischerweise nach der Zulassung gemacht werden, aber die lassen wir mal beiseite. Auf jeden Fall seht ihr, dass „klinische Studie“ ein ziemlich weiter Begriff ist, der ganz unterschiedliche Ziele und Methoden einschließt.

Lasst uns daher tiefer eintauchen in die Welt der klinischen Studien und herausfinden, wie sie funktionieren und was eine gute von einer schlechten Studie unterscheidet.

Die Kontrollgruppe

Es gibt unzählige verschiedene Möglichkeiten des Studiendesigns, die wir uns hier unmöglich alle anschauen können. Deshalb konzentrieren wir uns auf die randomisierten kontrollierten Studien (kurz RCT), die quasi den Goldstandard darstellen. Und damit das ganze etwas weniger Abstrakt ist, schauen wir uns ein konkretes Beispiel an: „Nilotinib versus Imatinib for Newly Diagnosed Chronic Myeloid Leukemia“ von Saglio et al. aus dem Jahr 2010.

Nur ganz kurz, damit ihr auch wisst, worum es dabei geht: Nilotinib und Imatinib sind Arzneistoffe aus der Gruppe der Tyrosinkinase-Inhibitoren, die bei vielen Tumorerkrankungen verwendet werden. Eine davon ist die chronisch myeloische Leukämie, eine Tumorerkrankung der blutbildenden Stammzellen.

Nach diesem Einschub können wir uns jetzt mit der ersten namensgebenden Eigenschaft der randomisierten kontrollierten Studien beschäftigen, der Kontrollgruppe. Denn um die Wirkung eines Stoffes zu beurteilen, muss man ihn mit etwas vergleichen können. Im Fall unserer Studie hier steckt die Kontrollgruppe auch schon im Titel – Nilotinib versus Imatinib. Das bedeutet also, dass Nilotinib der neue Wirkstoff ist, der untersucht werden soll, während es sich bei Imatinib um die Kontrolle handelt.

Woran vermutlich die meisten Menschen bei einer Kontrollgruppe denken sind Placebokontrollen. Sie sind dazu gedacht, dass Kontexteffekte wie der Placeboeffekt das Ergebnis der Studie nicht verfälschen. Allerdings können nicht alle Studien eine Placebokontrolle verwenden. Stellt euch doch mal vor, Patient:innen mit einer potentiell tödlichen Krankheit würden, nur weil sie in der Kontrollgruppe sind, ein unwirksames Placebo bekommen statt einer Behandlung. Deshalb wird als Kontrollgruppe oft eine bereits etablierte Behandlung verwendet – so auch in unserem Beispiel mit Imatinib.

In den meisten Fällen soll dabei gezeigt werden, dass die neue Behandlung der Kontrolle überlegen ist, z.B. dass die Behandlung Nilotinib besser ist als mit Imatinib (was genau mit besser gemeint ist, ist auch sehr wichtig, und dem widmen wir uns ausführlich in Teil 2). Es gibt auch Studien, die eine Nicht-Unterlegenheit nachweisen wollen, also dass die neue Behandlung mindestens genauso gut ist wie die Kontrolle. Das ist zum Beispiel der Fall, wenn die Behandlung vereinfacht oder verkürzt werden soll. Solche Studien sind allerdings seltener – und bei einem Placebo als Kontrolle wird natürlich immer die Überlegenheit untersucht.

Wenn ihr also eine klinische Studie vor euch liegen habt, dann schaut als erstes, ob es eine Kontrollgruppe gibt – und wenn ja, welche. Denn ohne Kontrolle kann niemals wirklich nachgewiesen werden, ob der beobachtete Effekt (inklusive Nebenwirkungen) tatsächlich von der neuen Behandlung stammt und nicht durch den Placeboeffekt, eine natürliche Besserung der Erkrankung oder eine andere Quelle verursacht wird. Außerdem sollte die Kontrolle zur Behandlung passen. Eine Studie, bei der eine Gruppe eine Infusion bekommt und die andere nur Tabletten schlucken muss wäre zum Beispiel nicht sauber gemacht.

Der Zufall entscheidet

Der zweite entscheidende Faktor, der eine Studie zur randomisierten kontrollierten Studie macht, ist die Randomisierung. Das bedeutet, dass die Teilnehmer:innen zufällig auf die Kontrollgruppe und die Verumgruppe (so nennt man die Gruppe auch, welche die neue Behandlung bekommt) verteilt werden.

Ohne diese zufällige Aufteilung könnten die Forschenden ja diejenigen Patient:innen, denen es sowieso besser geht, der Verumgruppe zuteilen und jene, denen es schlechter geht, der Kontrollgruppe. Und Oh Wunder – am Ende geht es der Gruppe mit der neuen Behandlung insgesamt besser. Aber niemand kann wissen, ob das tatsächlich an der Behandlung liegt oder nicht eher an der fehlerhaften Aufteilung der Teilnehmer:innen.

Auch in unserer Beispielstudie wurde randomisiert. Die Patient:innen wurden zufällig in zwei Verumgruppen mit unterschiedlicher Dosis und eine Kontrollgruppe aufgeteilt.

Dass und wie randomisiert wurde sollte also immer im Methodenteil einer Studie zu finden sein, selbst wenn euch die Randomisierungsmethode an sich nichts sagt.

Wer ist alles verblindet

Ein weiteres Qualitätsmerkmal für klinische Studien ist die Verblindung. Dabei geht es darum, dass die an der Studie beteiligten Personen nicht wissen, wer in welcher Gruppe ist. Ihr habt bestimmt bemerkt, dass ich „an der Studie beteiligte Personen“ geschrieben habe und nicht Teilnehmer:innen. Denn idealerweise wissen nicht nur die Patient:innen nicht, in welcher Gruppe sie sind, sondern auch die behandelnden und die auswertenden Personen. Das bezeichnet man dann als einfache (nur Teilnehmer:innen), doppelte (Teilnehmer:innen + behandelnde Personen) oder dreifache Verblindung (alle).

Bei den Teilnehmer:innen geht es wieder um Kontexteffekte: Wenn Patient:innen wissen, dass sie nur ein Placebo bekommen, könnte der Placeboeffekt natürlich deutlich schwächer ausgeprägt sein. Und auch wenn sie wissen, dass sie Teil der Kontrollgruppe mit einer Standardbehandlung sind, kann sich das auf ihre Überzeugung auswirken, wirklich die wirksamste Therapie zu bekommen (oder sogar andersherum, wenn sie dem neuen Arzneistoff eher skeptisch gegenüberstehen).

Die Verblindung von behandelnden und auswertenden Personen soll Kontexteffekte und Bestätigungsfehler – confirmation bias – minimieren. Schließlich wünschen sich die Forscher:innen oft, dass ihre neue Behandlung auch funktioniert und treten vielleicht bei der Behandlung mit dem neuen Arzneimittel zuversichtlicher oder möglicherweise auch nervöser auf. Das kann wiederum Einfluss auf die Patient:innen haben. Andererseits könnten die Forscher:innen durch diesen Wunsch (unbewusst) eher Erkenntnisse berücksichtigen, die ihre Erwartungen bestärken. Aus diesen Gründen sollten auch sie verblindet sein.

Wenn wir uns jetzt wieder „Nilotinib vs. Imatinib“ ansehen, dann lesen wir nichts von einer Verblindung. Stattdessen steht dort open label, was im Prinzip nur bedeutet, dass keine Verblindung durchgeführt wurde und alle Teilnehmer:innen und Forscher:innen wussten, wer in welcher Gruppe ist. Das ist noch kein Grund, die Studie für nutzlos zu erklären, aber man sollte sich dieser Tatsache schon bewusst sein. Denn Studien ohne Verblindung überschätzen den Effekt einer Behandlung regelmäßig. Es wäre also nicht unvernünftig zu denken, dass auch der Behandlungserfolg bei „Nilotinib vs. Imatinib“ als etwas zu hoch eingeschätzt wird.

Außerdem wäre es noch ideal, wenn eine Studie, die verblindet durchgeführt wurde, auch über den Erfolg der Verblindung berichtet – also z.B. ob nicht doch einige Teilnehmer:innen herausgefunden haben, in welcher Gruppe sie sind.

Die Verblindung ist somit auch ein wichtiger Faktor, um die Qualität von klinischen Studien einzuschätzen, sowohl ob überhaupt verblindet wurde als auch wer – nur die Patient:innen oder auch die durchführenden Personen.

to be continued…

Eine zufällige Aufteilung in Gruppen, die jeweils eine Kontrolle oder den untersuchten Arzneistoff erhalten, macht also die randomisierten kontrollierten Studien aus. Sie sind die beste Methode um sicherzugehen, dass in der Studie aufgetretene Effekte – positive wie negative – tatsächlich von der Behandlung stammen und um gleichzeitig möglichst viele Fehlerquellen auszuschließen.

Das sind zwar die grundlegenden Aspekte des Studiendesigns, aber es gibt noch einiges mehr zu beachten, um eine Studie zu beurteilen. Zum Beispiel, wie viele und welche Patient:innen teilgenommen haben, wie der Erfolg der Behandlung überhaupt gemessen wurde und wie groß dieser Effekt dann war. Darum geht es dann aber im zweiten Teil.

Falls ihr keinen Beitrag mehr verpassen wollt, abonniert doch gerne meinen Email-Newsletter. Und falls euch dieser Post gefallen hat, teilt ihn gerne mit Menschen, die sich auch dafür interessieren.

Gute Studien, schlechte Studien: Anthocyane als Allheilmittel

Es gibt unglaublich viele „Gesundheits“-Websites in den Weiten des Internets. Sie haben Tipps, wie wir alle gesünder leben, Krankheiten vermeiden und schon vorhandene Gebrechen heilen können. Leider nehmen es viele davon mit der Seriosität nicht allzu ernst, oder werfen bei ihren Empfehlungen gar alle wissenschaftlichen Erkenntnisse über Bord. Daher werden wir uns im zweiten Teil der Reihe Gute Studien – Schlechte Studien am Beispiel der Anthocyane anschauen, wie Studien unseriös interpretiert werden.

Wenn man bei Google nach Anthocyanen sucht, stößt man beispielsweise auf die Seite Zentrum der Gesundheit, und die Überschrift des Artikels „Anthocyane: Schutz vor Krankheiten“ zeigt uns direkt, wo die Reise hingeht. Anthocyane sollen uns vor entzündlichen Erkrankungen, Krebs, Herz-Kreislauf-Erkrankungen, Übergewicht, Diabetes und Alzheimer schützen. Um diese (doch sehr beeindruckenden) Behauptungen zu belegen, werden diverse Studien herangezogen. Drei dieser Studien sind von Mizgier et al., Lee et al. und Podsędek et al. und sollen laut Zentrum der Gesundheit aussagen, dass „Anthocyane in der Lage sind, chronische Entzündungen zu lindern“,  ohne Nebenwirkungen gegen Arthritis, Diabetes und Arteriosklerose wirken und eine „wunderbare Alternative zu entzündungshemmenden Medikamenten darstellen“. (Und als Faustregel: immer, wenn etwas eine Alternative ohne Nebenwirkungen zu Arzneimitteln gegen ernsthafte Krankheiten sein soll, sollte man sehr schnell sehr skeptisch werden.)

Was sind Anthocyane?

Bevor wir uns diese Paper aber genauer anschauen, möchte ich euch einen Überblick geben, was Anthocyane sind.

Bei Anthocyanen handelt es sich um pflanzliche Sekundärstoffwechselprodukte. Als Sekundärstoffwechsel bezeichnet man die Stoffwechselwege, die nicht direkt lebenswichtig sind. Direkt lebenswichtig sind dabei z.B. der Energiestoffwechsel (also aus Essen Energie zu machen, die für Zellen nutzbar ist) oder auch der Aminosäurestoffwechsel (aus denen Proteine aufgebaut sind). Nicht direkt lebenswichtig sind dagegen Dinge wie Toxine, Duftstoffe oder Farbstoffe. Und genau das sind auch die Anthocyane: pflanzliche Farbstoffe.

Strukturformel von Cyanidin-3-O-glucosid, ein Anthocyan

Wenn wir ein bisschen chemischer werden, gehören die Anthocyane zur Stoffgruppe der Flavonoide und bestehen aus zwei Teilen: Einem Anthocyanidin-Teil mit drei aromatischen (die chemische Eigenschaft, nicht der Geschmack!) Ringen und einem positiv geladenen Sauerstoff.

Diesen Anthocyanidin-Teil allein bezeichnet man als Aglykon, da hier Zuckermoleküle als zweiter Teil fehlen. Dabei kommen verschiedene Zucker vor, die das ganze Molekül dann besser wasserlöslich und stabiler machen.

Violette Karotten gegen Entzündungen?

Ok, jetzt da wir die Chemie abgehakt haben, können wir uns auf die Studien stürzen, die Zentrum der Gesundheit als Quellen nennt.

Das erste Paper von Mizgier et al. erschien 2016 und heißt „Characterization of phenolic compounds and antioxidant and anti-inflammatory properties of red cabbage and purple carrot extracts”. Die Autor:innen charakterisieren darin erstmal diverse Inhaltsstoffe (Anthocyane und Hydroxyzimtsäurederivate) in Rotkohl und violetten Karotten. Das nimmt dann tatsächlich auch den größten Teil des Inhalts ein. Aber die Autor:innen bestimmen auch, wie gut sich die Extrakte der beiden Gemüse als Antioxidans eignen. Dafür sind Anthocyane tatsächlich bekannt, und auch die Extrakte in dem Paper zeigen antioxidative Effekte.

Laut Zentrum der Gesundheit soll diese Studie aber belegen, dass Anthocyane chronische Entzündungen lindern könnten. Ist da etwas dran? Das Paper hat einen kurzen Abschnitt zu antientzündlichen Effekten. Und zwar wurde getestet, ob die Extrakte von Rotkohl und violetter Karotte in der Lage sind, die Enzyme COX1 und COX2 zu hemmen, die an Entzündungsreaktionen beteiligt sind. Das Ergebnis ist, dass beide Extrakte tatsächlich einen hemmenden Effekt auf diese Enzyme hatten. Aber, und das ist ein ganz dickes Aber, das heißt erstmal noch gar nichts: Erstens wurde das ganze nur in vitro, also „im Reagenzglas“ getestet. Ob der Effekt dann auch im Menschen auftritt, lässt sich daraus nicht ableiten und erst Recht nicht, ob dadurch chronische Entzündungen gelindert werden könnten. Zweitens sind die Daten ganz schön dünn. Normalerweise, wenn man eine Enzymhemmung bestimmt, testet man verschiedene Konzentrationen, nimmt sogenannte Dose-Response-Kurven auf und gibt u.a. einen IC50-Wert an (das ist dann die Konzentration an Hemmstoff, die 50 % der maximalen Hemmung verursacht). Das alles ist hier nicht passiert. Stattdessen wurde überhaupt nur eine einzige Konzentration getestet. Viertens ist diese Konzentration so hoch, dass im Prinzip nicht ausgeschlossen werden kann, dass die COX-Hemmung durch unspezifische Effekte verursacht wird. (Die Proben hatten eine Anthocyan-Konzentration von 8 µg/mL. Je nach Molekül variiert die molare Konzentration natürlich, aber bei Cyanidin-3,5-di-O-glucosid zum Bespiel entspricht das 13 µM). Und fünftens und fast am wichtigsten: Es wurden die kompletten Extrakte verwendet. Niemand kann sagen, ob die COX-Hemmung tatsächlich durch die Anthocyane verursacht wird und nicht durch ganz andere Inhaltsstoffe.

Auf die Idee, dieses Paper könne zeigen, dass Anthocyane chronische Entzündungen lindern könnten, kann man also allerhöchstens kommen, wenn man das Paper gar nicht gelesen hat.

Completely Unrelated

Wieso das zweite Paper, „Inhibitory potential of red cabbage against digestive enzymes linked to obesity and type 2 diabetes” von Podsędek et al. als Quelle angegeben wird, kann ich mir ehrlich gesagt nicht erklären. „Chronische Entzündungsprozesse sind oft Vorläufer chronischer Krankheiten wie Arthritis, Neurodermitis, Diabetes Typ 2, Arteriosklerose sowie Herz- oder Darmkrankheiten“. Dafür wird dieses Paper als Quelle angegeben. Und das stimmt zwar so ungefähr (zumindest sind manche davon entzündliche Erkrankungen), aber davon steht nichts in dem Paper. Die Schlussfolgerung daraus soll nun sein (oder so wird zumindest suggeriert), dass Anthocyane gegen diese chronischen Erkrankungen wirken sollen. Aber auch davon ist in der angegebenen Quelle nie die Rede!

Rotkohl hat einen hohen Gehalt an Anthocyanen (Bild: Bild von Manfred Richter auf Pixabay)

Worum es darin tatsächlich geht ist die Hemmung von Verdauungsenzymen, mit dem Ziel, dass Meschen mit Diabetes oder starkem Übergewicht weniger Fette und Kohlenhydrate aus der Nahrung aufnehmen. Und das mag zwar interessant sein, hat aber rein gar nichts mit dem Text von Zentrum der Gesundheit zu tun, und wurde auch diesmal – ihr ahnt es vielleicht schon – nur in vitro gemessen.

In vivo – aber trotzdem irrelevant

Und auch bei der dritten Quelle („Dietary Anthocyanins against Obesity and Inflammation“ von Lee et al.) ist der Fall ähnlich gelagert. Es ist ein Review, also keine eigene Forschungsarbeit, sondern eine Zusammenfassung der aktuellen Literatur zu einem Thema. Betrachtet wurde hier die Wirkung von Anthocyanen auf chronische Entzündungen, die durch starkes Übergewicht entstehen. Tatsächlich sind hier das erste Mal auch in vivo Studien mit eingeschlossen.

Ich habe mir diese Studien jetzt nicht genauer angeschaut. Auf den ersten Blick ist mir allerdings eine Sache aufgefallen: In diesen Tier- und auch klinischen Studien gab es fast nie wirklich klinische Endpunkte. Das heißt, die Auswirkung auf die entsprechende Krankheit wurde nicht direkt untersucht. Stattdessen wurden Surrogatendpunkte verwendet, also Laborwerte, die dann nur indirekt Rückschlüsse auf die untersuchte Krankheit zulassen.

Aber im Prinzip ist das auch egal. Denn dieses Paper soll als Quelle für die Aussage dienen, dass Anthocyane eine „wunderbare Alternative zu entzündungshemmenden Medikamenten darstellen“. Und das steht da nicht drin! Genauso wenig kann man das aus diesen Daten schlussfolgern. Das ist leider einfach Quatsch.

Und sind Anthocyane jetzt Allheilmittel?

Was schlussfolgern wir daraus jetzt? Dass Anthocyane Wundermittel gegen viele Krankheiten sind?

Das sicherlich nicht. Es gibt eine Menge Studien da draußen, die Gesundheitseffekte von Anthocyanen untersuchen. Viele davon sind aber nur in vitro-Untersuchungen, verwenden unrealistisch hohe Anthocyan-Konzentrationen oder betrachten nur ganze Extrakte, so dass nicht garantiert werden kann, dass der Effekt tatsächlich durch die Anthocyane verursacht wird. Oder schlimmstenfalls eben alles davon auf einmal.

Und ein Problem muss ich auch noch ansprechen: Anthocyane haben eine sehr geringe Bioverfügbarkeit. Das bedeutet, dass nur ein Bruchteil der Anthocyane in eurer Nahrung überhaupt in eurem Blutkreislauf ankommen.

Tatsächlich hat Zentrum der Gesundheit auch dafür eine Antwort parat (oder besser gesagt zwei Antworten): Es sind nicht die Anthocyane selbst, die diese Effekte haben, sondern deren Metabolite. Und die unterliegen einem enterohepatischen Kreislauf (d.h. eigentlich nur, dass sie zwar über die Galle in den Darm ausgeschieden, aber dann im Darm auch wieder resorbiert werden). Die Quellen, die dafür angegeben werden, sind übrigens ähnlich fragwürdig wie alle anderen. In einer der Quellen steht sogar wörtlich: „Ob die im Körper erreichten Konzentrationen jedoch für eine systemische Wirkung ausreichen, muss bezweifelt werden.“

Ich bin natürlich nicht der Richtige, um die Wirkung von Anthocyanen abschließend zu klären. Eine ausgewogene Ernährung, zu der auch Anthocyan-reiches Gemüse und Obst gehören, ist natürlich gesund. Aber dass Anthocyane lebenswichtige Medikamente ersetzen oder sogar Krebs heilen könnten, wie es auf manchen Gesundheits-Websites suggeriert wird, ist auf jeden Fall falsch. Und wissenschaftliche Studien (absichtlich oder unabsichtlich) falsch zu interpretieren, um die eigenen Behauptungen zu belegen, ist unwissenschaftlich und unethisch.

Falls euch der Artikel gefallen hat, geht es hier zum vorherigen Teil der Reihe “Gute Studien, schlechte Studien” über angebliche Nachweise über die Wirkung von Homöopathie.

Gute Studien, schlechte Studien: Aussagelose Wasserlinsen und Homöopathie

Ich möchte mit diesem Beitrag eine kleine Reihe starten, die ich „Gute Studien, schlechte Studien“ nenne. Und in diesem ersten Teil geht es um eine Veröffentlichung, die eher auf der schlechten Seite zu finden ist. Es geht um eine Studie, in der die Autor:innen die Wirksamkeit von Homöopathie nachwiesen wollten. Und auch wenn die Autor:innen des Papers der Meinung sind, dass sie das auch geschafft haben, bin ich da anderer Meinung, und ich möchte euch gerne erzählen wieso.

Um was es in dem Paper geht

Das Paper trägt den Titel „Effects of homeopathic arsenicum album, nosode, and gibberellic acid preparations on the growth rate of arsenic-impaired duckweed (Lemna gibba L.)”. Und ich kann ja schon mal spoilern, dass laut den Autor:innen zumindest das Arsenicum album einen Effekt haben soll. Die Studie erschien schon 2010 und wurde auch schon mehrfach kritisch behandelt, wird aber trotzdem immer wieder wie die sprichwörtliche Sau durchs sprichwörtliche Dorf getrieben. Erst vor ein paar Monaten ist sie mir wieder auf Twitter als angeblicher Beweis für die Wirkung von Homöopathika begegnet. Deshalb möchte ich mich dieser Studie hier widmen und einen genaueren Blick auf diesen „Beweis“ werfen.

Wieso, weshalb, warum, Wasserlinsen

Jetzt ist es Zeit, dass wir den ersten Elefanten im Raum ansprechen: das von den Autor:innen gewählte Modellsystem. Sie wollen die Wirksamkeit ihrer homöopathischen Zubereitungen anhand der Wasserlinse Lemna gibba nachweisen.

Die Wahl des richtigen Modellorganismus für solche Dinge ist gar nicht so einfach (und ich habe auch nur begrenzt Ahnung von den Feinheiten). Aber das grundlegende Prinzip ist relativ einfach: je weiter der gewählte Organismus biologisch vom Menschen entfernt ist, desto weniger sind die Ergebnisse übertragbar. Mäuse und Ratten zum Beispiel sind Menschen erstaunlich ähnlich. Noch besser sind allerdings Primaten.

Die Wasserlinse Lemna gibba (Von Christian Fischer, CC BY-SA 3.0)

Andere Organismen, die häufig verwendet werden, sind weiter vom Menschen entfernt. Fruchtfliegen wie Drosophila melanogaster oder Fadenwürmer wie Caenorhabditis elegans sind aber immerhin noch Tiere, und gehören damit zumindest noch zum gleichen taxonomischen Reich wie der Mensch.

Aber so oder so können Ergebnisse aus Tierstudien nicht einfach so auf Menschen übertragen werden. Ansonsten könnte man sich die ganzen aufwändigen Zulassungsstudien für Arzneimittel ja sparen und sagen: „Bei den Mäusen hat es doch funktioniert, wieso sollten wir uns mit klinischen Studien rumschlagen?“

Jetzt sind Wasserlinsen aber keine Tiere. Es sind Pflanzen. Und Pflanzen unterscheiden sich eben auf jeder Ebene, mikro- und makroskopisch von Tieren, wodurch Erkenntnisse, die auf Wasserlinsen beruhen, noch schlechter auf Menschen übertragbar sind.

Ich habe auch mal nachgeschaut, ob ich andere Veröffentlichungen finde, in denen Arzneimittel-Forschung an Wasserlinsen stattfand. Aber anscheinend wurde das Wasserlinsen-System von den Autor:innen dieser Studie etabliert (ich habe jetzt allerdings auch nicht ewig gesucht). Was es aber gibt, ist die (seltene) Verwendung von Wasserlinsen in der Ökotoxikologie. Dort wird die Wirkung von Giftstoffen in der Umwelt auf Pflanzen (!) getestet.

Eine Sache muss ich den Autor:innen aber zu Gute halten. Auch wenn sie an Wasserlinsen nicht die Wirksamkeit von Homöopathie bei Menschen zeigen können, könnten sie theoretisch nachweisen, dass Homöopathika überhaupt irgendeine Wirkung haben. Um zu erkennen, weshalb dieses Paper auch das nicht beweist, müssen wir uns die Daten ein wenig genauer anschauen.

Signifikanz und schlimme Diagramme

Eigentlich hat das Paper gar nicht so viel Inhalt. Im Prinzip haben die Autor:innen Wasserlinsen mit Arsen behandelt. Arsen ist giftig für Wasserlinsen (und für Menschen!), weshalb diese weniger schnell wachsen. Danach wurden die Wasserlinsen mit homöopathischen Zubereitungen behandelt, und es wurde beobachtet, ob und wie sich die Wachstumsrate erholt. Verglichen wurde das mit Wasserlinsen, die zuerst mit Arsen und dann nur mit Wasser behandelt wurden. Außerdem haben die Autor:innen ein paar Experimente durchgeführt, um zu zeigen, dass ihr „Wasserlinsen-wachsen-langsamer-durch-Arsen-System“ konsistente Ergebnisse liefert.

Schauen wir uns mal an, was die Ergebnisse bei den Wasserlinsen sind, die mit Arsenicum album (also nur sehr verdünntes Arsen(III)-oxid) behandelt wurden. Es wurden neun verschiedene Potenzen getestet, die Ergebnisse wurden hier allerdings zusammengefasst. Das ganze wurde dann fünf mal wiederholt, wir haben also fünf biologische Replikate, im Paper und auch nachfolgend als Experiment 1-5 bezeichnet. Jedes Experiment liefert einen Wert für die Wachstumsrate der Wasserlinsen, der mit je einem Kontrollexperiment verglichen wurde.

Auf den ersten Blick sieht es jetzt so aus, als wären die Wasserlinsen, die mit Arsenicum album behandelt wurden, tatsächlich schneller gewachsen. Wenn wir genauer hinschauen, bemerken wir aber erst einmal, wie klein der Unterschied der Wachstumsrate ist. Die Wachstumsraten von Experiment 1 und Kontrolle 1 unterscheiden sich nur um ca. 0,005 d-1. Das sind 1,2 % der Wachstumsrate. Und dann fällt auf, wie sehr die Wachstumsrate zwischen den Experimenten schwankt. Der Unterschied zwischen Experiment 1 und 2 beträgt ca. 0,011 d-1 und ist damit mehr als doppelt so groß wie der Unterschied zwischen Experiment 1 und der Kontrolle. Und wenn sich zwei Ergebnisse mit Behandlung mehr unterscheiden als die Ergebnisse von Behandlung und Kontrolle, dann kann man nicht wirklich von einem Effekt der Behandlung sprechen.

Das ganze Diagramm ist etwas irreführend. Was man hier hätte machen sollen, wäre die Ergebnisse der biologischen Replikate zu mitteln und mit den gemittelten Ergebnissen der Kontrollexperimente zu vergleichen. Und was wir dann sehen, sind zwei Dinge: Erstens ist der Unterschied in den Wachstumsraten zwischen Behandlung und Kontrolle extrem klein (ebenfalls etwa 1,2 % der gesamten Wachstumsrate). Und zweitens liegt der Unterschied innerhalb der Standardabweichung der biologischen Replikate! Damit ist es eigentlich unmöglich auszuschließen, dass der Unterschied zwischen Behandlung und Kontrolle nur Zufall ist.

In diesem Diagramm werden der Mittelwert der Kontrollen und der Experimente miteinander verglichen. Wenn die Y-Achse bei 0 beginnt, sieht man, wie klein der Unterschied zwischen Kontrolle und Behandlung eigentlich ist.
Wenn wir näher heranzoomen (Y-Achse beginnt bei 0,4 d-1), dann sehen wir, dass der Unterschied in der Wachstumsrate innerhalb der Standardabweichung der biologischen Replikate liegt.

Wieso schreiben die Autor:innen in dem Paper dann aber von signifikanten Unterschieden? Ich denke, das liegt an einer schlauen Auswahl, welches Experiment mit welcher Kontrolle verglichen wurde. Es gibt keinen zwingenden Grund, Experiment 1 aus dem Diagramm mit Kontrolle 1 zu vergleichen, und nicht mit Kontrolle 5. Schließlich wurden beide Kontrollexperimente genau gleich durchgeführt. Und wenn wir Experiment 1 mit Kontrolle 5 vergleichen, dann ist auf einmal die Wachstumsrate der Kontrolle größer als die des Experiments. Aber natürlich wurde das nicht so gemacht, denn das würde ja bedeuten, dass die Behandlung keinen (oder eher einen negativen) Effekt hatte. Aber weil eben genau die Kontrollexperimente als Vergleich herangezogen wurden, die eine niedrigere Wachstumsrate hatten, entsteht der Eindruck, als habe die Behandlung einen signifikanten Effekt.

Wo wir gerade schon dabei sind: Weshalb vergleichen wir nicht die Wachstumsrate der mit Arsenicum album behandelten Wasserlinsen mit den Kontrollexperimenten aus dem Diagramm zu Gibberelinsäure? Schließlich sind auch hier die Kontrollexperimente genau die gleichen: es wurde einfach Wasser statt einer homöopathischen Zubereitung verwendet. Wenn wir das tun, und die Experimente und Kontrollen entsprechend zuordnen, ist die Wachstumsrate der behandelten Wasserlinsen in allen fünf Fällen gleich oder sogar kleiner!

Die Daten zu den anderen Homöopathika müssen wir uns im Prinzip gar nicht anschauen, denn die Autor:innen schreiben selbst, dass es hier keinen Effekt gibt. Gibberillinsäure scheidet direkt aus, und die Nosode auch, sobald die Potenzen nicht mehr gepoolt sondern einzeln betrachtet werden.

Was lässt sich also zusammenfassend sagen? Artikel mit Überschriften wie „Eine Schweizer Studie beweist: Homöopathie wirkt“ vom Homöopathieverband Schweiz sind auf jeden Fall übertrieben. Stattdessen erweckt eine geschickte Anordnung der Daten den Eindruck, es würde einen beobachtbaren Effekt geben, der nicht existiert. Und es ist beunruhigend, dass diese Studie dort draußen ist, wo sie von Laien gefunden werden kann, die daraus dann die falschen Schlüsse ziehen. Oder noch schlimmer von Journalist:innen (oder Homöopathie-Lobbyist:innen), die dann Artikel über die angebliche Wirksamkeit von Homöopathie schreiben, die von noch mehr Menschen gefunden werden.

© 2024 PharmBlog

Theme by Anders NorenUp ↑

WordPress Cookie Notice by Real Cookie Banner