Wie man klinische Studien liest, Teil 1 - Gute Studien, Schlechte Studien

Klinische Studien sind eines der wichtigsten Werkzeuge der evidenzbasierten Medizin. Stellt euch einfach mal vor, ihr habt ein revolutionäres neues Arzneimittel entwickelt. Ihr seid euch sicher, dass es extrem wirksam und super verträglich ist. Aber wie könnt ihr andere davon überzeugen? Na klar, ihr müsst es testen, und zwar auf eine Art und Weise, die möglichst alle Fehler ausschließt, die das Ergebnis eures Tests verfälschen könnten. Und genau dafür sind klinische Studien da.

Das Schöne daran ist, dass nicht nur ihr damit die Welt von eurem revolutionären neuen Arzneimittel überzeugen könnt. Wenn ihr wisst, wie man solche Studien liest und interpretiert könnt ihr auch beurteilen, wie gut alle anderen Behandlungen sind und ob nicht doch jemand übertrieben hat, was die Wirksamkeit einer (Arznei-)Therapie angeht.

Kurzum: Das Wissen über klinische Studien ist die Tür zur evidenzbasierten Medizin und die beste Möglichkeit, Wirksames von Unwirksamem zu unterschieden. Daher möchte ich euch in dieser zweiteiligen Reihe die nötigen Werkzeuge an die Hand geben, damit ihr klinische Studien lesen und beurteilen könnt. Ich konzentriere mich dabei zwar auf Studien über Arzneimittel, aber grundsätzlich könnt ihr die gleichen Prinzipien auch auf andere Behandlungsmethoden übertragen.

Klinische Studie oder nicht?

Wir sollten damit anfangen, was klinische Studien überhaupt sind – und was nicht. Klinische Studien sind experimentelle Studien, um die Wirksamkeit von Arzneimitteln zu kontrollieren. Epidemiologische Studien, in denen die Forschung nicht in einem experimentellen Setting stattfindet sondern Gruppen von Menschen ausschließlich beobachtet werden, sind damit keine klinischen Studien.

Außerdem finden klinische Studien ausschließlich an Menschen statt. Tierversuche, Studien in Zellen oder Organoiden oder sogenannte ex vivo Versuche mit isolierten Organen gehören hingegen zu den präklinischen Studien. Solche präklinischen Studien sind aber auch ziemlich wichtig und liefern beispielsweise toxikologische Daten, um zu entscheiden, ob eine Studie mit menschlichen Proband:innen überhaupt möglich ist.

Die allermeisten klinischen Studien werden für die Zulassung neuer Arzneimittel durchgeführt. Und solche Zulassungsstudien unterschieden sich sehr, je nachdem in welcher Phase sie sind: Phase I-Studien werden an einer kleinen Zahl gesunder Proband:innen durchgeführt, vor allem um die Sicherheit des Arzneimittels nachzuweisen. In Phase II-Studien kommen nun erstmals erkrankte Patient:innen zum Einsatz, aber wieder nur relativ wenige. Hier wird zum ersten Mal die Wirksamkeit in Menschen untersucht, wenn auch nur auf einem sehr grundlegenden Level, um zum Beispiel eine angemessene Dosis zu finden. Und dann kommen schon die Studien der Phase III, die mit deutlich mehr Patient:innen durchgeführt werden und einen Wirksamkeitsnachweis für die Zulassung eines Arzneimittels erbringen können.

Es gibt außerdem noch Phase IV-Studien, die typischerweise nach der Zulassung gemacht werden, aber die lassen wir mal beiseite. Auf jeden Fall seht ihr, dass „klinische Studie“ ein ziemlich weiter Begriff ist, der ganz unterschiedliche Ziele und Methoden einschließt.

Lasst uns daher tiefer eintauchen in die Welt der klinischen Studien und herausfinden, wie sie funktionieren und was eine gute von einer schlechten Studie unterscheidet.

Die Kontrollgruppe

Es gibt unzählige verschiedene Möglichkeiten des Studiendesigns, die wir uns hier unmöglich alle anschauen können. Deshalb konzentrieren wir uns auf die randomisierten kontrollierten Studien (kurz RCT), die quasi den Goldstandard darstellen. Und damit das ganze etwas weniger Abstrakt ist, schauen wir uns ein konkretes Beispiel an: „Nilotinib versus Imatinib for Newly Diagnosed Chronic Myeloid Leukemia“ von Saglio et al. aus dem Jahr 2010.

Nur ganz kurz, damit ihr auch wisst, worum es dabei geht: Nilotinib und Imatinib sind Arzneistoffe aus der Gruppe der Tyrosinkinase-Inhibitoren, die bei vielen Tumorerkrankungen verwendet werden. Eine davon ist die chronisch myeloische Leukämie, eine Tumorerkrankung der blutbildenden Stammzellen.

Nach diesem Einschub können wir uns jetzt mit der ersten namensgebenden Eigenschaft der randomisierten kontrollierten Studien beschäftigen, der Kontrollgruppe. Denn um die Wirkung eines Stoffes zu beurteilen, muss man ihn mit etwas vergleichen können. Im Fall unserer Studie hier steckt die Kontrollgruppe auch schon im Titel – Nilotinib versus Imatinib. Das bedeutet also, dass Nilotinib der neue Wirkstoff ist, der untersucht werden soll, während es sich bei Imatinib um die Kontrolle handelt.

Woran vermutlich die meisten Menschen bei einer Kontrollgruppe denken sind Placebokontrollen. Sie sind dazu gedacht, dass Kontexteffekte wie der Placeboeffekt das Ergebnis der Studie nicht verfälschen. Allerdings können nicht alle Studien eine Placebokontrolle verwenden. Stellt euch doch mal vor, Patient:innen mit einer potentiell tödlichen Krankheit würden, nur weil sie in der Kontrollgruppe sind, ein unwirksames Placebo bekommen statt einer Behandlung. Deshalb wird als Kontrollgruppe oft eine bereits etablierte Behandlung verwendet – so auch in unserem Beispiel mit Imatinib.

In den meisten Fällen soll dabei gezeigt werden, dass die neue Behandlung der Kontrolle überlegen ist, z.B. dass die Behandlung Nilotinib besser ist als mit Imatinib (was genau mit besser gemeint ist, ist auch sehr wichtig, und dem widmen wir uns ausführlich in Teil 2). Es gibt auch Studien, die eine Nicht-Unterlegenheit nachweisen wollen, also dass die neue Behandlung mindestens genauso gut ist wie die Kontrolle. Das ist zum Beispiel der Fall, wenn die Behandlung vereinfacht oder verkürzt werden soll. Solche Studien sind allerdings seltener – und bei einem Placebo als Kontrolle wird natürlich immer die Überlegenheit untersucht.

Wenn ihr also eine klinische Studie vor euch liegen habt, dann schaut als erstes, ob es eine Kontrollgruppe gibt – und wenn ja, welche. Denn ohne Kontrolle kann niemals wirklich nachgewiesen werden, ob der beobachtete Effekt (inklusive Nebenwirkungen) tatsächlich von der neuen Behandlung stammt und nicht durch den Placeboeffekt, eine natürliche Besserung der Erkrankung oder eine andere Quelle verursacht wird. Außerdem sollte die Kontrolle zur Behandlung passen. Eine Studie, bei der eine Gruppe eine Infusion bekommt und die andere nur Tabletten schlucken muss wäre zum Beispiel nicht sauber gemacht.

Der Zufall entscheidet

Der zweite entscheidende Faktor, der eine Studie zur randomisierten kontrollierten Studie macht, ist die Randomisierung. Das bedeutet, dass die Teilnehmer:innen zufällig auf die Kontrollgruppe und die Verumgruppe (so nennt man die Gruppe auch, welche die neue Behandlung bekommt) verteilt werden.

Ohne diese zufällige Aufteilung könnten die Forschenden ja diejenigen Patient:innen, denen es sowieso besser geht, der Verumgruppe zuteilen und jene, denen es schlechter geht, der Kontrollgruppe. Und Oh Wunder – am Ende geht es der Gruppe mit der neuen Behandlung insgesamt besser. Aber niemand kann wissen, ob das tatsächlich an der Behandlung liegt oder nicht eher an der fehlerhaften Aufteilung der Teilnehmer:innen.

Auch in unserer Beispielstudie wurde randomisiert. Die Patient:innen wurden zufällig in zwei Verumgruppen mit unterschiedlicher Dosis und eine Kontrollgruppe aufgeteilt.

Dass und wie randomisiert wurde sollte also immer im Methodenteil einer Studie zu finden sein, selbst wenn euch die Randomisierungsmethode an sich nichts sagt.

Wer ist alles verblindet

Ein weiteres Qualitätsmerkmal für klinische Studien ist die Verblindung. Dabei geht es darum, dass die an der Studie beteiligten Personen nicht wissen, wer in welcher Gruppe ist. Ihr habt bestimmt bemerkt, dass ich „an der Studie beteiligte Personen“ geschrieben habe und nicht Teilnehmer:innen. Denn idealerweise wissen nicht nur die Patient:innen nicht, in welcher Gruppe sie sind, sondern auch die behandelnden und die auswertenden Personen. Das bezeichnet man dann als einfache (nur Teilnehmer:innen), doppelte (Teilnehmer:innen + behandelnde Personen) oder dreifache Verblindung (alle).

Bei den Teilnehmer:innen geht es wieder um Kontexteffekte: Wenn Patient:innen wissen, dass sie nur ein Placebo bekommen, könnte der Placeboeffekt natürlich deutlich schwächer ausgeprägt sein. Und auch wenn sie wissen, dass sie Teil der Kontrollgruppe mit einer Standardbehandlung sind, kann sich das auf ihre Überzeugung auswirken, wirklich die wirksamste Therapie zu bekommen (oder sogar andersherum, wenn sie dem neuen Arzneistoff eher skeptisch gegenüberstehen).

Die Verblindung von behandelnden und auswertenden Personen soll Kontexteffekte und Bestätigungsfehler – confirmation bias – minimieren. Schließlich wünschen sich die Forscher:innen oft, dass ihre neue Behandlung auch funktioniert und treten vielleicht bei der Behandlung mit dem neuen Arzneimittel zuversichtlicher oder möglicherweise auch nervöser auf. Das kann wiederum Einfluss auf die Patient:innen haben. Andererseits könnten die Forscher:innen durch diesen Wunsch (unbewusst) eher Erkenntnisse berücksichtigen, die ihre Erwartungen bestärken. Aus diesen Gründen sollten auch sie verblindet sein.

Wenn wir uns jetzt wieder „Nilotinib vs. Imatinib“ ansehen, dann lesen wir nichts von einer Verblindung. Stattdessen steht dort open label, was im Prinzip nur bedeutet, dass keine Verblindung durchgeführt wurde und alle Teilnehmer:innen und Forscher:innen wussten, wer in welcher Gruppe ist. Das ist noch kein Grund, die Studie für nutzlos zu erklären, aber man sollte sich dieser Tatsache schon bewusst sein. Denn Studien ohne Verblindung überschätzen den Effekt einer Behandlung regelmäßig. Es wäre also nicht unvernünftig zu denken, dass auch der Behandlungserfolg bei „Nilotinib vs. Imatinib“ als etwas zu hoch eingeschätzt wird.

Außerdem wäre es noch ideal, wenn eine Studie, die verblindet durchgeführt wurde, auch über den Erfolg der Verblindung berichtet – also z.B. ob nicht doch einige Teilnehmer:innen herausgefunden haben, in welcher Gruppe sie sind.

Die Verblindung ist somit auch ein wichtiger Faktor, um die Qualität von klinischen Studien einzuschätzen, sowohl ob überhaupt verblindet wurde als auch wer – nur die Patient:innen oder auch die durchführenden Personen.

to be continued…

Eine zufällige Aufteilung in Gruppen, die jeweils eine Kontrolle oder den untersuchten Arzneistoff erhalten, macht also die randomisierten kontrollierten Studien aus. Sie sind die beste Methode um sicherzugehen, dass in der Studie aufgetretene Effekte – positive wie negative – tatsächlich von der Behandlung stammen und um gleichzeitig möglichst viele Fehlerquellen auszuschließen.

Das sind zwar die grundlegenden Aspekte des Studiendesigns, aber es gibt noch einiges mehr zu beachten, um eine Studie zu beurteilen. Zum Beispiel, wie viele und welche Patient:innen teilgenommen haben, wie der Erfolg der Behandlung überhaupt gemessen wurde und wie groß dieser Effekt dann war. Darum geht es dann aber im zweiten Teil.

Falls ihr keinen Beitrag mehr verpassen wollt, abonniert doch gerne meinen Email-Newsletter. Und falls euch dieser Post gefallen hat, teilt ihn gerne mit Menschen, die sich auch dafür interessieren.

Wie man klinische Studien liest, Teil 1 – Gute Studien, Schlechte Studien