AlphaFold - Was kann die "Wunder-KI" wirklich?

Vor einigen Tagen wurde AlphaFold 3 veröffentlicht, ein KI-Werkzeug zur Vorhersage von Proteinstrukturen. Die Zeit schreibt dazu „Eine KI die wirklich hilft“ oder „KI sagt Struktur aller Moleküle des Lebens voraus“, der Standard nennt es die „Wunder-KI„. Auch in der Wissenschaft ist das Lob für die Fähigkeiten von AlphaFold groß, es gibt jedoch auch einige skeptische Stimmen.

Aber was ist AlphaFold eigentlich genau, was bringt es und was kann es wirklich? Darauf werde ich in diesem Text einen kritischen Blick werfen.

Wieso sind Proteinstrukturen so wichtig?

Eins erstmal vorneweg: AlphaFold und andere KIs zur Vorhersage von Proteinstrukturen sind extrem beeindruckend. Die dreidimensionale Struktur von Proteinen ist kompliziert, und eine Möglichkeit, sie verlässlich vorherzusagen, war lange ein unerfüllbarer Traum. Aber wie verlässlich sind diese KIs wirklich? Wie funktioniert das? Und vor allem, für was brauchen wir diese Proteinstrukturen überhaupt?

Beschäftigen wir uns zuerst mit der letzten dieser Fragen: Wofür brauchen wir die Struktur von Proteinen? Im Prinzip ist es ganz einfach, denn die Struktur bestimmt bei Proteinen zum Großteil die Funktion.

Proteine bestehen aus Aminosäuren, die eine hinter der anderen aufgereiht sind. Davon gibt es – mit ein paar Ausnahmen – 20 Stück. Würden die alle nur in einer langen Kette aneinander hängen, wären die möglichen Fähigkeiten von Proteinen sehr begrenzt. Wenn wir uns aber echte Proteine anschauen, können die jedoch sehr, sehr viel. Sie können als Enzyme biochemische Reaktionen katalysieren, sie können als Rezeptoren Botenstoffe erkennen, sie können als Transporter Stoffe über Zellmembranen transportieren und sie können Festigkeit und Halt geben – denkt da nur an eure Nägel.

Diese Fähigkeiten von Proteinen entstehen dadurch, dass ihre 3D-Struktur die richtigen Aminosäuren an die richtige Stelle bringt. Dort können sie dann miteinander und ihrer Umgebung interagieren und beispielsweise eine Bindetasche für andere Moleküle bilden.

Wenn wir also verstehen wollen, wie Proteine funktionieren – und das müssen wir vor allem auch, weil darauf die meisten unserer Arzneimittel basieren – müssen wir ihre Struktur verstehen.

Was ist AlphaFold 3?

Kommen wir jetzt zum „Star“ dieses Textes – AlphaFold. AlphaFold ist ein KI-Werkzeug zur a priori Vorhersage von Proteinstrukturen (seit AlphaFold 3 werden aber auch andere Biomoleküle wie z.B. DNA besser unterstützt). Aus der Aminosäure-Sequenz eines beliebigen Proteins kann also dessen Struktur vorhergesagt werden.

**Überlagerung einer experimentellen Struktur (blau) des Proteins Albumin und Vorhersage von AlphaFold3 (gelb). Vorhersage und experimentelle Struktur stimmen ziemlich gut überein.** (Struktur: PDB 1AO6, 10.1093/protein/12.6.439)

Diese Struktur kann dann zum Beispiel zur Entwicklung neuer Arzneistoffe verwendet werden. Denn gerade dafür braucht man oft ein genaues Bild davon, wie der Wirkstoff an das Protein bindet und mit welchen Aminosäuren er dort interagiert. Und man muss wirklich zugeben, dass AlphaFold erstaunlich gut ist. Wie schon gesagt ist die dreidimensionale Struktur von Proteinen eine komplizierte Angelegenheit und bei vielen Proteinen stimmen die Vorhersage und die experimentell bestimmte Struktur sehr gut überein. Allerdings ist AlphaFold lange nicht perfekt, auch nicht seit AlphaFold 3. Genauso wie es bestimmte Stärken hat, hat es auch Schwächen, die meiner Einschätzung nach sehr schwierig zu überwinden sein werden. Vieles davon wird in diesem Paper von 2023 schön zusammengefasst.

Unerwartetes entdecken

Einer der Hauptgründe, weshalb AlphaFold so gut ist, ist die Qualität der Trainingsdaten. Wie ChatGPT zum Beispiel ist AlphaFold auch ein sogenanntes large language model, also eigentlich ein Sprachmodell. Nur ist die Sprache, die AlphaFold spricht, eben keine Menschliche, sondern die „Sprache“ der Aminosäuren. Aber genau wie bei ChatGPT, das mit einer Unzahl von Texten trainiert wurde, braucht auch AlphaFold Trainingsdaten. Und hier hatten die Entwickler:innen enormes Glück, denn es existieren sehr viele, sehr gute experimentell bestimmte Proteinstrukturen, die frei zugänglich sind. Ohne diese Daten, die in Jahrzehnten strukturbiologischer Arbeit gewonnen wurden, wäre AlphaFold nicht möglich gewesen.

Das führt allerdings auch dazu, dass AlphaFold Schwierigkeiten damit hat, Unbekanntes oder Unerwartetes zu entdecken – es funktioniert ja auch durch den Vergleich mit bekannten Strukturen. Eine der großen Stärken experimenteller Methoden, solche unerwarteten Strukturmotive, Cofaktoren, Ionen oder Modifikationen zu entdecken ist damit eine der Schwächen AlphaFolds. Und die eigentlich unerwarteten Dinge sind eben oftmals die interessantesten.

Flexible Proteine sind ein Problem

Besonders gut sind die Vorhersagen von AlphaFold bei Proteinen (oder Teilen von Proteinen), die eine sehr stabile und gut definierte Struktur haben – so wie Helices und β-Faltblätter, für diejenigen von euch, die sich auskennen. Aber 30 % aller (eukaryotischer) Proteine besitzen Regionen, die man als intrinsically disordered bezeichnet und die im Prinzip gar keine festgelegte Struktur besitzen. Einige Protein sind sogar komplett intrinsically disordered und besitzen kaum stabile Strukturmotive. Solche flexiblen Proteine und Regionen bereiten der Strukturbiologie seit jeher Probleme, sei es experimentell oder via KI.

Vorhersage der Struktur des M2-Acetylcholinrezeptors. Die Farben stellen die Zuverlässigkeit der Vorhersage dar: blau – sehr hoch, hellblau – hoch, gelb – niedrig, orange – sehr niedrig. Die Zuverlässigkeit ist vor allem in gut strukturierten Bereichen hoch, während sie in flexiblen Bereichen niedrig bis sehr niedrig ist.

Es ist aber auch möglich, dass sich aus einer flexiblen Region kurzzeitig eine stabile Konformation (so werden definierte Proteinstrukturen auch bezeichnet) ergibt. Solche induzierten Konformationen entstehen häufig durch Wechselwirkungen mit z.B. anderen Proteinen. AlphaFold trifft seine Vorhersagen rein aus der Aminosäuresequenz eines Proteins und „weiß“ nichts über dessen physikochemische Eigenschaften. Es kann also auch nicht vorhersagen, welche Auswirkungen solche Wechselwirkungen auf die Struktur eines Proteins haben und erkennt die induzierte Konformation möglicherweise nicht.

Proteine sind ständig in Bewegung

Worauf physikochemische Wechselwirkungen noch einen großen Einfluss haben ist die Bewegung – die Dynamik – eines Proteins. AlphaFold liefert statische Bilder einer Proteinstruktur, aber eigentlich sind Proteine ständig in Bewegung und wechseln zwischen unterschiedlichen Konformationen hin und her. Das ist zum Beispiel der Fall, wenn ein Signalmolekül an ein Rezeptorprotein bindet; um dieses Signal weiterzuleiten muss der Rezeptor seine Struktur etwas verändern. Solche Unterschiede zwischen aktiver und inaktiver Form eines Proteins stellen für die Vorhersage der Struktur immer noch ein Problem dar und häufig erhält man eine Mischung aus beiden Möglichkeiten.

Überlagerung eines Proteinkomplex aus Vasopressin-Rezeptor 2 und beta-Arrestin 1 – beide Proteine sollten in einer aktiven Konformation sein. Die experimentell bestimmte Rezeptor-Struktur ist blau, die Vorhersage von AlphaFold 3 ist orange. Beide Arrestin-Strukturen sind grau. (Struktur: PDB 7R0C, 10.1126/sciadv.abo7761)

Details aus obiger Überlagerung, bei denen die Interaktionen zwischen den beiden Proteinen in experimenteller Struktur und Vorhersage nicht übereinstimmen

Auch andere Prozesse können dafür sorgen, dass Proteine ihre Struktur verändern. Posttranslationale Modifikationen – das „Dekorieren“ mit bestimmten chemischen Gruppen, nachdem die Aminosäuresequenz fertig ist gehört dazu, oder auch der pH-Wert. In bestimmten Bereichen einer Zelle herrschen andere pH-Werte und beeinflussen das Verhalten von Proteinen. Das kann AlphaFold jedoch auch nicht in jede seiner Vorhersage mit einkalkulieren.

(Not So) Open Science

Eine andere Sache, die ich an AlphaFold bedenklich finde, hat nichts mit dem Programm an sich zu tun, sondern mit den Unternehmen, die dahinter stehen. Wie Retraction Watch berichtet, haben Google und dessen Tochterunternehmen Deep Mind den Code (und die Trainingsdaten) von AlphaFold 3 nicht öffentlich gemacht – nicht einmal den Reviewern des Papers, das über die neue AlphaFold-Version berichtet. Es gibt zwar den AlphaFold-Server, den man für Simulationen mit AlphaFold 3 nutzen kann, allerdings nur für eine begrenzte Zahl an Aufträgen pro Tag und nicht für alle Vorhersagen, die es kann – oder können sollte.

Das macht es nicht nur unmöglich, die Angaben über die Leistungsfähigkeit des Programms genau zu überprüfen, sondern widerspricht auch den Grundsätzen guter Wissenschaft. Daten und Code sollten für die Wissenschafts-Community zugänglich sein, um die Forschung möglichst weit voran zu bringen und Ergebnisse überprüf- und replizierbar zu machen.

Fazit: Was kann AlphaFold?

Das Ganze liest sich jetzt möglicherweise, als wäre ich kein allzu großer Fan von KI-Werkzeugen zur Vorhersage von Proteinstrukturen. Aber dem ist eigentlich nicht so – man muss sie nur als das betrachten, was sie sind. Nämlich Werkzeuge, mit ihren eigenen Einsatzgebieten, Stärken, Schwächen und Limitationen.

Ich wollte mit diesem Text einen eher kritischen Blick auf AlphaFold und Co. werfen, vor allem nach der extrem lobenden Berichterstattung der letzten Tage. Denn so gut AlphaFold auch ist – und es ist sehr gut – wird es nicht die experimentelle Strukturbiologie überflüssig machen oder uns im Rekordtempo einen neuen Arzneistoff nach dem anderen entwickeln lassen. Tatsächlich funktionieren AlphaFold-Vorhersagen für die Entwicklung neuer Arzneistoffe schlechter als solche, die auf experimentellen Daten basieren.

Stattdessen muss es sinnvoll in Arbeitsabläufe eingebunden werden. Seine Geschwindigkeit und Einfachheit muss verwendet werden, wenn sich aufwändige Experimente nicht lohnen. Experimente hingegen sind immer noch nötig, um neue und unerwartete Dinge zu entdecken – und um Vorhersagen überprüfen zu können. Aber richtig angewendet sind AlphaFold und Co. auf jeden Fall Werkzeuge, die in den Werkzeugkasten der Wissenschaft gehören und die anderen Werkzeuge darin gut ergänzen können.

Wenn euch dieser Text gefallen hast, abonniert doch gerne meinen Newsletter, um keinen neuen Beitrag mehr zu verpassen!

AlphaFold – Was kann die „Wunder-KI“ wirklich?