Molekulares maschinelles Lernen

Wie Enzyme funktionieren: KI-Modell sagt Reaktionen aus Struktur voraus

27. März 2025

Eine präzise Vorhersage der Enzymfunktion ist entscheidend für die Entwicklung biobasierter, nachhaltiger Prozesse und die genaue Interpretation von Genomdaten. Ein interdisziplinäres Forschungsteam vom Forschungszentrum Jülich, der Heinrich-Heine-Universität Düsseldorf und Helmholtz AI am Helmholtz München hat jetzt ein neues KI-Modell entwickelt: TopEC kann aus der Struktur von Enzymen deren chemische Reaktionen ableiten und so ihre Funktion vorhersagen.

Proteine sind die Grundlage allen zellulären Lebens. Seit der ersten Aufklärung einer Proteinstruktur im Jahr 1958 ist das Wissen über ihre dreidimensionale Struktur für das Verständnis der Molekularbiologie von entscheidender Bedeutung, insbesondere auch für Anwendungen in der Biomedizin und Biotechnologie. Die Form eines Proteins entsteht durch spezifische Wechselwirkungen zwischen Atomen und deren räumliche Beziehung. Diese räumlichen Beziehungen und chemischen Wechselwirkungen mit Bindungspartnern bestimmen die spezifisches Funktion des Proteins.

Neue Entwicklungen bei der Vorhersage von Proteinstrukturen haben dazu geführt, dass auch Enzymstrukturen heute deutlich besser vorhergesagt werden können. Dadurch sind große Datenbanken mit solchen Strukturmodellen entstanden. Trotzdem liegt für nur rund 60 Prozent aller bekannten Enzymfunktionen ein entsprechendes Strukturmodell vor – das zeigt eine aktuelle Datenbank TopEnzyme der Forschungsgruppe von Holger Gohlke am Jülicher Institut für Bioinformatik und der Heinrich-Heine-Universität Düsseldorf. Die genaue Bestimmung der molekularen Funktion eines Enzyms anhand seiner (vorhergesagten) Struktur bleibt daher weiterhin eine große Herausforderung.

Die experimentelle Bestimmung von Enzymfunktionen ist aufwendig und zeitintensiv – vor allem angesichts der riesigen Zahl bekannter Proteinsequenzen. Zudem lässt sich die tatsächliche Funktion eines Enzyms oft nicht direkt aus seiner Faltung ableiten. Hinzu kommt: In vielen Datenbanken sind fehlerhafte Funktionszuweisungen hinterlegt.

Rechnergestützte Methoden, die direkt auf der Enzymstruktur basieren, können hier Abhilfe schaffen. Sie ermöglichen eine automatisierte und skalierbare Funktionsvorhersage im Hochdurchsatzverfahren – und leisten damit einen wichtigen Beitrag zur besseren Annotation biologischer Daten.

Molekulares maschinelles Lernen
Die Proteinstruktur wird in ein neuronales Netzwerk eingegeben, das daraus einen lokalen 3D-Deskriptor erzeugt – entweder basierend auf den Rückständen oder auf allen Atomen des Proteins.
Karel van der Weg, CC-BY 4.0

Das Forschungsteam um Holger Gohlke hat gemeinsam mit KI-Expertinnen und -Experten von Helmholtz AI am Helmholtz München auf Grundlage der TopEnzyme-Datenbank das maschinelle Lernmodell TopEC entwickelt. Es basiert auf einem 3D-Graph-Neuronalen-Netzwerk, das chemische Reaktionen aus der dreidimensionalen Struktur von Enzymen „erlernt“. Damit kann es sogenannte EC-Nummern vorhersagen – ein Klassifikationssystem, das Enzyme nach den Reaktionen einteilt, die sie katalysieren.

Für die Entwicklung und das Training des Modells nutzte das Team Rechenzeit auf dem Supercomputer JUWELS am Jülich Supercomputing Centre, bereitgestellt durch das John von Neumann-Institut für Computing (NIC). Die Arbeiten wurden im Rahmen des HDS-LEE-Graduiertenkollegs gefördert, aus dem auch Erstautor Karel van der Weg stammt.

Ein besonderer Fortschritt: TopEC bezieht neben der Enzymstruktur auch geometrische Informationen wie Abstände und Winkel zwischen Atomen ein. Dadurch konnte die Genauigkeit bei der Vorhersage von Enzymfunktionen im Vergleich zu herkömmlichen Methoden deutlich gesteigert werden. Das Modell ist zudem robust gegenüber Unsicherheiten bei der Position von Bindungsstellen und erkennt funktionelle Ähnlichkeiten auch bei strukturellen Unterschieden.

TopEC bietet eine vielversprechende Alternative zur klassischen Funktionsvorhersage von Enzymen – insbesondere, weil es chemische Zusammenhänge auf struktureller Ebene berücksichtigt“, erklärt Holger Gohlke.

Ein möglicher Einsatz: Die gezielte Suche nach neuen Enzymen. Mit Hilfe von TopEC lassen sich in silico (also rein rechnergestützt) neue Enzymvarianten identifizieren – zum Beispiel im Rahmen der gerichteten Evolution, bei der gezielt neue Enzymfunktionen erzeugt werden. Gerade im Kontext der nachhaltigen Biotechnologie eröffnet das neue Perspektiven.

Die Herausforderung: Es gibt bereits über 30 Millionen Enzyme mit vorhergesagten Funktionen – meist basierend auf Sequenzvergleichen. Die tatsächliche Fehlerquote dieser Vorhersagen ist jedoch weitgehend unbekannt. Mit der wachsenden Zahl an automatisch generierten Strukturmodellen, etwa durch AlphaFold, kann TopEC künftig helfen, diese Daten zu verfeinern. In einem Folgeprojekt wollen Gohlke und sein Team das Potenzial dieser Methode nun systematisch untersuchen.

Helmholtz School for Data Science in Life, Energy, and Earth (HDS-LEE) / Helmholtz AI

Die HDS-LEE Graduate School ist eine internationale englischsprachige Graduiertenschule, die sich an exzellente Graduierte in Mathematik, Informatik, Naturwissenschaften und Ingenieurwesen richtet, die die Entwicklung datenwissenschaftlicher Methoden verbessern und modernste datenwissenschaftliche Technologien zur Lösung anspruchsvoller wissenschaftlicher Probleme einsetzen wollen.

Helmholtz AI ist eine anwendungsorientierte Plattform für künstliche Intelligenz, die die Wissenschaft in der gesamten Helmholtz-Gemeinschaft beschleunigt. Sie ermöglicht die Entwicklung und Umsetzung von KI-Lösungen, fördert die Zusammenarbeit und stellt den Zugang zu Ressourcen und Fachwissen sicher.

Originalpublication: TopEC: prediction of Enzyme Commission classes by 3D graph neural networks and localized 3D protein descriptor, by van der Weg, K., Merdivan, E., Piraud, M., Gohlke, H. Nature Commun. 2025, 16, 2737. DOI: 10.1038/s41467-025-57324-5

Ansprechpartner:innen

  • Institut für Bio- und Geowissenschaften (IBG)
  • Bioinformatik (IBG-4)
Gebäude 14.6y /
Raum 4040
+49 2461/61-85550
E-Mail

Dr. Regine Panknin

Pressereferentin

    Gebäude 15.3 /
    Raum R 3028
    +49 2461/61-9054
    E-Mail

    Letzte Änderung: 28.03.2025