Einzelprojekt

DeepPath – Deep learning based identification of pathogens from next generation sequencing data

Förderkennzeichen: 031L0248
Fördersumme: 255.728 EUR
Förderzeitraum: 2020 - 2023
Projektleitung: Prof. Dr. Bernhard Renard
Adresse: Hasso-Plattner-Institut für Digital Engineering gGmbH
Prof.-Dr.-Helmert-Str. 2-3
14482 Potsdam

Im Einzelprojekt DeepPath sollen Deep-Learning-Ansätze genutzt werden, um das pathogene Potenzial von Nukleotidsequenzen vorherzusagen. Ziel ist es, auf diese Weise schnell neue mikrobielle Krankheitserreger und Risiken aus synthetischen biologischen Experimenten zu erkennen. Dank immer effizienterer Analysetechniken wie dem sogenannten Next Generation Sequencing (NGS) können inzwischen Milliarden von kurzen DNA- oder RNA-Sequenzen innerhalb eines Tages produziert werden. Für ihre Auswertung stehen verschiedene Analyseprotokolle zur Verfügung, diese basieren bislang jedoch überwiegend auf dem Prinzip der Homologie-Suche und können nur Sequenzen mit Ähnlichkeiten zu bekannten Krankheitserregern zuordnen.

Hier setzt DeepPath an: Im Rahmen des Projekts sollen diese Einschränkungen durch die Entwicklung einer neuen Analyse-Software überwunden werden. Es ist geplant, künstliche neuronale Netze mit den großen Sammlungen von Krankheitserregern und Nicht-Pathogenen aus öffentlichen und internen Datenbanken (Repositorien) zu trainieren, die verschiedene Aspekte der Pathogenität und des Wirtsspektrums abdecken. Um auch Krankheitserreger entdecken zu können, für die es bislang keine großen Datenbanken gibt, sollen sogenannte Transfer-Lernmethoden zum Einsatz kommen. Mit diesen sollen bereits erstellte Netze übertragen werden. Die Analysen sollen zukünftig in Echtzeit bereits bei laufenden Sequenzierungen eingesetzt werden können, um bei zeitkritischen Analysen schnellstmöglich Krankheitserreger zu identifizieren. Es ist vorgesehen, die Ergebnisse nachvollziehbar und benutzerfreundlich – beispielsweise in Form von Graphiken – darzustellen. Die neu entwickelte Software wird es so künftig ermöglichen, die Erkennung unbekannter Pathogene in der modernen Versorgung deutlich zu beschleunigen.