In der modernen Krebsforschung fallen immer umfangreichere Datensätze an (Big Data). Die Daten stammen aus molekularen und biochemischen Analysen, modernen Bildgebungsverfahren, klinischen Studien oder bilden Krankheitsverläufe von Patientinnen und Patienten ab. Diese Datenschätze gilt es in Zukunft zu heben. Neue computergestützte Ansätze der Datennutzung, modernste Methoden der Künstlichen Intelligenz (KI), des Maschinellen Lernens und der Statistik haben einen hohen Stellenwert für die verbesserte Analyse und Extraktion forschungsrelevanter Informationen. Mit dieser Förderrichtlinie im Rahmen der Nationalen Dekade gegen Krebs beabsichtigt das BMBF Forschungsgruppen aus dem Bereich der Datenanalyse einen niederschwelligen Zugang zu hochqualitativen Daten aus der translationalen, biomedizinischen Krebsforschung und der onkologischen Routineversorgung zu ermöglichen. Zeitgleich arbeiten Forschende aus den Bereichen der Datengewinnung und Datenanalyse eng zusammen, um miteinander klinisch relevante onkologische Fragen anzugehen. Darüber hinaus soll die Kultur des Datenteilens für Forschungszwecke gefördert werden.
Das PROSurvival-Projekt zielt darauf ab, das Überleben von Patienten mit Prostatakrebs (PCa) präziser vorherzusagen. Langfristig soll ein umfassender, standortübergreifender, digitaler Datensatz von PCa-Proben generiert werden, um die gemeinschaftliche Entwicklung von KI für die Präzisionsmedizin bei PCa zu unterstützen. Bisherige Forschungsarbeiten haben gezeigt, dass für das Training von KI-Modellen Daten von mehreren Standorten erforderlich sind. Oft können diese jedoch aufgrund von Datenschutzbestimmungen nicht gemeinsam genutzt werden. Daher werden föderierte KI-Modelle entwickelt. Solche Modelle nutzen die Patientengeschichte und die klinischen Daten in Kombination mit öffentlich verfügbaren Daten. PROSurvival wird eine datenschutzkonforme föderierte Infrastruktur einrichten, um den Fundus an klinischen Routinedaten zu nutzen. Die Bilddaten sollen mithilfe von klinisch relevanten Musterinformationen verdichtet werden, was die Komplexität des Datensatzes reduzieren und die Analyse mit handelsüblicher Hardware erleichtern wird.