In der modernen Krebsforschung fallen immer umfangreichere Datensätze an (Big Data). Die Daten stammen aus molekularen und biochemischen Analysen, modernen Bildgebungsverfahren, klinischen Studien oder bilden Krankheitsverläufe von Patientinnen und Patienten ab. Diese Datenschätze gilt es in Zukunft zu heben. Neue computergestützte Ansätze der Datennutzung, modernste Methoden der Künstlichen Intelligenz, des Maschinellen Lernens und der Statistik haben einen hohen Stellenwert für die verbesserte Analyse und Extraktion forschungsrelevanter Informationen. Mit dieser Förderrichtlinie im Rahmen der Nationalen Dekade gegen Krebs beabsichtigt das BMBF Forschungsgruppen aus dem Bereich der Datenanalyse einen niederschwelligen Zugang zu hochqualitativen Daten aus der translationalen, biomedizinischen Krebsforschung und der onkologischen Routineversorgung zu ermöglichen. Zeitgleich arbeiten Forschende aus den Bereichen der Datengewinnung und Datenanalyse eng zusammen, um miteinander klinisch relevante onkologische Fragen anzugehen. Darüber hinaus soll die Kultur des Datenteilens für Forschungszwecke gefördert werden.
In dem Projekt HANCOCK wird ein umfassender, multimodaler Datensatz, genannt HANCOCK, bereitgestellt, der harmonisierte, retrospektive, reale Patientendaten aus dem Bereich der Kopf-Hals-Tumore enthält, die in den letzten Jahrzehnten an einem der größten Kopf-Hals-Zentren in Deutschland gesammelt wurden. In HANCOCK wird sich auf vier Datenströme konzentriert: (1) klinische Berichte mit demografischen Daten und Freitext, (2) Daten aus Blutproben, (3) gefärbte histopathologische Tumorschnitte und (4) gezielte Färbung von Tumorgewebeproben für spezifische Immunzellpopulationen. Alle erforderlichen Daten sind vollumfänglich vorhanden und werden von Expertinnen und Experten annotiert und einer Qualitätskontrolle unterzogen. Der HANCOCK-Datensatz wird einen langfristigen und großen Einfluss auf die Kategorisierung, Diagnose und die Auswahl einer präzisen individualisierten Krebstherapie haben, da ein umfassender und realer Datensatz zur Verfügung gestellt wird, der für die Erforschung, Validierung und Erstellung prädiktiver Biomarker ideal geeignet ist.