Einzelprojekt

DeepCurate – Entwicklung eines Tools zur Unterstützung der Kuratierung von Text- und Biodaten durch multimodales Deep Learning

Förderkennzeichen: 031L0204
Fördersumme: 642.000 EUR
Förderzeitraum: 2020 - 2022
Projektleitung: PD Dr. Wolfgang Müller
Adresse: HITS gGmbH - Abteilung Scientific Databases and Visualization (SDBV)
Schloß-Wolfsbrunnenweg 35
69118 Heidelberg

Das Einzelprojekt DeepCurate beschäftigt sich mit der Entwicklung eines intelligenten Systems zur Kuratierung experimenteller Daten aus biochemischen Reaktionen sowie deren reaktionskinetische Eigenschaften. Der größte Teil dieser Daten wird in der herkömmlichen Fachliteratur publiziert, wo die Daten zwar für die menschliche Lektüre optimiert, aber gar nicht oder nur punktuell – etwa in Tabellenform – strukturiert sind. Die Extraktion und Kuratierung all dieser Daten erfolgt derzeit manuell, was sehr arbeits- und zeitaufwändig ist. Bereits bestehende Methoden der automatischen Sprachverarbeitung verfügen noch nicht über die Robustheit, Abdeckung und Effektivität, um die Daten in der erforderlichen Qualität zu extrahieren.

Hier setzt DeepCurate an: Auf Basis eines bereits vorhandenen komplexen und strukturierten Workflows soll ein neues System entwickelt werden, das die menschlichen Expertinnen und Experten, die die Daten auslesen, intelligent unterstützt. Das neue System soll die kognitive Belastung während der Bearbeitung verringern, triviale Teilaufgaben wie beispielsweise die Suche automatisieren und dadurch die Effektivität und Effizienz der manuellen Kuratierung steigern. Es ist geplant, mithilfe von Deep-Learning-Methoden Textdaten, Bilddaten (wie farbkodierte, gescannte Publikationen) und Blickbewegungsdaten zu integrieren. Die Forschungsergebnisse sollen regelmäßig in wissenschaftlichen Fachzeitschriften publiziert und auf internationalen Fachkonferenzen vorgestellt werden.