Forschungsdatenmanagement

Digitaler Datenschatz bringt Forschung voran

 

Numerische Messdaten, Bilder, Graphiken, Protokolle und Computerprogramme – die Wissenschaftler:innen des Exzellenzclusters ct.qmat erzeugen große Mengen an Forschungsdaten. Ein wertvolles Gut! Mit einem leistungsfähigen und systemoffenen Datenmanagement können wir diesen Datenschatz nachhaltig digital nutzbar sowie der Wissenschaftscommunity langfristig zugänglich machen. Dazu schaffen wir gemeinsam mit dem Rechenzentrum der Universität Würzburg (RZUW) ein System zum Management unserer Forschungsdaten, das den FAIR-Prinzipien folgt und somit grundsätzlichen Anforderungen an die moderne Datenhaltung in den Wissenschaften genügt (FAIR = Findable, Accessible, Interoperable, and Reusable data – auffindbare, zugängliche, interoperable und wiederverwendbare Daten).

 

Verteilt und gemeinschaftlich

 

Wir möchten die Idee eines „kollaborativen Datenmanagements" zum Leben erwecken. Das bedeutet, eine integrierte Plattform aufzubauen, die es den Forscher:innen des Exzellenzclusters ermöglicht, Forschungsdaten miteinander zu teilen, aufzubewahren, zu zitieren, zu analysieren sowie neue Erkenntnisse in den gespeicherten Daten zu entdecken. Dabei achten wir darauf, verschiedene Ansätze benutzerfreundlich einzubinden, um hardware- und herstellerunabhängig eine jahrzehntelange Zugänglichkeit zu sichern.

 

Ressourcen nutzen

 

Hierfür greifen wir auf vorhandene Ressourcen wie zum Beispiel Open-Source-Lösungen zurück – also Software, die einem transparenten, offenen und für jedermann zugänglichen Entwicklungsmodell folgt und somit auch angepasst und weiterentwickelt werden kann. Zudem vereinen wir etablierte Webdienste sowie aktuelle Speichertechnologien zu einem beim RZUW betriebenen System. All die genutzten Webdienste laufen im Hintergrund, um den Forscher:innen eine bequeme cloudartige Plattform für datengetriebene Prozesse – ein modernes „Data Mesh" – „aus einem Guss" zu bieten.

 

Moderne Infrastruktur

 

Um die Infrastruktur aufzubauen, setzen wir auf eine Kombination aus Kubernetes mit einem Object Store – eine Kombination, wie sie in den Rechenzentren von Amazon, Google und Microsoft zu finden ist.

 

Das Open-Source-Programm Kubernetes sowie das Kubernetes-Cluster kommen zum Einsatz, um die auf Servern in „Containern" laufenden Dienste zu verbinden, zu verwalten und zu steuern. Der Dienst prüft ebenfalls die Integrität der Ressourcen. Kubernetes ist anbieter- und hardwareunabhängig sowie flexibel erweiterbar.

 

Ein Object Store von Ceph sorgt mit einer Kapazität von 1.5 Petabyte (PB) für genug Speicher. Die moderne, objekt- bzw. paketbasierte Speicherlösung (Object Storage) nach dem AWS (Amazon Web Service) S3-(Simple Storage Service-)Standardzugangsprotokoll unterstützt das gesamte Verarbeitungskonzept. Vorteile sind unter anderem sichere redundante Speicherung, schneller Zugriff auf Grundlage des im World Wide Web (WWW) gängigen Hypertext-Übertragungsprotokolls (Hypertext Transfer Protocol HTTP bzw. HTTPS) sowie hohe Ausbau- bzw. Skalierbarkeit.

 

Etablierte Webdienste

 

Auf dieser Infrastruktur bauen nun die von uns genutzten Webdienste auf:

 

Der Cloud-Service JupyterHub und das assoziierte Projekt Binderhub (ebenfalls Open Source) dienen dazu, komplette Forschungsumgebungen inklusive genutzter Software und interaktiver Elemente reproduzierbar zu speichern. Per Link kann der Speicherort für andere Wissenschaftler:innen bzw. Mitarbeiter:innen freigegeben werden. Die in der Cloud bereitgestellte Computerumgebung lässt sich dann direkt im Browser ausführen. Es muss keine Software installiert werden, was kollaboratives Arbeiten erleichtert.

 

Bereits lange in Verwendung ist GitLab, ein spezielles Tool, das den numerisch arbeitenden Gruppen von ct.qmat eine Plattform zur kollaborativen Software-Entwicklung zur Verfügung stellt.

 

Das Novel Material Discovery (NOMAD) Laboratory ist ein Open Source Datenrepositorium zur strukturierten Archivierung und Veröffentlichung von Daten aus den Materialwissenschaften. Veröffentlichte Daten erhalten eindeutige, dauerhafte Adressen (Digital Object Identifier DOI) zum Zitieren und Teilen.

 

Zum automatischen Katalogisieren und Strukturieren von hinzugefügten Daten besitzt NOMAD das Konzept von Parsern, um die es dynamisch erweitert werden kann. Ein Parser ist ein Programm, das unsere Daten in ein brauchbares Format für die Weiterverarbeitung in NOMAD umwandelt. Zur Entwicklung neuer Parser für unsere Programme und Systeme steht ct.qmat in engem Kontakt mit den Entwicklern von NOMAD: dem Konsortium FAIRmat (FAIR Data Infrastructure for Condensed-Matter Physics and the Chemical Physics of Solids) der Nationalen Forschungsdateninfrastruktur NFDI.

 

Das Elektronische Laborbuch eLabFTW ist eine Open Source-Lösung zum digitalen Führen von Laborbüchern, Speichern und Timestamping von Messresultaten.

 

Um eine zeitgemäße und zugleich praktikable Datenhaltung sowie die Nutzung innerhalb der internationalen Wissenschaftscommunity zu gewährleisten, werden die verschiedenen Softwarelösungen am RZUW zu einer Einheit zusammengeführt. Nach der ersten Pilotinstallation in Würzburg ist eine weitere Umsetzung am ct.qmat-Standort Dresden mit spezifischen Anpassungen geplant.

 

Die genutzte Hardware ist Teil des Hochleistungsrechnersystems (High Performance Computing, HPC) „Julia" der Julius-Maximilians-Universität Würzburg (JMU) und steht allen ct.qmat-Mitgliedern offen.

 

Aktueller Stand und nächste Schritte

 

Die oben erörterte Infrastruktur läuft aktuell auf Systemen in Würzburg. Ab 2023 sollen diese Dienste weltweit zugänglich sein. Im Ergebnis soll eine in Deutschland einzigartige, leicht erreichbare und intelligente Datenmanagementplattform mit effizienten Suchwerkzeugen entstehen, mit deren Hilfe die Wissenschaftler:innen zwar geografisch verteilt, aber dennoch gemeinsam an den Forschungsdaten des Clusters arbeiten können.

 

Fragen zum Forschungsdatenmanagement von ct.qmat beantworten Jonas Schwab und Florian Goth.

Unsere Webseite verwendet Cookies und Google Analytics um dir das bestmögliche Nutzererlebnis zu garantieren. Mehr Infos erhältst du in unserer Datenschutzerklärung.