FDM in der Physik
Die physikbezogene Forschung generiert eine Vielzahl unterschiedlicher Datentypen. Dazu gehören unter anderem sehr große Mengen an Mess- und Simulationsdaten in Form von Zeitreihenaufzeichnungen, mehrdimensionalen Bildstapeln, Spektralscans und numerischen Modellausgaben. Diese Daten werden mit verschiedenen Methoden unter Verwendung von Sensoren, Laborinstrumenten oder Hochleistungsrechnercodes erfasst. In diesem Zusammenhang stellen Forschende Rohdateien zusammen, zeichnen Versuchsbedingungen (z. B. Temperatur, Druck, Kalibrierungseinstellungen) oder Simulationsparameter auf und kuratieren Metadaten zum Erfassen der Herkunft der Daten. Dabei verarbeiten sie Workflows und Qualitätsmetriken.
Ein effektives Forschungsdatenmanagement (FDM) in der Physik basiert auf standardisierten Datenformaten (HDF5, CSV, JSON, NetCDF, NeXus, CIF), Versionskontrollsystemen (Git), elektronischen Laborbüchern (ELN) und umfangreichen Metadaten, um die FAIR-Prinzipien (auffindbar, zugänglich, interoperabel, wiederverwendbar) umzusetzen. Viele dieser Praktiken überschneiden sich mit denen benachbarter Disziplinen wie den Ingenieurwissenschaften, den Geowissenschaften oder der Informatik und ermöglichen so eine interdisziplinäre Zusammenarbeit durch gemeinsame Tools, Workflows und Community-Standards.
Eine Reihe von Konsortien der Nationalen Forschungsdateninfrastruktur (NFDI) bieten FDM-Dienste in physikbezogenen Bereichen an: FAIRmat entwickelt und unterhält eine FAIRe Dateninfrastruktur für die Physik der kondensierten Materie und die chemische Physik von Festkörpern. Der Discord-Server des Konsortiums verfügt über mehrere thematische Kanäle und ermöglicht so einen niedrigschwelligen Austausch mit Expert*innen, Entwickler*innen und der Community, um Fragen oder Probleme im Zusammenhang mit FDM und den Diensten des Konsortiums zu besprechen. Darüber hinaus konzentriert sich DAPHNE4NFDI auf die Forschung mit Photonen und Neutronen in großen Forschungseinrichtungen; PUNCH4NFDI bedient die Bereiche Teilchen-, Astro-, Astroteilchen-, Hadronen- und Kernphysik.
Aufgrund der oben genannten Vielfalt der Methoden in der physikalischen Forschung ist es nicht möglich, jede Arbeitspraxis und die damit verbundenen Datentypen einzeln zu behandeln. Im Folgenden stellen wir eine Reihe von Angeboten und Dienstleistungen im Bereich des physikbezogenen Forschungsdatenmanagements vor. Vermissen Sie ein Angebot? Sind Sie der Meinung, dass bestimmte Zusammenhänge nicht korrekt dargestellt sind, oder haben Sie Fragen? Wir freuen uns auf Ihre E-Mail.
Informieren und Planen
FAIRmat hat einen Leitfaden zum Verfassen eines Datenmanagementplans erstellt, um Forschende dabei zu unterstützen, die Anforderungen der Deutschen Forschungsgemeinschaft (DFG) bei der Einreichung von Anträgen für Einzel- und Verbundprojekte zu erfüllen.
Top 10 FAIR Data & Software Things Astronomy ist ein kurzer Selbstlernleitfaden, der Forschenden zeigen soll, wie sie ihre Forschung (Daten und Software) FAIR-konformer gestalten können.
Organisieren und Aufbereiten
Das Kernangebot von FAIRmat ist NOMAD – ein webbasiertes Ökosystem zum Forschungsdatenmanagement. Forschende können NOMAD nutzen, um materialwissenschaftliche Daten zu organisieren, zu analysieren, zu teilen und zu veröffentlichen sowie die von anderen geteilten Daten zu erkunden, herunterzuladen und zu analysieren. In diesem Sinne geht NOMAD über die einfache Dateifreigabe hinaus – es ermöglicht einen echten Datenaustausch im Sinne der FAIR-Prinzipien. Alle Daten in NOMAD sind nach formalen Schemata strukturiert, die Konsistenz und Interoperabilität gewährleisten.
Das elektronische Laborbuch von NOMAD ermöglicht es Forschenden, ihre Experimente zu organisieren und zu verwalten, indem sie strukturierte Aufzeichnungen von Proben, Verarbeitungsschritten, Messungen und Analysen erstellen. Es bietet Wissenschaftler*innen durchsuchbare Aufzeichnungen, auf die von jedem Gerät aus zugegriffen werden kann, und ermöglicht so eine effizientere Datenintegration, eine verbesserte Zusammenarbeit und eine robuste Forschungsdokumentation. NOMAD bietet integrierte Vorlagen für verschiedene ELN-Datensatztypen, die direkt in der grafischen Benutzeroberfläche (GUI) verwendet werden können, während Benutzende gleichzeitig benutzerdefinierte ELN-Vorlagen erstellen können, indem sie Schemadateien mit YAML oder Python schreiben.
Mit NOMAD CAMELS (Configurable Application for Measurements, Experiments and Laboratory Systems) können Wissenschaftler*innen ihre Forschungsideen innerhalb weniger Minuten in Mess- und Prozessprotokolle zu übersetzen. Es unterstützt die Kommunikation zwischen Geräten ohne Programmierkenntnisse, erhöht die Produktivität und Flexibilität und erzeugt FAIRe Daten. NOMAD CAMELS ist ideal für Forschende, die die volle Kontrolle über ihre Experimente und die Speicherung komplexer Daten und Metadaten wünschen, ohne sich mit komplexer Geräteverwaltung befassen zu müssen. Jede*r kann neue Instrumente implementieren und sie mit der Community teilen. Da CAMELS sich um die Speicherung aller verfügbaren Metadaten kümmert, können mit nur wenigen Klicks verständliche Messdaten mit Kolleg*innen und anderen Forschenden geteilt werden. Mehr über den Service erfahren Sie in der Medienkampagne von FAIRmat.
Der multidimensionale Rasterserver rasdaman (raster data manager) unterstützt alle Institutionen, die große Mengen an Rasterdaten haben. Das Tool kann sowohl innerhalb von Institutionen als auch extern über öffentlich zugängliche Dienste genutzt werden. rasdaman erleichtert Datenanbietenden die konsistente Eingabe, Harmonisierung und Verwaltung von räumlich-zeitlichen großen Daten. Darüber hinaus bietet es ein standardkonformes Spektrum an Diensten für den Zugriff, die Extraktion, die Umformatierung, die Verarbeitung, die Filterung und die Fusion.
Beschreiben und Dokumentieren
NOMAD Metainfo ist ein standardisiertes Datenschema, das definiert, wie Forschungsdaten in NOMAD hierarchisch strukturiert und miteinander verknüpft werden können. Es bietet eine allgemeine, domänenunabhängige Superstruktur sowie sehr detaillierte, spezialisierte Beschreibungen, die von allgemeinen Materialeigenschaften bis hin zu domänenspezifischen Fällen wie heterogenen metallorganischen Gerüsten und Perowskit-Solarzellen reichen. Darüber hinaus deckt es Parameter aus verschiedenen Berechnungsmethoden, Charakterisierungstechniken und Materialverarbeitungsmethoden ab und gewährleistet so eine umfassende Abdeckung über den gesamten Datenlebenszyklus hinweg.
Die Strategie von FAIRmat besteht darin, Konverter bereitzustellen und alle Standards zu unterstützen, die in der Community bereits anerkannt sind. Durch die Integration der jeweiligen Begriffe dieser Standards und die entsprechende Zuordnung der Daten kann das Konsortium NOMAD Metainfo mit einer wachsenden Anzahl etablierter Formate und Begriffe in Einklang bringen. So unterstützt es beispielsweise nun das NeXus-Vokabular; darüber hinaus können die in Metainfo hochgeladenen Daten über die OPTIMADE-API abgerufen werden. Außerdem sind die Begriffe von NOMAD Metainfo mit neuen Standardformaten und Vokabularen (z. B. Voc4Cat, TFSCO, eln) verknüpft.
Um Daten zu verknüpfen, die im Rahmen von Synthesevorgängen oder komplexen Simulationen erfasst werden, hat FAIRmat ein Workflow-Modell entwickelt, das speziell auf Forschende zugeschnitten ist, die mit solchen Daten arbeiten. Dieses Modell basiert auf den Prinzipien der Basic Formal Ontology (BFO) und unterscheidet zwischen Entitäten wie Proben und Instrumenten sowie Aktivitäten wie Synthesevorgängen, Messungen, Simulationen oder Analysen. FAIRmat kann nun komplexe Workflows mit detaillierten Nachverfolgungsmaßnahmen erstellen, die sich auf die Historie von Proben, die Verwendung von Instrumenten, Kombinationen theoretischer Ansätze und sogar die Kombination experimenteller und theoretischer Methoden in einer Analyse beziehen. Darüber hinaus bereichert das Modell durch die Anbindung an Referenzdatenbanken wie PubChem die Versuchsdaten mit kuratierten externen Daten. Durch die Einhaltung der BFO gewährleistet das Modell ontologische Stringenz und Interoperabilität mit anderen Systemen, die dasselbe Rahmenwerk verwenden.
Speichern und Rechnen
Da alle Daten in NOMAD einheitlich strukturiert sind, können Forschende vorhandene Tools verwenden oder eigene entwickeln, um Daten aus verschiedenen Quellen zu analysieren. Mit dem NOMAD Remote Tools Hun (NORTH) können Benutzende containerisierte Tools und Jupyter-Notebooks direkt auf ihren Daten ausführen. Forschende können:
- JupyterLab verwenden, um auf in NOMAD gespeicherte Dateien zuzugreifen und diese zu bearbeiten,
- vordefinierte Notebooks für maschinelles Lernen mit dem AI Toolkit ausführen und
- über die API programmgesteuert auf Daten zugreifen.
Veröffentlichen und Archivieren
Die Veröffentlichung von Forschungsdaten ist ein wesentlicher Bestandteil von Open Science und trägt dazu bei, Forschungsprozesse transparenter zu gestalten. In diesem Sinne verlangen Forschungsförderer und Fachzeitschriften zunehmend, dass Forschungsdaten veröffentlicht werden, die im Rahmen der von ihnen geförderten Forschung generiert wurden oder den von ihnen veröffentlichten Artikeln zugrunde liegen.
Es gibt eine Reihe von fachspezifischen Forschungsdatenrepositorien, die zur Veröffentlichung von forschungsbezogenen Daten aus der Physik genutzt werden können. Eine Übersicht über fachspezifische sowie institutionelle Datenrepositorien finden Sie auf re3data.
- Übersicht: Repositorien im Bereich der Physik
- Teilgebiet Physik der kondensierten Materie
- Teilgebiete Statistische Physik, Nichtlineare Dynamik, Komplexe Systeme, Weiche und fluide Materie, Biologische Physik
- Teilgebiete Optik, Quantenoptik und Physik von Atomen, Molekülen und Plasmen
- Teilgebiete Teilchen, Kerne und Felder
- Teilgebiete Astrophysik und Astronomie
Der zentrale NOMAD-Dienst ist eine Webanwendung, mit der Benutzende sowohl Daten teilen als auch nutzen können. Er dient als dateibasiertes Repositorium und umfasst eine Datenbankkomponente zum Hochladen und Abrufen von Dateien. Sie wird durch eine Speicherkomponente und eine Kurationskomponente unterstützt, die es Benutzenden ermöglichen, Datensätze aus Dateien mit Metadaten zu erstellen. Außerdem bietet NOMAD Komponenten zur Pflege strukturierter Daten, die aus hochgeladenen Dateien abgeleitet werden. Dazu gehören eine Workflow-Komponente, die alle Daten verarbeitet und miteinander verknüpft, sowie eine Komponente für den Zugriff auf und das Herunterladen von verarbeiteten Daten, die durch eine Speicherkomponente unterstützt wird. Darüber hinaus kuratiert NOMAD strukturierte Daten automatisch zu kohärenten Einträgen.
FAIRmat verwendet relevante Standards für nicht domänenspezifische Metadaten. Beispielsweise enthält der von NOMAD ausgegebene Digital Object Identifier (DOI) einen Datensatz mit DataCite-Metadaten. Außerdem stellt das Konsortium eine API zur Verfügung, um Datensatzinformationen gemäß W3C DCAT2 abzurufen.
Neben Repositorien können Daten auch in Datenjournalen veröffentlicht werden. Fachspezifische Datenjournale in der Physik sind die Atomic Data and Nuclear Data Tables, die International Union of Crystallography Data, The Astrophysical Journal Supplement, das Journal of Physical and Chemical Reference Data oder Nuclear Data Sheets.
Finden und Nachnutzen
NOMAD ermöglicht es Communitys, zusammenzuarbeiten und von der Arbeit anderer zu profitieren. Es unterstützt eine neue Art der Forschung, die auf der Analyse der Ergebnisse anderer basiert, und verbessert die Analyse-Workflows durch die Verfügbarkeit von Referenzdaten. NOMAD ermöglicht die Erstellung spezieller Datenbanken mit spezifischen Suchschnittstellen und Datenpräsentationen. Solche domänenspezifischen Datenbanken, die vom zentralen NOMAD-Dienst bereitgestellt werden, ermöglichen es Forschenden, Daten für eine bestimmte Methode oder Anwendung zu nutzen, wiederzuverwenden und beizusteuern. FAIRmat hat Daten aus bestehenden Datenbanken integriert und völlig neue Datenbanken aufgebaut.
Rechte und Pflichten
Als Forscher*in ist es unerlässlich, sich der für Ihre Arbeit relevanten rechtlichen Aspekte bewusst zu sein, insbesondere wenn es um die Verbreitung Ihrer Ergebnisse oder die Verwendung von Daten und Ergebnissen aus anderen Studien geht. In diesem Zusammenhang hat FAIRmat einen Leitfaden zu rechtlichen Aspekte im Forschungsdatenmanagement erstellt, der sich auf praktische Ratschläge konzentriert, die auf die Bereiche der Physik der kondensierten Materie und der Materialwissenschaften in Deutschland zugeschnitten sind. Er bietet einen Überblick über die wichtigsten rechtlichen Aspekte, die für die verschiedenen Phasen des Datenlebenszyklus relevant sind: Planung, Erfassung, Analyse, Aufbewahrung, Weitergabe und Wiederverwendung.
Schulungsmaterialien
FAIRmat stellt auf seiner Webseite eine Reihe von Tutorials und deren Materialien zur Verfügung. Der YouTube-Kanal des Konsortiums enthält über 300 Videos und andere Schulungsressourcen.
Die NOMAD-Dokumentation umfasst mehrere Tutorials, Anleitungen und Erläuterungen.
Darüber hinaus sind die Publikationen, Benutzerhandbücher, Präsentationen, Poster und Newsletter des Konsortiums auf Zenodo verfügbar.
FAIRmat organisiert regelmäßig Seminare, Anwendertreffen und andere Präsenzveranstaltungen – Details finden Sie auf der Webseite.
Weiterführende Literatur
Artikel: „Umgang mit Forschungsdaten im Fachbereich Physik"
Autoren: Fachkollegien Physik
Jahr: 2023
Link zur DFG-Website
Zitiervorschlag (Chicago)
Redaktion von forschungsdaten.info. „Forschungsdatenmanagement in der Physik“. forschungsdaten.info, 17. Oktober 2025. Link.