Metadaten und Metadatenstandards
Beschreiben hilft verstehen
Um die Qualität eines Datensatzes sowie dessen Nachnutzbarkeit zu steigern, sollten Forschungsdaten möglichst nachvollziehbar und vollständig dokumentiert werden.[1] Daten sind in der Regel nicht selbsterklärend, sondern benötigen zusätzliche Informationen, sogenannte Metadaten. Gut durchdachte und dokumentierte Metadaten spielen daher eine zentrale Rolle beim Finden, Verstehen und Nachnutzen von Forschungsdaten.
Je strukturierter die Metadaten vorliegen, desto einfacher können sie von Menschen und Maschinen nachvollzogen werden. Die Nutzung standardisierter Metadatenfelder und -werte hilft dabei, verschiedene Datensätze miteinander in Beziehung zu setzen und auch über Institutions-, Sprach- und Disziplingrenzen hinweg auffindbar und verständlich zu machen.
Die Dokumentation in strukturierten Textdateien, etwa sogenannten Readme-Files, zielt in der Regel darauf ab, anderen Forschenden einen Überblick über die Daten und ihren Kontext zu geben, sowie das Verständnis und die Nachnutzung der Daten zu erleichtern.
Welche Metadaten sind zu unterscheiden?
Metadaten im Forschungskontext enthalten strukturierte Informationen über den Forschungsprozess, das Projekt selbst und die Forschungsergebnisse. Sie werden mit den beschriebenen Daten gemeinsam abgespeichert oder verknüpft.
Verschiedene Arten von Metadaten erfüllen dabei unterschiedliche Funktionen:
- Bibliografische Metadaten wie Titel, Autor*innen, Beschreibung oder Keywords/Schlagworten ermöglichen die Zitation von Daten und Code und helfen bei der Auffindbarkeit und thematischen Eingrenzung. Sie sind verpflichtend für Vergabe einer DOI (Digital Object Identifier).
- Inhaltsbeschreibende bzw. deskriptive Metadaten können je nach Disziplin sehr unterschiedlich aufgebaut sein und geben zusätzliche Informationen zu Inhalt und Entstehung der Daten.
- Administrative Metadaten zu Dateitypen, Standorten, Zugriffsrechten und Lizenzen helfen bei der Verwaltung und langfristigen Erhaltung der Daten.
- Prozessmetadaten bzw. strukturelle Metadaten beschreiben die Schritte und Aktionen, die zur Entstehung und Verarbeitung der Daten angewendet wurden sowie die interne und externe Struktur der Daten. Ebenfalls enthalten sind Informationen zu den verwendeten Forschungsmethoden und Hilfsmitteln.
Während sich bibliografische und administrative Metadaten zumeist disziplinübergreifend standardisieren lassen, haben Metadaten zum Prozess und Inhalt von Forschungsergebnissen oft einen sehr fachspezifischen Aufbau und Inhalt. Gerade diese fachspezifischen Informationen sind entscheidend für die Auffindbarkeit und Nachvollziehbarkeit von Forschungsdaten. Entsprechend gibt es viele verschiedene Metadatenstandards, die eine Struktur für die relevanten Informationen in einem Bereich oder einer Fachdisziplin vorgeben.
Readme-Dateien
Es gibt verschiedene Wege, Metadaten zu strukturieren. Die einfachste und gängigste Form sind Readme-Dateien; gelegentlich finden allerdings auch sogenannte Data Description Templates Anwendung. Readme-Dateien sollten im .txt- oder .md-Format vorliegen und alle wichtigen Angaben rund um ein Forschungsprojekt in kompakter, strukturierter Form enthalten. Sie können auch zum Nachvollziehen von Versionierungen oder Benennungsstrukturen verwendet werden. In den meisten Fällen ist eine einzelne Readme-Datei für ein ganzes Projekt nicht ausreichend. Es empfiehlt sich, für jeden Projektordner oder teilweise für komplexe Dateien einzelne Readme-Dateien anzulegen. Diese sollten alle einheitlich formatiert und strukturiert sein, um untereinander intuitiv nachvollziehbar zu sein.
Metadatenstandards
Nicht immer reichen Readme-Dateien zur Dokumentation von Metadaten aus. Viele Daten sind zu komplex, um sie in diesen abzubilden. Außerdem werden Metadaten in strukturierter, maschinenlesbarer Form benötigt, um sie in Repositorien zur Veröffentlichung einzupflegen.
Besser ist es, zur Strukturierung der Metadaten auf Standards zurückzugreifen. Hierbei kann zwischen generischen und fach- bzw. disziplinspezifischen Standards unterschieden werden. Diese Standards geben vor, welche Information zu einem Datensatzes verpflichtend angegeben werden müssen (z. B. Autor*innen, Titel), welche Angaben empfohlen werden (z. B. Fachbereich, Beschreibung) und welche optional sind (z. B. Finanzierung, Nutzungsrechte). Teilweise kann auch festgelegt werden, in welcher Form die Daten erfasst werden sollen (z. B. Freitext oder nummerische Angabe).
Metadatenschemata helfen bei der technischen Umsetzung von Standards. Durch sie wird die Maschinenlesbarkeit von Metadaten gewährleistet. Die häufigsten Formate, die für ein Schema verwendet werden, sind XML oder JSON. Beide Formate haben eine semistrukturierte Syntax und sind hierarchisch gegliedert. Das bedeutet, sie haben kein starres Erscheinungsbild, sondern sind nur leicht strukturiert. Dabei bestehen sie zumeist aus Werte-Paaren bzw. Daten-Objekten, bei denen zu einem tag oder Schlüssel genau eine inhaltliche Ausprägung bzw. Wert der Metadaten definiert wird.
Ein weit verbreiteter generischer Standard für die bibliographische Beschreibung von Forschungsdaten ist DataCite. Er wird zur Registrierung von DOIs verwendet und enthält nur wenige Pflichtfelder. Meistens werden die in DataCite angegebenen Daten im XML-Format für die Maschinenlesbarkeit zur Verfügung gestellt.
Ein Standard für administrative Metadaten in der Langzeitarchivierung ist PREMIS. Mit Hilfe dieses Standards können Objekte in Beziehung zu Akteuren, Ereignissen und Rechten beschrieben werden.
METS (Metadata Encoding & Transmission Standard) ist dagegen ein Beispiel für ein Container-Standard, der eine Struktur von sieben Abschnitten vorgibt (Kopfteil, Erschließungsangaben, Verwaltungsangaben, Dateiabschnitt, Strukturbeschreibung, Strukturverknüpfung und Verhalten), für deren Inhalt dann jeweils unterschiedliche Metadatenstandards gewählt werden können.
Für fachspezifische Metadaten existiert eine Vielzahl von Standards. Eine Übersicht über existierende Standards geben der Metadata Standards Catalog der RDA und die Seite der RDA Metadata Standards Directory Working Group, FairSharing.org oder DDC (Digital Curation Centre). Weitere Informationen zu disziplinspezifischen Metadatenstandards finden Sie überdies im Bereich FDM nach Disziplinen.
Normdaten und kontrollierte Vokabulare – Einheitliche Metadaten
Während Metadatenstandards eine Struktur der Metadaten vorgeben und Metadatenschemata die Ausführung dieser, unterstützen Normdaten, Vokabulare und Terminologien bei der Standardisierung der Forschungsdaten selbst. Sie alle dienen dazu, Daten einheitlich zu dokumentieren, damit sie besser wiedergefunden werden können.
Vokabulare und Normdaten können dabei unterschiedlich stark semantisch angereichert sein. Es gibt (selbstangelegte) kontrollierte Wortlisten, die fehlerhafte oder unterschiedliche Schreibweisen von Konzepten vereinheitlichen; Taxonomien und Thesauri, welche Hierarchisierung wie auch Synonyme zu Konzepten enthalten, oder auch Ontologien, die Eigenschaften und Relationen zwischen Konzepten von Begriffen modellieren und auf Maschinenlesbarkeit ausgelegt sind.
Bei kleineren Projekten reicht es meistens schon, wenn man sich auf eine einheitliche Konvention im Sprachgebrauch einigt und diese dokumentiert. Einen Überblick über bestehende Vokabulare gibt das Basic Register of Thesauri, Ontologies and Classifications (BARTOC). Terminologie-Services ermöglichen - oft fachspezifisch - die Suche nach Terminologie-Termen.
Weitere Datenbanken für (fachspezifische) Vokabulare und Normdaten:
- ontobee.org für OBO Foundry library ontologies
- Linked Open Vocabularies (LOV)
- Terminologie-Service für die Ingenieurwissenschaften NFDI4Ing Terminology Service
- Archivo - Ontology Archive
- Terminology Service der TIB
Weitere Informationen hierzu finden Sie überdies im Bereich FDM nach Disziplinen.
Spezifischere Informationen zu Metadaten
Digital Curation Center: List of Metadata Standards
Eine Liste von fachspezifischen Metadatenstandards des Digital Curation Centers.
FAIRsharing.org: kuratierte Liste von fachspezifischen (Meta-)Datenstandards
Eine kuratierte Liste von fachspezifischen (Meta-)Datenstandards, Schemata und Richtlinien.
Digital Curation Center: List of Metadata Tools
Liste von fachspezifischen Metadaten Tools des Digital Curation Centers.
Fundamentals of Scientific Metadata
In dieser Selbstlerneinheit von The Carpentries wird auf eine kurzweilige Weise eine Einführung in das Thema Metadaten gegeben.
Guide zum Erstellen einer Readme-Datei
Es gibt verschiedenste Hilfestellungen zum Erstellen einer Readme-Datei. Dies ist ein Beispiel der Cornell University inklusive eins herunterladbaren Template. Auch ein Guide für Readme-Dateien für Forschungssoftware und -Code ist hier zu finden.
Ein Hands on Werkzeugkasten für Forschende zum Befüllen des DataCite Metadatenstandards.
Quellen
[1] Deutsche Forschungsgemeinschaft. (27. Januar 2025). Guidelines for Safeguarding Good Research Practice. Code of Conduct. Zenodo. https://doi.org/10.5281/ZENODO.14281892
Weiterführende Literatur
Papier: "Kompendium: Didaktische Metadaten"
Autorin: Manuel Oellers, Steffen Rörtgen
Erscheinungsjahr: 2024
Link zum Papier
Papier: "Datendokumentation und Metadaten"
Autorin: Camilla Heldt, Birgitt Röttger-Rössler, Anne Voigt
Erscheinungsjahr: 2023
Link zum Papier
Papier: "Einführung in Metadaten und Dokumentation"
Autorin: Daniel Schopper
Erscheinungsjahr: 2022
Link zum Papier
Weiterführende Links
Linksammlung zur Standardisierung der Deutschen Nationalbibliothek
Liste von Metadatenformaten (Wikipedia)
Weiterführendes auf forschungsdaten.org
Warum und wie ein Best-Practice-Guide für das Metadatenschema DataCite entstand
Blumesberger & Bischof (2023): FAIRe Metadaten im Forschungsdatenmanagement
Digital Curation Center: List of Metadata Profiles and Extensions
Zitiervorschlag (Chicago)
Redaktion von forschungsdaten.info. „Metadaten und Metadatenstandards“. forschungsdaten.info, 08. Dezember 2025. Link.