Publizieren großer Datenmengen
Der Wunsch oder die Pflicht, Datensätze zu publizieren, kann bei großen Datensätzen zu Kopfzerbrechen führen. Welche Repositorien bieten die benötigten Speichermengen an? Kann ein Datensatz von mehreren Petabyte überhaupt publiziert werden? Und wer soll mit den riesigen Datensätzen arbeiten – außerhalb einer kleinen Gruppe von Spezialist*innen mit den entsprechenden technischen Möglichkeiten?
Grundsätzlich ist es sinnvoll, nicht nur die aufbereiteten bzw. analysierten Datensätze zu teilen, sondern auch die Rohdaten. Diese erlauben es, die Grundannahmen und Verarbeitungsstrategien zu überprüfen, die zu den publizierten Ergebnissen führten. Wenn Datensätze und die Kosten für die Speicherung zu groß sind, ist eine Möglichkeit, nur die Daten zu veröffentlichen, die nötig sind, um publizierte Ergebnisse (z. B. Visualisierungen) nachzuvollziehen und ggfs. zu reproduzieren, und den Code, der zur Aufbereitung und Auswertung der Daten genutzt wurde. Dies deckt sich auch mit den Vorgaben der meisten Fördergeldgeber. Intermediärdaten – also Daten in verschiedenen Bearbeitungsstufen vor der zur Analyse aufbereiteten Form – müssen hingegen in der Regel nicht geteilt werden.
Ist die Entscheidung gefallen, große Datensätze zu teilen, gilt es, ein passendes Repositorium zu finden. Viele Repositorien akzeptieren auf Anfrage auch Datensätze, die größer sind als die festgeschriebenen Limits, allerdings können dafür Gebühren anfallen.
Soll das Publizieren großer Rohdatensätze aus Kosten- oder anderen Gründen vermieden werden, besteht die Möglichkeit, die Rohdaten nur auf Anfrage zu teilen. In diesem Fall kann man bei einem Repositorium einen Metadateneintrag erstellen und Zugangsbedingungen und Kontaktdaten hinterlegen. Diese Option kann man auch nutzen, wenn die analysierten Daten geteilt werden. Eine aussagekräftige Dokumentation und Beschreibung mit Metadaten vorausgesetzt, entsprechen solche Datensätze immer noch den FAIR-Prinzipien. Für den Transfer können dann die im Text Speichern und Übertragen großer Datenmengen vorgestellten Strategien eingesetzt werden. Weitere Informationen zur Archivierung von Forschungsdaten finden Sie unter Langzeitarchivierung.
Dauerversuche und Monitoring-Projekte
Hiermit sind Beobachtungen gemeint, die einen definierten Anfang und kein Ende haben. Sie laufen zum Teil über Jahrzehnte, da Veränderungen erst spät sichtbar werden. Es gibt regelmäßige Erhebungszyklen (ein- oder mehrmals pro Jahr). Darunter fallen z. B. Wetterdaten. Monitoring ist in der Regel öffentlich-rechtliche Aufgabe.
Daten aus diesen Kontexten müssen (oft über 10 Jahre hinaus) verfügbar gehalten werden. Dies erfordert eine aktive Bestandserhaltung. Weitere Informationen finden Sie unter Langzeitarchivierung.
Die Beschreibung entsprechender Daten erfordert einen stabilen, sich selten verändernden Metadatenstandard, z. B. DataCite. Dieser Standard muss auch die Aufnahme von Serien und Vorgänger-Nachfolger-Verknüpfungen ermöglichen, hier eignen sich z. B. MODS, MARCXML, MARC21, PREMIS oder METS.
Grundsätzlich gibt es für die Ablage und Zugänglichmachung zwei Optionen:
- Jeder Messdurchlauf erhält einen einzelnen Datensatz und ist damit eigenständig zitierbar. Ein Beispiel hierfür ist etwa Fische als Schadstoff-Kontrolleure: Wie belastet ist das Meer? (2017).
- Die Messungen werden in einer fortgeschriebenen Tabelle gepflegt. Ein Beispiel hierfür ist die Statistik der Geburten: Lebendgeborene: Deutschland, Jahre, Geschlecht (Statistisches Bundesamt (Destatis))
Zitiervorschlag (Chicago)
Redaktion von forschungsdaten.info. „Publizieren großer Datenmengen“. forschungsdaten.info, 26. Januar 2026. Link.