Skip to main navigation Skip to main content Skip to page footer

Langzeitarchivierung

Forschungsdaten langfristig erhalten

Forschungsdaten sollen im Rahmen der Guten Wissenschaftlichen Praxis für einen angemessenen Zeitraum aufbewahrt werden. Häufig wird eine Aufbewahrungsfrist von mindestens zehn Jahren gefordert. Immer mehr Drittmittelgeber verlangen zudem die Veröffentlichung und langfristige Auffindbarkeit von Daten oder zumindest deren Metadaten und erwarten Angaben, wo die erhobenen Daten archiviert werden und wie sie ggf. aufzufinden sind.

Mit der wachsenden Zahl veröffentlichter Forschungsdatensätze rücken vermehrt Fragen der Datenqualität in den Fokus von Forschenden und Infrastrukturbetreibenden. Denn nicht allein das Teilen der Daten, sondern vor allem deren Qualität, inklusive der dazugehörigen Datendokumentation und das Einhalten von Standards entscheiden darüber, ob die Daten auch nachgenutzt oder zum Reproduzieren von Forschungsergebnissen verwendet werden können.

Langfristige Nutzbarkeit

Langzeitarchivierung (LZA) von Daten soll deren langfristige Nutzbarkeit sicherstellen. Es gilt dabei, Datenverlusten vorzubeugen und sowohl eine authentische Datenwiedergabe, als auch die korrekte Interpretation der Daten langfristig zu ermöglichen. LZA zielt auf den Erhalt der Authentizität, Integrität, Zugänglichkeit und Verständlichkeit von Daten ab. Das umfasst neben der Bereitstellung von technischer Infrastruktur auch organisatorische Maßnahmen und die Etablierung von Workflows und Standards (Rechtsfragen, Qualitätssicherung).

Digitale Erhaltung von Daten

Die einfachste Form der Datenerhaltung ist die rein physische Speicherung (Bitstream-Preservation). Sie dient dazu, die Daten im Zustand zum Zeitpunkt ihrer Ablieferung (Ingest) zu erhalten. Bedingt durch den technologischen Wandel werden Datenträger, Dateiformate, Software und Ablageorte jedoch schnell unzugänglich und damit unbenutzbar. Für eine langfristige Nutzbarkeit der Daten ist es daher erforderlich, die Daten über die Jahre weitergehend zu pflegen und nötige Anpassungen vorzunehmen.

Dies geschieht häufig durch Migration und Emulation. Von Migration spricht man, wenn Daten zum Zweck der Bewahrung von einem veralteten auf ein besser geeignetes System oder in ein aktuelleres Format überführt werden. Die Methode der Emulation wird verwendet, um veraltete oder nicht mehr verfügbare Systeme oder Umgebungen durch andere Systeme nachzubilden. Die nachgebildeten Systeme enthalten dabei die gleichen Daten und führen vergleichbare Programme aus wie die ursprünglichen Systeme.

Archivbetreiber*innen sichern sich in der Regel in ihren Nutzungsbedingungen oder Richtlinien die Rechte für diese Art der Pflege und Anpassung von Daten und Metadaten. Einige Archivbetreiber*innen unterziehen die Datensätze einem Review-Prozess, bevor sie sie für die Archivierung akzeptieren, und beraten die Datenlieferanten hinsichtlich geeigneter Dateiformate und Metadaten, um den Erhalt der Daten sicherzustellen und den Grad der langfristigen Nachnutzbarkeit zu erhöhen.

Datenauswahl für die Archivierung

In der Regel ist es weder technisch noch ökonomisch möglich oder sinnvoll, alle während eines Forschungsprojekts erhobenen Daten aufzubewahren. Wissenschaftler*innen müssen daher nach Abschluss eines Projektes eine Datenbewertung vornehmen und anhand dieser entscheiden, welche Daten archiviert werden sollen oder müssen.

Die Entscheidung für eine Aufbewahrung oder bewusste Löschung richtet sich auch nach rechtlichen, regulatorischen und politischen Vorgaben. Hier spielen FDM-Richtlinien der eigenen Forschungsinstitution, Anforderungen von Fördergebern oder Journals sowie gesetzliche oder vertragliche Pflichten eine Rolle.

In den Leitlinien zur Sicherung guter wissenschaftlicher Praxis der DFG findet sich hierzu in der Leitlinie 17 zum Thema Archivierung zum Beispiel die folgende Aussage: „Wissenschaftler*innen sichern öffentlich zugänglich gemachte Forschungsdaten beziehungsweise Forschungsergebnisse sowie die ihnen zugrunde liegenden, zentralen Materialien und gegebenenfalls die eingesetzte Forschungssoftware, gemessen an den Standards des betroffenen Fachgebiets, in adäquater Weise und bewahren sie für einen angemessenen Zeitraum auf. Sofern nachvollziehbare Gründe dafür existieren, bestimmte Daten nicht aufzubewahren, legen die Wissenschaftler*innen dies dar.“

Darüber hinaus können für Wissenschaftler*innen bei der Datenauswahl die folgenden Überlegungen eine Rolle spielen:

  • Verifizierung: Anderen ermöglichen, dem Prozess zu folgen, der zu veröffentlichten Ergebnissen führt und diese möglicherweise reproduzieren oder verifizieren kann
  • Weitere Analyse: Die Möglichkeiten für weiterführende Analysen erhöhen zum Beispiel durch neue Methoden, Integration mit anderen Quellen für die Metaanalyse (neue Kooperationen oder Drittanalysen)
  • Community-Ressourcenentwicklung: Veröffentlichen einer Datenressource mit Wert für eine bekannte Benutzergruppe, zum Beispiel einen Referenzdatensatz, Methodenprüfstand oder Domänendatenbank
  • Akademische Reputation: Daten, die auffindbar sind, haben eine größere Sichtbarkeit, die die Zitationsraten für die veröffentlichten Ergebnisse steigern können
  • Lernen & Lehre: Einbettung von Daten in eine Lern- / Lehr- oder Public-Engagement-Ressource, um deren Interaktivität zu verbessern; Nutzende in das Lernen oder die Teilnahme an der Forschung einzubeziehen
  • Persönliche Nutzung: leichteres Auffinden der Daten in den kommenden Jahren, um sie für andere Anwendungen zu nutzen

Datenvorbereitung für eine langfristige Nutzbarkeit

Damit Forschungsdaten langfristig korrekt sowie ohne Verluste wiedergegeben und interpretiert werden können, bedarf es erstens ausreichender Kontextinformationen, z. B. zu verwendeten Erhebungsmethoden, Soft- und Hardware, Kodierungen etc. und eine umfassende Beschreibung durch Metadaten.

Zweitens dürfen die Daten nicht untrennbar mit einem Datenträger oder Auslesegerät verbunden sein, da sie nur so auf andere Systeme und Träger migriert werden können (Ziel ist der Erhalt der Informationen, nicht der digitalen Objekte selbst). Gerade proprietäre Dateiformate erschweren diese LZA-Strategie häufig genauso wie sie die Emulation erschweren, also die Imitation der alten Software-Umgebung auf neuere Hardware und Systemumgebung.[1] Besser geeignet sind offene Dateiformate, da ihre Spezifikationen offen dokumentiert und somit nachvollziehbar sind. Sie sind unabhängig vom Hersteller und können mit unterschiedlichen Programmen genutzt werden.

Checkliste Datenvorbereitung

  • Die zu archivierenden Dateien sollten in bewahrungsfreundlichen Formaten vorliegen. Proprietäre und wenig genutzte Formate sollten vermieden werden, da sie eine spätere Weiterverwendung erschweren. Wenn proprietäre Formate verwendet werden müssen, sollten sie durch zusätzliche Dokumentation oder alternative offene Formate unterstützt werden.
  • Die zu archivierenden Dateien sollten nach klar definierten, logischen Strukturen organisiert sein, z. B. nach Datum, Typ oder Analyse. Verwenden Sie einheitliche und aussagekräftige Dateinamen, die den Inhalt der Datei widerspiegeln, und vermeiden Sie Leer- und Sonderzeichen.
  • Fügen Sie den Datensätzen README-Dateien bei, die den Inhalt und spezielle Anweisungen für die Verwendung beschreiben.
  • Stellen Sie sicher, dass ethische Richtlinien und Datenschutzgesetze eingehalten werden, zum Beispiel durch die Anonymisierung sensibler personenbezogener Daten. Holen Sie die erforderlichen Genehmigungen für Daten Dritter oder urheberrechtlich geschütztes Material ein.
  • Überprüfen Sie, ob die zu archivierenden Dateien vollständig, unbeschädigt und funktionsfähig sind. Löschen Sie leere Dateien und solche, die für das Verständnis der Daten und deren Nachnutzung überflüssig sind.

Langzeitarchivierung in Repositorien

Üblicherweise werden Forschungsdaten in Repositorien archiviert. Eine Übersicht über solche Repositorien bietet re3data.

Zur Beurteilung der Qualität von Repositorien und Datenarchiven wurden Zertifizierungen entwickelt, insbesondere das CoreTrustSeal oder das nestor-Siegel. Diese Evaluierungsverfahren legen besonderen Wert auf die Dokumentation von organisatorischen Maßnahmen, z. B. die finanzielle und personelle Ausstattung des Archivs, die vorhandene Expertise, die verwendeten (Metadaten-)Standards und Lizenzen, die Nutzungsbedingungen, sowie den Umgang mit schutzwürdigen Daten.

Viele digitale Archive und Repositorien sichern die Implementierung des Standard-Referenzmodells für digitale Langzeitarchive Open Archival Information System (OAIS) zu.[2]

Quellen

[1] Schumann, N. (2012). Einführung in die digitale Langzeitarchivierung. In Langzeitarchivierung von Forschungsdaten: Standards und disziplinspezifische Lösungen (S. 39–50). Scivero. https://nbn-resolving.org/urn:nbn:de:0168-ssoar-457405

[2] Schrimpf, S. (2012). Überblick über das OAIS-Referenzmodell. In Langzeitarchivierung von Forschungsdaten. Standards und disziplinspezifische Lösungen. (S. 51–68). Scivero. https://www.konsortswd.de/wp-content/uploads/langzeitarchivierung_von_forschungsdaten.pdf

Weiterführende Literatur

Buchkapitel: "4.2 Datenspeicherung, -kuration und Langzeitverfügbarkeit."
Autor*innen: Andreas Weber, Claudia Piesche
Erscheinungsjahr: 2021
Link zum Kapitel

Handreichung: "Langzeitarchivierung von Forschungsdaten."
Autor*innen: Ute Hofstätter, Anne Weber
Erscheinungsjahr: 2024
Link zur Handreichung

Sonderausgabe einer Zeitschrift: “Forschungsdatenmanagement und Langzeitarchivierung.
Herausgeber*innen: Redaktion Bausteine Forschungsdatenmanagement
Erscheinungsjahr: 2025
Link zur Sonderausgabe


Zitiervorschlag (Chicago)

Redaktion von forschungsdaten.info. „Langzeitarchivierung“. forschungsdaten.info, 26. Januar 2026. Link.