Skip to main navigation Skip to main content Skip to page footer

Dateiformate

Inhalte langfristig und nachnutzbar sichern

Veröffentlichungen in Repositorien

Für die Veröffentlichung von Forschungsdaten in Repositorien ist es wichtig, Dateiformate zu wählen, die einen langfristigen Zugang sowie eine Wiederverwendung der Daten auch durch Dritte ermöglichen.

Proprietäre Formate sind hierzu in der Regel nicht geeignet, da sich die Dateien nur mit den dazugehörigen Anwendungs-, Hilfs- oder Systemprogrammen öffnen, bearbeiten und speichern lassen. Forschungsdaten sollten daher, wenn möglich, vor der Veröffentlichung in offenen Formaten gespeichert werden. Da es bei der Konvertierung zu Datenverlust kommen kann, empfehlen wir, möglichst beide Formate – das Original und die konvertierte Version – parallel zu veröffentlichen. Hierbei sind die Konvertierungsschritte genau zu dokumentieren und ebenfalls in den Metadaten oder einem README-File zur Verfügung zu stellen.

Eine Ausnahme bilden proprietäre Formate, die in einem wissenschaftlichen Bereich als De-facto-Standards gelten oder von mehreren Tools unterstützt werden und weit verbreitet sind. Sie eignen sich ebenfalls für die Veröffentlichung und Langzeitarchivierung von Forschungsdaten.

Bevorzugte Formate zur Langzeitarchivierung

Die Library of Congress gibt mit ihrem Recommended Formats Statement regelmäßig Empfehlungen heraus, welche Formate zur Langzeitarchivierung bevorzugt verwendet werden sollten oder zumindest akzeptabel sind.

Für digitale Medien werden gegenwärtig u. a. folgende Dateiformate empfohlen:

  • Datensätze: CSV (.csv), EXCEL (.xls,. xlsx)
  • Text: PDF/A (.pdf), XML (.xml)
  • Fotos: TIFF (.tif), JPEG2000 (.jp2), PNG (.png), JPEG/JFIF (.jpg)
  • Videos: IMF (.imf), MPEG-2 (.m2v)

Eine weitere nützliche Übersicht über empfohlene, bedingt geeignete und nicht geeignete Formate stellt die ETH Zürich auf der Seite Archivtaugliche Dateiformate zur Verfügung. Auch die empfohlenen Konvertierungen derselben Quelle sind informativ und lesenswert. Alles auf einen Blick bietet die interaktive Tafel gängiger Dateiformate der NRW-Landesinitiative Langzeitverfügbarkeit.

Grundsätzlich gibt es verschiedene abstrakte Formateigenschaften, die für eine Archivfähigkeit besonders relevant sind:

EignungMaschinenlesbarkeitVon Menschen lesbarLangzeitstabilitätMetadaten
sehr gutmit weit verbreiteter offener Softwareja und ohne Spezialsoftwaregenormter Standardvollständig enthalten
gutmit gut verbreiteter und dokumentierter Softwarenach Standardverfahren komprimiert, aber eigentlich jaschon lang oder großflächigtechnische Angaben sind enthalten
mittelmäßigproprietäres Standardformatmit offener Software (zuverlässig?) in höhere Klasse konvertierbarrelativ neues Formateinige wichtige (z. B. Einheiten) sind enthalten
schlechtselbstentwickelte Lese-Softwareneingerade erst erfundenkeine Angaben

Kompatibilität verschiedener Dateiformate

Für die Erstellung von Daten werden je nach Fachdisziplin und Messmethode spezialisierte Programme verwendet. Die meisten Programme nutzen eigene Dateiformate. Oft ermöglicht eine zusätzliche Exportfunktion das Abspeichern in alternativen Formaten, dies erlaubt beispielsweise den Datenaustausch zwischen Programmen verschiedener Hersteller.

Dieser englischsprachige Artikel über die Popularität von Formaten für statistische Analysen, Datenbanken und Programmiersprachen ist lesenswert. Die Abbildungen und Rankings ermöglichen eine gute Abschätzung, welches das am ehesten geeignete Format sein könnte. Je populärer ein Format ist, desto wahrscheinlicher ist es, dass es lange nutzbar bleibt.

Beispiel: Für statistische Analysen sind SAS, STATA und SPSS populäre Programme. Das gängige Format einer SPSS-Datei wird mit *.sav bezeichnet. Möchte man die Datei nun im Programm STATA öffnen, ist ein anderes Dateiformat (*.dta) erforderlich. R ist eine offene Programmiersprache und deshalb hier unserer Meinung nach die Ideallösung für die Archivierung solcher Dateien. Unter den zehn populärsten Formaten gibt es jedoch keines, das als schlecht geeignet bezeichnet werden müsste.

Konvertierung in andere Dateiformate

Dateiformate können verlustfrei, verlustbehaftet oder sinnhaft, das heißt unter Beibehaltung des wesentlichen Inhalts, konvertiert werden. Eine verlustfreie Konvertierung ist in der Regel vorzuziehen, da Daten so ohne qualitätsbezogene Einschränkungen nachgenutzt werden können. Liegt die Priorität allerdings auf einer Reduzierung der Dateigröße, zum Beispiel, um den Speicherbedarf zu minimieren oder für eine einfachere Weitergabe der Dateien, müssen Informationsverluste in der Regel in Kauf genommen werden. So ist beispielsweise die Umwandlung von Audiodateien wie WAV in kleinere MP3 verlustbehaftet, da durch die Komprimierung Informationen verloren gehen und sich die Tonqualität verschlechtert.

Ein weiteres Beispiel sind Bildformate wie JPG und PNG. Die Kompression beim Speichern eines Bildes im JPG-Format ist nicht verlustfrei, sodass die Ränder zwischen Farbbereichen je nach Stärke der Datenreduktion unscharf werden können. PNG hingegen ist ein verlustfrei komprimierbares Bildformat, die Bildqualität nimmt also nicht ab. Zu beachten ist allerdings, dass beim PNG-Format Metadaten nicht immer nach gültigen Standards gespeichert werden, weshalb einige Programme Probleme beim Auslesen aller Metadaten haben.

Ein Beispiel für eine sinnhafte Konvertierung, bei der es zwar Verluste gibt, die reinen Zahlenwerte aber bestehen bleiben, ist die Konvertierung von XLS in CSV. Andere Informationen aus der XLS-Datei, wie zum Beispiel Formatierungen, hinterlegte Berechnungsformeln oder Abbildungen gehen bei der Konvertierung in CSV verloren. Wenn diese zusätzlichen Informationen relevant sind, sollten die ursprünglichen XLS-Dateien oder andere Deteiformate, die die relevanten Informationen erhalten, ebenfalls aufbewahrt werden.

Meist können Konvertierungen in der verwendeten Software bei „Speichern unter“ oder „Export“ durchgeführt werden. In besonderen Fällen wird ein eigener Konverter benötigt. Welches Format dabei für einen Datensatz in Frage kommt, muss gemäß den jeweiligen Anforderungen entschieden werden.

Identifikation von Dateiformaten

Normalerweise erkennt man das Format einer Datei an der Dateinamenerweiterung (*.xyz). Allerdings werden die Erweiterungen manchmal nicht korrekt abgespeichert oder zeigen unbekannte Formate. Zur Identifikation verschiedener Dateiformate wurden deshalb diverse Tools entwickelt. In der Übersicht auf forensics.wiki werden einige Tools näher vorgestellt. Empfehlenswert ist ebenfalls die kostenlose JAVA-Applikation DROID, die auch unbekannte Formate und Inkonsistenzen ermittelt.


Zitiervorschlag (Chicago)

Redaktion von forschungsdaten.info. „Dateiformate“. forschungsdaten.info, 26. Januar 2026. Link.