Skip to main navigation Skip to main content Skip to page footer

Glossar

Kernbegriffe im Forschungsdatenmanagement

Auf dieser Seite werden Kernbegriffe mit Bezug zum Forschungsdatenmanagement kompakt erklärt.

Sie haben Fragen, Ergänzungsvorschläge oder finden Zusammenhänge nicht korrekt dargestellt? Schreiben Sie uns gerne, wir freuen uns auf Ihre Mail.

Zitiervorschlag (Chicago)

Redaktion von forschungsdaten.info. "Glossar". forschungsdaten.info, 17. Februar 2025. Link.

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

A

Ein Algorithmus ist eine nachvollziehbare Schrittfolge zur Lösung eines Problems. Das berühmteste Beispiel für einen Algorithmus ist das Kochrezept: Die Schritte sind eindeutig beschreibbar, praktisch ausführbar und führen bei gleicher Ausführung zum identischen Ergebnis. Ein Algorithmus kann grundsätzlich in jeder Sprache (natürliche Sprache oder Programmiersprache) formuliert werden. Generell basieren so gut wie alle Automatisierungsprozesse auf der Nutzung von Algorithmen. In der Informatik sind Algorithmen die Basis fast aller Programme und Anwendungen. Sie kommen etwa zur Anwendung, wenn strukturierte Daten (etwa Normdaten oder Metadaten) oder unstrukturierte Daten (z. B. im Data Mining) standardisiert erfasst werden sollen. Im Kontext von Machine Learning oder Künstlicher Intelligenz (KI) werden Algorithmen verwendet, um in großen Datenmengen Muster zu erkennen und komplexe Verhältnismäßigkeiten abstrahieren zu können. 

Analoge Forschungsmaterialien sind physische Objekte, wie zum Beispiel Proben, Fotos auf Papier, handschriftliche Notizen, Bücher, Audio-Kassetten, Gemälde, Fossilien, Bohrkerne oder Architekturmodelle. Um sie in einem Repositorium nutzbar zu machen, müssen die Materialien zunächst digitalisiert (Digitalisat) oder zumindest die zugehörigen Metadaten digital zur Verfügung gestellt werden. Analoge Materialien stehen im Gegensatz zu Born-digital-Daten, die von Beginn an in digitaler Form existieren.

Die Anonymisierung von personenbezogenen Daten in der Wissenschaft gehört zur Guten Wissenschaftlichen Praxis. Laut BDSG (Bundesdatenschutzgesetz) § 3, Abs. 6 versteht man unter Anonymisierung jegliche Maßnahmen, die personenbezogene Daten so verändern, dass „die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können“.  Zu unterscheiden ist die Anonymisierung von der Pseudonymisierung.

Unter einem Archiv ist allgemein eine Sammlung an Dokumenten zu verstehen, die zeitlich unbegrenzt aufbewahrt werden. Archive werden als Dienstleistung bereitgestellt, sie können aber auch in eigener Verantwortung angelegt und betrieben werden. Die Organisation der Inhalte orientiert sich an den einem Archiv zugrundeliegenden Richtlinien. Im Forschungsdatenmanagements meint Archiv eine Sammlung von Daten. Bei Forschungsdaten hat sich eine Archivierungsdauer von in der Regel mindestens zehn Jahren etabliert. Eine gängige Form der Archivierung von Forschungsdaten sind Repositorien. Eine Spezialform ist die sogenannte Langzeitarchivierung.

Für bestimmte Daten, Systeme oder Dienste ist beispielsweise aus Sicherheits- oder Vertraulichkeitsgründen eine Einschränkung der Zugriffsmöglichkeit notwendig. In diesem Fall wird der Zugang über die sogenannte Authentifizierung geregelt. Die Berechtigung von Zugriffsversuchen kann dabei anhand verschiedener Merkmale überprüft werden, z. B. IP-Adresse, Login und Passwort, Sicherheitsmerkmal (Schlüsseldatei, biometrisches Merkmal, Hardwaretoken) oder eine Kombination (Zwei-Faktor-Authentifizierung). Voraussetzung hierfür ist eine funktionierende Nutzerverwaltung bzw. ein funktionierendes Identitätsmanagement (IDM) zur Speicherung bzw. Verwaltung der oben genannten Merkmale. Eine Variante ist das sogenannte Single-Sign-on-Verfahren wie es z. B. bei Shibboleth eingesetzt wird. So kann eine Person mit einer Anmeldung mehrere Services nutzen. Die Authentifizierung ist zu unterscheiden von der Autorisierung, bei der der authentifizierten Person bestimmte Rechte gegenüber dem System zugewiesen werden.

B

Unter dem Begriff Best Practice wird eine bewährte Methode im Kontext eines Arbeitsprozesses verstanden. Ein Best-Practice-Beispiel im Bereich Forschungsdatenmanagement ist das Vorgeben von Metadatenschemata durch Betreiber*innen von Repositorien, sodass Datengeber*innen die optionalen und empfohlenen Felder bestmöglich ausfüllen können.

Digitale Daten bestehen aus einer festgelegten Abfolge von Bits, die den Wert 0 oder 1 haben und auf Datenträgern gespeichert werden. Diese Abfolge wird Bitstream genannt. Bitstream Preservation ist die Fähigkeit, den Bitstream über Technologiewechsel hinaus zu erhalten. Dies ist eine Grundvoraussetzung für digitale Langzeitarchivierung.

Als born digital werden Daten und Materialien bezeichnet, die in digitaler Form entstanden sind. Auf analoge Materialien, die erst später digitalisiert werden, trifft dieser Begriff nicht zu.

C

Die CARE Principles for Indigenous Data Governance wurden als Ergänzung zu den FAIR-Prinzipien von der Research Data Alliance International Indigenous Data Sovereignty Interest Group erarbeitet und durch die Global Indigenous Data Alliance (GIDA) veröffentlicht.

Das Akronym steht für Collective Benefit, Authority to Control, Responsibility und Ethics. Auf Grundlage der CARE-Prinzipien werden Forschende dafür sensibilisiert, im Rahmen der Bemühungen um Open Data und Open Science die Rechte und Interessen indigener Gemeinschaften zu wahren – unabhängig davon, ob sich deren Forschung dezidiert mit den Gemeinschaften selbst befasst oder diese anderweitig berührt. Ziel der CARE-Prinzipien ist es, u. a. zu verhindern, dass aufgrund unterschiedlicher Machtverhältnisse oder historisch bedingter Ungleichheit das Selbstbestimmungsrecht indigener Personen und Personengruppen missachtet wird, z.B. durch die Nutzung von Daten ohne Rücksicht auf die Datengebenden. Die CARE-Prinzipien fordern darüber hinaus Datensouveränität für indigene Gemeinschaften. Dies bezieht sich auch auf Daten und weitere Forschungsergebnisse, die mit den natürlichen Ressourcen (z.B. Georessourcen oder Pflanzen) auf dem Land der Gemeinschaften in Verbindung stehen.

In Clouds können abseits lokaler Rechner und Netzwerke Daten gespeichert sowie geteilt werden, sodass auch ein kollaboratives Arbeiten an Daten ermöglicht wird. Da auf Clouds von überall zugegriffen werden kann, sind sie ein wichtiger Bestandteil für die wissenschaftliche Arbeit mit Daten – sowohl für einzelne Forschende als auch für Forschungsgruppen. Darüber hinaus können auch Software-Anwendungen sowie Rechnerleistung und weitere IT-Services über Cloud-Anbietende bezogen werden. Manche Institutionen (z. B. Unternehmen) betreiben selbstverwaltete, private Clouds; einige IT-Unternehmen bieten standardisierte Public-Cloud-Dienste an. Hier ergeben sich Fragestellungen hinsichtlich Datensicherheit und Datenschutz, u. a. wenn sich die Standorte der Dienste außerhalb der EU befinden. Für die Wissenschaft empfiehlt sich daher die Nutzung institutioneller oder regionaler Cloud-Dienste wie Sync&Share, Sciebo, Academic Cloud oder Switch Drive. 

Zum Artikel

Um eine maximale Nachnutzbarkeit von Forschungsdaten zu gewährleisten, empfiehlt sich die explizite Vergabe von Nutzungsrechten, z. B. durch Lizenzen. Die Verwendung liberaler Lizenzmodelle, insbesondere der weltweit anerkannten Creative-Commons-Lizenzen (CC), ist dabei eine Möglichkeit, für publizierte Forschungsdaten nachnutzungsbezogene Bedingungen über die Unterschiede nationaler Urheberrechte hinweg nachvollziehbar und rechtssicher festzulegen.

D

Ein Data Curation Profile beschreibt die ‚Geschichte‘ eines Datensatzes oder einer Datensammlung, d. h. Herkunft und Lebenszyklus eines Datensatzes innerhalb eines Forschungsprojekts. Das von den Purdue University Libraries entwickelte Profil sowie das zugehörige Toolkit ist sowohl ein Werkzeug als auch eine eigene Sammlung von Datensätzen. Das Werkzeug ist ein Interviewinstrument mit dessen Vorlage eine sehr gründliche ‚Datenerörterung‘ durchgeführt wird, die während des Ausfüllens zum ‚Profil‘ wird. In der Datensammlung kann nach fertiggestellten Data Curation Profiles gesucht werden, um z. B. Forschungsdatenmanagement-Fachstellen bei der Datenkuration einer spezifischen Disziplin oder auch einer Forschungsmethode zu unterstützen.

Zum Artikel

Data Literacy (dt. Datenkompetenz) beschreibt die Fähigkeit, entlang des gesamten Datenlebenszyklus planvoll mit Daten umzugehen. Dies umfasst das Erheben und Auswählen von Daten sowie deren Verarbeitung, Analyse, Darstellung und nachhaltige Nutzung. Data Literacy schließt auch eine kritische Reflexion des Umgangs mit Daten (z. B. gesellschaftliche Fragen) ein.

Data Stewards sind Expert*innen im Forschungsdatenmanagement. Sie werden schwerpunktmäßig an Forschungseinrichtungen eingesetzt, um Forschende beim nachhaltigen Umgang mit Daten zu unterstützen. Zu den Aufgaben von Data Stewards gehören vor allem Beratungstätigkeiten, Schulungen, Bedarfsermittlungen und Anforderungsmanagement. Dezentrale Data Stewards arbeiten auf Fakultäts-, Instituts- oder Projektebene und helfen Forschenden bei disziplinspezifischen Anliegen.

Dateiformate (manchmal auch Dateiart, Dateityp oder Datenformat genannt) werden beim Speichern von Dateien erzeugt, sie beinhalten Informationen über die Struktur der in einer Datei vorhandenen Daten, sowie über deren Zweck und Zugehörigkeit. Mithilfe der in einem Dateiformat enthaltenen Informationen können Anwendungsprogramme Daten interpretieren und Inhalte verfügbar machen. Dateiformate können in der Regel an einer entsprechenden Endung erkannt werden, die an den eigentlichen Dateinamen angehängt wird. Diese besteht aus einem Punkt und zwei bis vier Buchstaben.  

Bei sogenannten proprietären Formaten lassen sich Dateien nur mit den dazugehörigen Anwendungs-, Hilfs- oder Systemprogrammen öffnen, bearbeiten und speichern (zum Beispiel .doc/.docx, .xls/.xlsx). Offene Formate (zum Beispiel .html, .csv, .jpg, .mp3, .gif) ermöglichen es hingegen, Dateien mit Software verschiedener Hersteller zu öffnen und zu bearbeiten.

Dateiformate können beim Speichern aktiv durch Konvertierung geändert werden, hierbei kann es zu Datenverlust kommen. Im wissenschaftlichen Bereich sollte in Sachen Dateiformat vor allem auf Kompatibilität, Eignung zur Langzeitarchivierung und verlustfreie Konvertierung in alternative Formate geachtet werden. Beim Veröffentlichen und Archivieren von Daten sollten aus den genannten Gründen, wo möglich, offene Dateiformate bevorzugt werden.

Zum Artikel

Das deutsche Datenbankschutzrecht (§§ 87a–87e Urheberrechtsgesetz, UrhG) schützt eine Datenbank für die Dauer von 15 Jahren vor ungenehmigter Nutzung und Vervielfältigung, sofern für ihre Erstellung eine „wesentliche Investition“ von Geld, Zeit, Arbeitskraft usw. notwendig war. Verboten ist dabei nicht die Vervielfältigung der gesamten Datenbank, sondern nur „wesentlicher Teile“, wobei im Einzelfall unklar sein kann, was damit gemeint ist.

Das Datenbankschutzrecht existiert nur in der EU, nicht in der Schweiz. Es dient dem Investitionsschutz. Das Datenbankschutzrecht wirkt zwar ähnlich wie das Urheberrecht und findet sich (jedenfalls für Deutschland) auch im Urheberrechtsgesetz, es handelt sich aber nicht um einen urheberrechtlichen Schutz im eigentlichen Sinne. Daher ist es auch nicht notwendig, dass die Datenbank die sogenannte „geistige Schöpfungshöhe“ erreicht; erforderlich ist nur die „wesentliche Investition“.

Zusätzlich kann eine Datenbank - in Deutschland wie in der Schweiz - auch als Sammelwerk urheberrechtlich geschützt sein, wenn sie individuellen Charakter hat und eine geistige Schöpfung ist (in Deutschland spricht man hier vom "Datenbankwerk" als Unterfall des Sammelwerks). Daneben können außerdem auch die einzelnen Datensätze urheberrechtlich geschützt sein.

Datenjournale sind Publikationsmedien für Datensätze. Sie bieten umfassende Beschreibungen von Datensätzen, ohne diese zu interpretieren, und unterstützen damit die Nachnutzung von Forschungsdaten sowie deren Anerkennung als wissenschaftliche Leistung. Gleichzeitig verfolgen sie das Ziel, die Transparenz von wissenschaftlichen Methoden und Ergebnissen zu verbessern und unterstützen damit gute Praktiken des Datenmanagements. 

Zum Artikel

Datenkompetenzzentren widmen sich mit mehrheitlich regionalem Fokus der Vermittlung von Datenkompetenz für Forschende unterschiedlicher Fachrichtungen. Sie schaffen didaktische Angebote und stellen diese bereit, bauen unterstützende Services auf und organisieren Veranstaltungen sowie Plattformen zum Austausch und zur Vernetzung. All dies verfolgt das Ziel, den Kulturwandel hinsichtlich der Nutzung von Forschungsdaten mitzugestalten.

Datenkompetenzzentren sind nicht zu verwechseln mit Datenzentren und Forschungsdatenzentren.

Übersichtsseite

Datenkuration umfasst alle erforderlichen Handlungen, um Forschungsdaten auszuwählen, (nachhaltig) zu pflegen, nachnutzbar zu machen und langfristig zu erhalten. Der Kurationsprozess beginnt mit der gezielten Auswahl von Daten, die aufgrund ihrer wissenschaftlichen Relevanz, Qualität oder rechtlichen Anforderungen aufzubewahren sind. Im weitesten Sinne bedeutet Kuration ferner eine Reihe von Maßnahmen zur Verwaltung, Pflege und Validierung dieser Daten im Sinne einer aktiven und laufenden Verwaltung während des Datenlebenszyklus. Datenkuration ist eine zentrale Bedingung für das Auffinden und Abrufen von Daten als auch für deren Qualitätserhalt, Mehrwert und perspektivische Nachnutzbarkeit.

Das Modell des Datenlebenszyklus umfasst alle Phasen, die Forschungsdaten von der Erhebung bis zur Nachnutzung durchlaufen können. Die Struktur des Datenlebenszyklus variiert von Modell zu Modell, im Allgemeinen umfasst er folgende Phasen: 

  • Arbeit und Umgang mit Daten planen (siehe auch Datenmanagementplan)  
  • Daten erheben
  • Daten aufbereiten und analysieren
  • Daten teilen und publizieren
  • Daten archivieren
  • Daten nachnutzen

Zum Artikel

Datenmanagementpläne (DMPs) beschreiben den Umgang mit Forschungsdaten, die im Rahmen eines Forschungsprojekts produziert oder (nach-)genutzt werden. DMPs umfassen dabei nicht nur die Projektlaufzeit selbst, sondern gehen auch darüber hinaus. Sie folgen dabei dem Forschungsdatenlebenszyklus, schließen aber auch rechtliche und ethische Rahmenbedingungen sowie personelle Zuständigkeiten ein. DMPs unterstützen so die systematische Planung und Umsetzung von datenmanagementbezogenen Maßnahmen sowie die Kalkulation der dafür benötigten materiellen und personellen Ressourcen.

DMPs unterstützen die FDM-Planung und dabei, die Arbeit mit Daten nachvollziehbar und strukuriert zu beschreiben. Darüber hinaus helfen sie, das kollaborative Arbeiten in der Gruppe zu strukturieren und zu standardisieren. Entsprechend tragen DMPs zur Qualitätssicherung sowie zur langfristigen Nutzbarkeit von Forschungsdaten bei und unterstützen die Umsetzung der FAIR-Prinzipien. DMPs sind lebende Dokumente, entsprechend sollten sie regelmäßig aktualisiert werden.

Zahlreiche Forschungsförderer verlangen mittlerweile die Einreichung eines DMPs oder zumindest eines FDM-bezogenen Textabschnitts mit dem Projektantrag als Fördervoraussetzung, meist ist eine erste DMP-Version jedoch erst zu oder kurz nach Projektbeginn erforderlich.

Zum Artikel

Datenmapping ist der Prozess der Überführung von Daten(elementen) von einem Datenmodell zu einem anderen. Dies ist der erste Schritt zur Integration von fremden Informationen in ein eigenes Informationssystem. Es umfasst die Datentransformation während eines elektronischen Datenaustauschs, für den sehr häufig die Auszeichnungssprache XML und das Datenformat JSON verwendet werden.

Ein Gesetz in Deutschland, das vorschreibt, in welcher Weise Daten in öffentlicher Hand (auch Forschungsdaten aus öffentlich finanzierter Forschung) veröffentlicht werden müssen. Die Regeln verpflichten nicht zum Teilen, sondern regeln nur das Wie, wenn sich jemand zum Teilen entschlossen hat oder bspw. durch Fördervertrag oder Forschungsdatenrichtlinie verpflichtet ist.

Der Begriff wird mehrdeutig verwendet und kann bezeichnen:

  1. Eine Vereinbarung zur Weitergabe und Nachnutzung von Forschungsdaten, die nicht unter offener Lizenz stehen (engl. Data Transfer and Use Agreement, DTUA). Insbesondere bei sensiblen Forschungsdaten, wie beispielsweise in der Medizin, ist die Vergabe einer offenen Lizenz oft nicht möglich. Über ein DTUA können die Daten im Einzelfall dennoch zugänglich gemacht werden.
  2. Eine Vereinbarung (Vertrag) zwischen den Forschenden eines Forschungsvorhabens, in der möglichst frühzeitig (bestenfalls noch vor Beginn der Datenerhebung) festgelegt wird, wer zu welchem Zeitpunkt welche Befugnisse im Umgang mit den Daten haben wird. Die Vereinbarung kann und sollte auch regeln, wie die Daten nach Projektende nachgenutzt und/oder veröffentlicht werden. Auf diese Weise wird Konflikten vorgebeugt, die aus späteren Meinungsverschiedenheiten über den bestmöglichen Umgang mit den gesammelten Forschungsdaten entstehen könnten.
  3. Vereinzelt wird der Begriff auch für die datenschutzrechtliche Einwilligungserklärung bei Webseiten verwendet. Diese Begriffsverwendung hat mit Forschungsdaten nichts zu tun und wird hier nur der Vollständigkeit halber aufgeführt.

Unter Datenschutz werden technische und organisatorische Maßnahmen gegen den Missbrauch von personenbezogenen Daten verstanden, die z. B. in der Medizin oder der sozialwissenschaftlichen Forschung erhoben werden. Ein Missbrauch liegt vor, wenn solche Daten unbefugt erhoben, verarbeitet oder genutzt werden. Geregelt ist das Thema Datenschutz u. a. in der Datenschutz-Grundverordnung (DSGVO) der EU sowie in den einschlägigen Bestimmungen der jeweiligen Staaten.

Geeignete datenschutzbezogene Maßnahmen sind etwa Verschlüsselungstechniken oder die Aufbewahrung entsprechender Daten an besonders gesicherten Orten. Ferner kann durch nachträgliche Anonymisierung oder Pseudonymisierung der Personenbezug soweit aufgehoben werden, dass eine Publikation dieser Daten unter Umständen rechtlich möglich werden kann.

Die bewusste, redundante Speicherung von Daten wird als Datensicherung oder Backup bezeichnet. Ziel ist die Wiederherstellbarkeit des gesicherten Bearbeitungsstandes (z. B. von Rohdaten) im Falle eines Datenverlustes durch etwa einen Gerätedefekt (Wasserschaden, Hacking), den Verlust von Arbeitsgeräten (USB-Stick, Laptop) oder durch eigene Fehler in der Datenbereinigung. Backups sind in allen Phasen des Forschungsdatenlebenszyklus empfehlenswert, v. a. in der Erhebungs- und Auswertungsphase. Idealerweise entstehen Backups automatisch und regelmäßig. Empfohlen wird die 3:2:1-Regel: dreifache Ablage (Arbeitsdatei und zwei Kopien), auf zwei verschiedenen Medientypen (z. B. Festplatte und Cloud), eine Ablage auf einem externen Standort (z. B. in einer Cloud mit verteilten Servern).

zum Artikel

Datentreuhandstellen bzw. Datenspendestellen spielen insbesondere bei der Nachnutzung von personenbezogenen oder sensiblen Daten eine große Rolle. In der Regel dürfen diese Daten entweder aus rechtlichen Gründen oder sollten diese Daten aus ethischen Gründen nicht frei zugänglich sein. Dies dient der Wahrung der Persönlichkeitsrechte datengebender Personen, v. a. falls eine (vollständige) Ano- oder Pseudonymisierung von Daten nicht möglich ist, weil dadurch wichtige Informationen verloren gehen würden. Datentreuhandstellen bzw. Datenspendestellen werden damit beauftragt, den Zugang zu (personenbezogenen) Datensätzen zu kontrollieren. Auf Anfrage können Forschende über Datentreuhandstellen z. B. Zugriff auf ano- oder pseudonymisierte Datensätze bzw. auf für ihre Forschung wichtige Ausschnitte von Datensätzen bekommen, der ansonsten nicht möglich wäre. Ein solches Vorgehen ist z. B. auch für Datensätze von Unternehmen oder für Datensammlungen denkbar, deren Inhalte aus ethischen Gründen nicht offen zugänglich sein sollten (z. B. Hassrede, Eigentum indigener Gemeinschaften o. ä.). Gleichzeitig könnten Forschungsergebnisse über Datentreuhandstellen an datengebende Personen zurückgespielt werden (z. B. bzgl. personenbezogener Risiken, die durch die Forschung erkannt wurden).

In Fachdisziplinen wie z. B. der Medizin sind Datentreuhandstellen bereits etabliert, auch der Rechtsrahmen wurde entsprechend angepasst, um Datenspenden von Patient*innen zu ermöglichen (vgl. Gesundheitsdatennutzungsgesetz (GDNG)). Datentreuhandstellen in weiteren Disziplinen befinden sich im Aufbau.

Ein Daten- bzw. Rechenzentrum (engl. Data Center) ist ein Ort zur Bündelung von IT-Infrastrukturen. Der Begriff bezeichnet sowohl Räumlichkeiten, an denen sich Server und Netzwerktechnik befinden, als auch Stellen, an denen Daten verwaltet, gespeichert und ausgewertet werden. Datenzentren existieren in Forschung und Wirtschaft.

In wissenschaftlichen Einrichtungen handelt es sich bei Datenzentren in der Regel um eigene oder zumindest institutionsnahe Abteilungen zum Management und zur Speicherung von Daten, die entweder von der Einrichtung selbst oder von Kooperationspartner*innen erhoben werden.

Datenzentren sind nicht zu verwechseln mit Datenkompetenzzentren und Forschungsdatenzentren.

Ein Digitalisat ist das Endprodukt einer Digitalisierung, d. h. der Überführung eines analogen Gegenstands (Buch, Handschrift, Bild, Plastik etc.) in digitale Werte zur elektronischen Speicherung. Digitalisate haben gegenüber analogen Gegenständen den Vorteil, einfacher verteilt werden zu können; bei u.a. digitalen Forschungsdaten liegt ein weiterer Vorteil in deren maschineller Verarbeitbarkeit. Ferner verhindert die Arbeit mit Digitalisaten die Verfälschung bzw. Beschädigung des Originals (z. B. in der Archäologie) durch dessen weitere analoge Verarbeitung.

Das DINI-Zertifikat (Deutsche Initiative für Netzwerkinformationen) ist ein weithin anerkanntes Gütesiegel für Repositorien. Die Vergabe des DINI-Zertifikat garantiert eine hohe Qualität des Dienstes (Repositoriums) für Autor*innen, Nutzer, Geldgeber und der Leitung der zertifizierten Einrichtung. Es signalisiert, dass festgelegte Maßstäbe, Richtlinien und Empfehlungen (Best Practices) der Open-Access-Bewegung umgesetzt wurden. Mit der Version 2013 des DINI-Zertifikats können sich auch Hosting-Anbieter bestätigen lassen, dass bestimmte Mindestanforderungen aus dem Kriterienkatalog grundsätzlich für alle von ihnen betreuten Dienste erfüllt sind. Diese Kriterien werden für den entsprechenden Hosting-Anbieter als DINI-ready markiert und müssen später beim Zertifizierungsprozess nicht mehr gesondert vom Dienstanbieter ausgewiesen werden.

Digital Object Identifier (DOI) sind eines der gebräuchlichsten Systeme zur persistenten Identifikation digitaler Objekte. Konkret ist ein DOI eine Online-Referenz, die einer digitalen Ressource (z. B. einem Artikel in einer Zeitschrift oder einem Forschungsdatensatz) zugewiesen wird, um ihr eine eindeutige und dauerhafte Referenz im Internet zu geben. Ein DOI bleibt über die gesamte Lebensdauer eines bezeichneten Objekts gleich – unabhängig von Änderungen an Websites oder der Abschaltung von Servern. Das DOI-System wird von der International DOI Foundation verwaltet.

E

Elektronische Laborbücher (engl. Electronic Laboratory Notebooks, kurz: ELNs) spielen im Bereich der Dokumentation der Planung, Durchführung und Auswertung wissenschaftlicher Experimente eine zentrale Rolle – und sind damit auch zentrale Tools im Forschungsdatenmanagement. Sie treten häufig an die Stelle konventioneller analoger Laborbücher, gehen in ihren Funktionalitäten allerdings darüber hinaus. Neben generischen ELNs existieren auch disziplinspezifische ELNs, die Anforderungen einzelner Fachdisziplinen berücksichtigen.

Zum Artikel

Ein (zeitliches) Embargo definiert im Forschungsdatenmanagement einen Zeitraum, in dem lediglich die deskriptiven Metadaten von Forschungsdaten einsehbar sind. Die damit verbundene Datenpublikation ist während des Embargos nicht zugänglich. Ein Embargo kann verwendet werden, wenn Forschungsdaten (z. B. im Kontext eines Peer-Review-Prozesses) zeitverzögert publiziert werden sollen.

Als Enhanced Publication wird in der Wissenschaft eine elektronische Publikation verstanden, die zusätzlich zu einer Textpublikation auch damit verbundene Materialien wie beispielsweise Forschungsdaten, Videos, Tabellen oder Präsentationen enthält.

F

Das DFG-Förderprogramm Fachinformationsdienste (FID) für die Wissenschaft verfolgt das Ziel, forschungsbezogene Informationsinfrastrukturen zu stärken und zu verbessern. Es ist das Nachfolgeprogramm der seit 1949 geförderten Sondersammelgebiete an wissenschaftlichen Bibliotheken in Deutschland. Viele FID bieten disziplinspezifische Services zum Forschungsdatenmanagement an.

Zum Artikel

Das Hauptziel der FAIR-Prinzipien liegt in einer optimalen Aufbereitung von Forschungsdaten, die gemäß den Prinzipien auffindbar (findable), zugänglich (accessible), interoperabel (interoperable) und wiederverwendbar (reusable) sein sollen. Zentral ist dabei das Beschreiben von Forschungsdaten mit Metadaten sowie hinreichende dokumentarische Schritte. Auch nicht öffentlich zugängliche Forschungsdaten können den FAIR-Prinzipien entsprechen, wenn etwa die damit verbundenen Metadaten veröffentlicht werden. Der Begriff FAIR Data wurde erstmals 2016 von der FORCE 11-Community für ein nachhaltiges Forschungsdatenmanagement geprägt. Mittlerweile stellen die FAIR-Prinzipien eine zentrale Grundlage FDM-bezogener Anforderungen von Forschungsförderern wie der Europäischen Union oder des Schweizer Nationalfonds dar.

Zum Artikel

Forschungsdaten sind digitale oder analoge Daten, die während wissenschaftlicher Tätigkeit (z. B. durch Messungen, Befragungen, Quellenarbeit) entstehen, entwickelt oder ausgewertet werden bzw. auf diesen basieren. Sie bilden eine Grundlage wissenschaftlicher Arbeit und dokumentieren deren Ergebnisse. Was genau unter den Begriff Forschungsdaten fällt, variiert von Disziplin zu Disziplin.

Der Begriff Forschungsdatenmanagement bezeichnet strukturierte Maßnahmen im Kontext der Arbeit mit Forschungsdaten, die u. a. darauf abzielen, Daten unabhängig von den an der Erhebung beteiligten Personen langfristig nutz- bzw. nachnutzbar zu machen und somit die Effizienz der Forschung zu steigern (z. B. im Kontext der Forschung einer Arbeitsgruppe, aber auch mit Blick auf den weltweiten wissenschaftlichen Fortschritt). Ein weiteres Ziel besteht in der Umsetzung rechtlicher Vorgaben und ethischer guter Praktiken im Umgang mit sensiblen Daten, wie beispielsweise personenbezogenen Daten. Forschungsdatenmanagement umfasst nicht nur das Veröffentlichen von Daten (Open Data), sondern auch Maßnahmen entlang der vorangehenden Schritte des gesamten Datenlebenszyklus sowie der Datenarchivierung und -nachnutzung.

An einer Einrichtung eine allgemeingültige institutionelle Vorschrift (an Hochschulen häufig in Form einer Richtlinie), die sich an Forschende richtet und den Umgang mit Forschungsdaten während und nach einem Forschungsvorhaben mehr oder weniger verbindlich regelt. Der genaue Inhalt, die Rechtsverbindlichkeit sowie die Länge einer Policy kann zwischen einzelnen Einrichtungen stark variieren.

Zum Artikel

Forschungsdatenzentren sind Orte, an denen Daten archiviert und für eine breite wissenschaftliche Nutzung zugänglich gemacht werden. Sie nehmen u. a. in der Sozial-, Verhaltens-, Bildungs- und Wirtschaftsforschung eine zentrale Funktion ein. Neben Studiendaten der genannten Disziplinen widmen sie sich vor allem Geo- und Raumdaten, Finanzdaten, Register- und Sozialversicherungsdaten sowie statistischen Daten.

Forschungsdatenzentren sind nicht zu verwechseln mit Datenzentren oder Datenkompetenzzentren.

G

Unter Guter Wissenschaftlicher Praxis versteht man Schritte und Maßnahmen im Kontext wissenschaftlicher Prozesse zur Sicherstellung angemessener wissenschaftlicher Arbeit. In Deutschland sind hier insbesondere die Leitlinien der DFG zur Guten Wissenschaftlichen Praxis essenziell, da wissenschaftliche Einrichtung nur dann DFG-Gelder erhalten, wenn sie diese Leitlinien rechtsverbindlich umsetzen. Zahlreiche dieser Leitlinien wirken sich im Sinne des Forschungsdatenmanagements auf die Arbeit mit Forschungsdaten aus.

Zum Artikel

H

Als Harvesting bezeichnet man das systematische und strategische Browsen von Internetseiten und -inhalten durch Bots. Im Kontext des Forschungsdatenmanagements bezieht sich Harvesting überwiegend auf das automatische ‚Einsammeln‘ von Daten bzw. von Metadaten direkt aus Archiven und Repositorien oder über sogenannte Data-Provider (wie bspw. BASE oder OAIster oder Scientific Commons).

Für diesen Vorgang werden Harvesting-Protokolle verwendet, diese greifen Daten automatisiert ab. In vielen Fällen werden dokumentierte Programmierschnittstellen (API) zur Verfügung gestellt. Eines der am häufigsten verwendeten Harvesting-Protokolle für Metadaten ist das auf XML basierte Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH). Da eine Vielzahl sehr unterschiedlicher Metadatenstandards existieren, hat man sich für ein Harvesting per OAI-PMH für das Dublin-Core-Modell als kleinsten gemeinsamen Nenner für die Metadaten­repräsentation entschieden. Siehe auch: Text- und Data-Mining.

Hochleistungsrechnen (englisch: high-performance computing, abgekürzt HPC) umfasst einen Bereich des computergestützten Rechnens zur Bearbeitung komplizierter oder umfangreicher Berechnungen bzw. Datenanalysen. Hier stellen sich in der Regel große Anforderungen an Rechenleistung und Speicherkapazität; eine zentrale Rolle spielt ferner die parallele Verarbeitung von Rechenaufgaben. Entsprechend ausgestattete Rechencluster sind auf eine möglichst schnelle Anbindung und extrem kurze Antwortzeiten der jeweiligen Computereinheiten untereinander angewiesen.

Zum Artikel

I

Informierte Einwilligung (auch Informed Consent) bezeichnet einen Prozess, bei dem Forschende Forschungsteilnehmer*innen (z. B. Interviewpartner*innen) über das Projekt, in dem die Forschungsteilnehmer*innen beteiligt sind, informieren. Dies schließt die im Projekt erhobenen Daten ebenso ein wie die Frage, was mit diesen Daten geschieht. Auf dieser Basis sollen die Teilnehmer*innen freiwillig und informiert entscheiden können, ob sie die Zusammenarbeit akzeptieren oder ablehnen. Das Einholen einer informierten Einwilligung ist nach Art. 6 DSGVO nicht nur rechtlich verpflichtend, sondern auch forschungsethisch geboten, wenn in einem Forschungsprojekt personenbezogene Daten erhoben werden. Gleichzeitig bezeichnet Informierte Einwilligung (in den meisten Fällen) auch ein schriftlich vorliegendes, von den Teilnehmer*innen zu unterschreibendes Dokument. In einigen Fällen kann das Einholen einer schriftlichen informierten Einwilligung jedoch schwierig sein, z. B. in besonders sensiblen Forschungskontexten, in denen Teilnehmer*innen keine Unterschrift hinterlassen möchten oder können. In diesen Fällen kann die Alternative des mündlichen Consent (ohne Unterschrift, sollte aber bestmöglich dokumentiert werden) in Betracht gezogen werden. Auch ein prozessualer Consent (wiederholtes Einholen einer Einwilligung über den Projektverlauf hinweg) kann sich empfehlen, z. B. wenn eine besonders enge Einbindung der Teilnehmer*innen in den Forschungsprozess gewährleistet werden soll. Vorlagen und Empfehlungen zu den konkreten Inhalten eines Dokuments oder einer Sprechvorlage zur informierten Einwilligung gibt es z. B. beim FDZ Qualiservice. Die Anforderungen an eine informierte Einwilligung sind auch in Art. 7 DSGVO festgelegt.

Als Ingest (Übernahme) bezeichnet man das Aufnehmen von Forschungsdaten in ein Archiv oder Repositorium. Der technische Ingest – d.h. der reine Upload von Daten ins Speichersystem – wird ggf. durch Qualitätskontrollen (bspw. Auswahl bzw. Anpassung der Daten sowie der Dateiformate, Überprüfung der Metadaten oder der Vertraulichkeit) und verschiedene Aufbereitungsprozessen (Metadatenanreicherung etc.) begleitet. Die Workflows variieren je nach zu übernehmendem Inhalt und Archiv/Repositorium.

Interoperabilität bezeichnet generell das idealiter (möglichst) nahtlose Zusammenspiel unterschiedlicher Systeme, um z. B. Daten effizient austauschen zu können, sie maschinell zu interpretieren und automatisiert mit anderen Datensätzen zu kombinieren. Im Bereich des Forschungsdatenmanagements spielen neben kompatiblen Dateiformaten interoperable Metadaten eine zentrale Rolle. Interoperabilität ist ferner ein Kernbegriff der FAIR-Prinzipien.

J

JSON ist ein kompaktes, leicht lesbares und softwareunabhängiges Datenformat für den Datenaustausch zwischen Anwendungen. Es wird insbesondere bei Webanwendungen zur Übertragung von strukturierten Daten eingesetzt, um diese in andere Systeme bzw. Anwendungen zu integrieren. Für die die gleiche Information benötigt JSON bedeutend weniger Speicherplatz als ein XML, ist aber dafür nicht so vielseitig einsetzbar.

K

Ein kontrolliertes Vokabular ist ein normierter Sprachgebrauch, in dem ein Wort oder eine Phrase genau eine festgelegte Bedeutung hat. Kontrollierte Vokabulare werden zum Beispiel beim Vergeben von Schlagwörtern (engl. subjects oder topics) in Metadaten verwendet, um digitale Objekte zu beschreiben. Sie werden überdies oft in Normdateien (z. B. Gemeinsame Normdatei (GND)), Thesauri (z. B. Getty Arts & Architecture Thesaurus) oder Indexen hinterlegt. Eine zentrale Aufgabe kontrollierter Vokabulare ist die Verknüpfung von Synonymen (z. B. Auto/PKW), die zum gleichen Suchergebnis führen, sowie die Unterscheidung von verschiedenen Bedeutungen eines Begriffes (Bank als Sitzmöbel vs. Finanzinstitut). Im Kontext der FAIR-Prinzipien spielen kontrollierte Vokabulare eine zentrale Rolle, weil sie die Auffindbarkeit, Interoperabilität und Nachnutzbarkeit von Forschungsdaten erhöhen. Beispiele für kontrollierte Vokabulare sind die Data Documentation Initiative (DDI) Controlled Vocabularies oder der Getty Arts & Architecture Thesaurus (AAT). Kontrollierte Vokabulare können in Datenbanken wie BARTOC oder FAIRsharing recherchiert werden. Weiter als kontrollierte Vokabulare gehen Ontologien, die es zusätzlich erlauben, die Beziehungen zwischen Begriffen differenziert zu beschreiben.

Künstliche Intelligenz (KI) bezeichnet ein Teilgebiet der Informatik, in dem u. a. menschliche Entscheidungsstrukturen mittels computationeller Methoden nachgebildet werden. Dies führt dazu, dass maschinelle Anwendungen mittels Algorithmen kognitive Fähigkeiten wie Lernen, Urteilen und Problemlösen erbringen können, die auch im Forschungsdatenmanagement eingesetzt werden können. Der Begriff ist mangels einer eindeutigen Definition von „Intelligenz“ schwer zu definieren.

L

Langzeitarchivierung verfolgt das Ziel, über lange Zeiträume Zugang zu archivierten Daten zu bieten. Im Bereich Forschungsdatenmanagement hat sich eine Aufbewahrungsfrist von mindestens zehn Jahren als Standard für Forschungsdaten etabliert. Dabei gilt es, Datenverlust vorzubeugen, eine authentische Wiedergabe der Daten langfristig zu ermöglichen und ein geeignetes Archivierungssystem zu verwenden.

Zum Artikel

Eine Lizenz ist ein vertraglich vereinbartes Nutzungsrecht. Damit erlauben Rechteinhaber*innen (Lizenzgeber*innen) ihren Vertragspartner*innen (Lizenznehmer*innen), ein Werk auf verschiedene Arten zu nutzen (z. B. zu kopieren, zu speichern oder digital zugänglich zu machen). Vielfach verlangen die Lizenzgeber*innen dafür eine Lizenzgebühr. Neben solchen kommerziellen Lizenzen stehen auch freie Lizenzen beispielsweise die Creative-Commons-Lizenzen zur Verfügung. Diese gestatten die unentgeltliche Nutzung des Werkes.

Zum Artikel

M

Maschinell verwertbare Daten können von Computersystemen automatisch gefunden und verwendet werden, ganz ohne oder mit nur minimaler menschlicher Unterstützung. Voraussetzung für eine maschinelle Nutzbarkeit ist eine einheitliche Datenstruktur. Maschinen oder Computer, die diese Daten lesen und nutzen sollen, werden auf der Grundlage dieser Struktur programmiert.

Metadaten beinhalten strukturierte Informationen über Daten (z. B. Forschungsdaten) oder andere Ressourcen und deren Merkmale. Sie werden entweder unabhängig von oder zusammen mit den Daten, die sie beschreiben, abgespeichert. Meist wird zwischen fachlichen (z. B. verwendete Messinstrumente) und technischen bzw. administrativen (z. B. DOI) Metadaten unterschieden. Während letztgenannte einen dezidierten Status als Metadaten haben, können fachliche Metadaten bisweilen zusätzlich als Forschungsdaten begriffen und genutzt werden. Um die Wirksamkeit der Metadaten und somit z. B. des beschriebenen Datensatzes zu erhöhen, ist der Einsatz von Metadatenstandards wesentlich. Standardisierte Metadaten erhöhen die Auffindbarkeit und Nachnutzbarkeit der mit den Metadaten verbundenen Daten bzw. Ressourcen. So können durch Standards Metadaten und Daten unterschiedlicher Quellen miteinander verknüpft und gemeinsam bearbeitet werden.

Zum Artikel

Metadatenschemata organisieren die Struktur von Metadaten. Sie legen fest, welche Elemente zur Beschreibung von Objekten wie z. B. Forschungsdaten verwendet werden und welche Informationen in welcher Form angegeben werden sollen. Standardisierte Metadatenschema harmonisieren Datenerhebungen und erhöhen Interoperabilität sowie Qualität von Metadaten. Darüber hinaus ermöglichen strukturierte Metadaten die Maschinenlesbarkeit und den Austausch von Informationen zwischen verschiedenen Anwendungen und gewährleisten eine langfristige Nachnutzbarkeit.

Metadatenstandards wurden definiert, um die Interoperabilität, d. h. die Verknüpfung und gemeinsame Bearbeitung, von Metadaten zu gewährleisten. Sie dienen einer inhaltlich sowie strukturell gleichförmigen Beschreibung ähnlicher Daten. Ein Metadatenstandard kann oft durch ein sogenanntes Mapping in einen anderen Metadatenstandard überführt werden.

Zum Artikel

N

Die Nationale Forschungsdateninfrastruktur (NFDI) verfolgt das Ziel, Datenbestände von Wissenschaft und Forschung systematisch zu erschließen, diese zu vernetzen und nachhaltig sowie qualitativ nutzbar zu machen. Ziel der NFDI ist entsprechend der strategische Ausbau des Forschungsdatenmanagements in Deutschland. Dies geschieht u. a. über fachlich ausgerichtete Konsortien, die Diensteportfolios wie z. B. Beratungsangebote für ihre Fächer erarbeiten. Fachlich übergreifende Thematiken werden in NFDI-Sektionen behandelt. Die NFDI ist in Gestalt des gemeinnützigen Vereins Nationale Forschungsdateninfrastruktur (NFDI) e.V. mit Sitz in Karlsruhe organisiert.

Zum Artikel

Normdaten sind semantisch strukturierte, kontrollierte und gepflegte Datensätze zur eindeutigen Benennung und Verknüpfung von Inhalten (z. B. Personen, Schlagwörter, Körperschaften, Werke). Sie ähneln persistenten Identifikatoren in diesem Zweck, sind allerdings stärker inhaltlich aufbereitet, werden durch geschulte Kurator*innen angelegt und bieten z. B. Namensvarianten oder Verknüpfungen zu persönlichen Beziehungen, (Wirkungs-)Orten, Lebensdaten oder über- und untergeordneten Begriffen. Das Virtual International Authority File (VIAF) hat sich zum Ziel gesetzt, verschiedene international gebräuchliche Normdateien zu verknüpfen.

O

Das auf XML basierende Protocol for Metadata Harvesting (PMH) der Open Archives Initiative (OAI) unterstützt das automatisierte Harvesting von Metadaten über sogenannte Data und Service Provider, indem es die in Repositorien abgelegten Daten besser zugänglich macht. OAI-PMH ist weit verbreitet und einfach anzuwenden. Als standardisiertes Kommunikationsprotokoll ist es offen und universell implementierbar und entspricht so den FAIR-Prinzipien.

Eine Ontologie ist eine formale, maschinenlesbare Beschreibung von Fachbegriffen und deren Beziehung in einer bestimmten Domäne. Sie legt einheitliche Bezeichnungen, Konzepte und Relationen fest und bildet so die Grundlage für semantische Interoperabilität, Wiederverwendbarkeit und automatisierte Verarbeitung von Forschungsdaten. Im Unterschied zu Thesauri, die kontrollierte Vokabularien für die Verschlagwortung bereitstellen, definiert eine Ontologie Klassen, Relationen, Instanzen und Axiome in formaler Logik und ermöglicht damit z. B. Konsistenzprüfungen und automatische Verarbeitungen.

Open Access bezeichnet den kostenlosen und möglichst barrierefreien Zugang zu digitalen wissenschaftlichen Inhalten. In der Regel erhalten Nutzende umfangreiche Nutzungsrechte und einfache Zugangswege. Je nach Definition schließt Open Access mehrere Publikationsformen wie Texte, Forschungsdaten (Open Data) oder Bildungsmaterialien (Open Educational Resources) ein; andere Definitionen beziehen sich ausschließlich auf Textpublikationen. Durch Open Access können wissenschaftliche Informationen maximal verbreitet, (nachge-)genutzt und weiterverarbeitet werden. Im Fall von Textpublikationen unterscheidet man meist zwischen Gold Open Access (Veröffentlichung in Open-Access-Medien wie z.B. Open-Access-Zeitschriften gegen Publikationsgebühren), Green Open Access (Zweitveröffentlichung über z. B. Repositorien) und Diamond Open Access (Open-Access-Veröffentlichungen in z. B. Open-Access-Zeitschriften ohne Publikationsgebühren). Ausführliche Informationen zu Open Access bietet das Portal open-access.network.

Open Data bezeichnet im Internet offen zugängliche Daten, die von Dritten (nach-)genutzt werden dürfen. Nutzungsbezogene Einschränkungen existieren ausschließlich dahingehend, den Ursprung und die Offenheit der Daten zu wahren. So kann etwa im Fall urheberrechtlich geschützter Daten durch Nutzung von Creative-Commons-Lizenzen die Nennung des Urhebers zur Nutzungsbedingung für Nachnutzende werden. Das Ziel besteht darin, durch freie Nachnutzbarkeit ein höheres Maß an Transparenz zu bieten und Zusammenarbeit zu fördern. Im Unterschied zu Open Research Data (ORD) wird der Begriff Open Data oft synonym zu Open Government Data (offene Verwaltungsdaten von z.B. Behörden) verwendet.

Der Begriff Open Government Data (OGD), auch bekannt als öffentliche Verwaltungsdaten, bezeichnet Datenbestände des öffentlichen Sektors, die im Sinne von Open Data unter offenen Lizenzen im Internet frei zugänglich und nachnutzbar sind. OGD können z. B. journalistisch genutzt werden oder in wirtschaftlichen Kontexten bei der Entwicklung von neuen Produkten, Dienstleistungen und Geschäftsmodellen, sowie in Wissenschaft und Zivilgesellschaft zur Förderung der Forschung und der öffentlichen Wohlfahrt. Gemäß Open-Government-Strategien auf z. B. staatlicher Ebene werden offene Verwaltungsdaten von Behörden proaktiv über eigene Repositorien bereitgestellt.

Open Research Data (ORD), auch bekannt als offene Forschungsdaten, sind Forschungsdaten, die im Sinne von Open Data ohne rechtliche und technische Einschränkungen nachgenutzt und weiterverbreitet werden können. Die Urhebenden sollten bei einer Weiterverwendung im Sinne Guter Wissenschaftlicher Praxis auch dann genannt werden, wenn Daten formal nicht urheberrechtlich geschützt sind. Als Gründe für die Forderung nach offenen Forschungsdaten werden oft Nachvollziehbarkeit, Transparenz und Reproduzierbarkeit von Forschungsergebnissen angegeben. Zudem sollen offene Forschungsdaten Kooperationen in der Wissenschaft und darüber hinaus (z. B. mit der Wirtschaft) fördern sowie die Verbindung von Wissenschaft und Zivilgesellschaft stärken. Obwohl FAIR Data und offene Forschungsdaten im Kern nicht bedeutungsgleich sind, gibt es Überlappungen zwischen beiden Konzepten; so wird neben FAIR Data auch die Bedeutung von ORD oft mit "as open as possible as closed as necessary" wiedergegeben, um legitimen Zugriffseinschränkungen Rechnung zu tragen, etwa im Fall von personenbezogenen Daten oder betriebsinternen Informationen. ORD werden über Repositorien bereitgestellt und können über Metasuchmaschinen wie BASE oder OpenAIRE Explore recherchiert werden.

Open Science ist ein Oberbegriff für Grundsätze und Praktiken der wissenschaftlichen Arbeit, die darauf abzielen, (im Kontext der Digitalisierung) möglichst viele Schritte des Forschungsprozesses für Forschende und Gesellschaft frei zugänglich und nachnutzbar zu machen. Hierzu zählen etwa der Zugang zu wissenschaftlichen Publikationen (Open Access), die Entwicklung und Zugänglichmachung von Forschungssoftware (Open Source), die freie Verfügbarkeit von Daten aus Verwaltung, Wirtschaft und Forschung (Open Data) oder auch freie Materialien für die (Hochschul-)Lehre (Open Educational Ressources, OER). Auch Formen traditioneller wissenschaftlicher Arbeitskultur erfahren aufgrund des Open-Science-Gedankens einen Wandel (z. B. Open Peer Review, Citizen Science).

Produktion und Zugang zu wissenschaftlichen Erkenntnissen sollte nach den Prinzipien von Open Science integrativ, gerecht und nachhaltig sein. Ziele der Open-Science-Bewegung sind die Verbesserung von Transparenz und Reproduzierbarkeit, die Steigerung der wissenschaftlichen Effizienz, die Demokratisierung des Wissens sowie der damit verbundene Mehrwert für die Gesellschaft.

Die Open Researcher and Contributor ID (ORCID) ist ein institutionsunabhängiger, international anerkannter persistenter Identifikator zur eindeutigen Identifizierung von Personen. Alle natürlichen Personen können für sich selbst ORCIDs anlegen und im Profil Informationen wie z. B. einen Lebenslauf oder eine Publikationsliste führen. Jede ORCID besteht aus 16 Ziffern in vier Viererblöcken (z. B. 0000-0002-2792-2625). ORCIDs sind bei zahlreichen Forschungseinrichtungen, Verlagen und weiteren wissenschaftsnahen Einrichtungen etabliert und z. B. Bestandteil des Begutachtungsprozesses von Textpublikationen.

P

Persistente Identifikatoren bezeichnen dauerhafte digitale Identifikatoren, bestehend aus Ziffern und/oder alphanumerischen Zeichen, die Personen oder wissenschaftlichen Objekten (z. B. Textpublikationen, Datensätzen, Proben, Organisationen) zugeordnet werden und direkt auf diese verweisen.

Gängige Identifikatoren sind DOI für Publikationen, ORCID für Personen und ROR für Organisationen. Im Gegensatz zu anderen seriellen Identifikatoren wie z. B. URL-Adressen verweist ein persistenter Identifikator auf das Objekt selbst und nicht auf dessen Standort im Internet. Ändert sich der Standort einer mit einem PID assoziierten Ressource, so bleibt der Identifikator dennoch derselbe. So wird sichergestellt, dass ein Objekt dauerhaft auffindbar, abrufbar und zitierbar bleibt. Zentrale Anlaufstelle in Sachen persistente Identifikatoren ist das PID-Network.

Zum Artikel

Die Datenschutz-Grundverordnung (DSGVO) der EU definiert personenbezogene Daten als „alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person (im Folgenden „betroffene Person“) beziehen; als identifizierbar wird eine natürliche Person angesehen, die direkt oder indirekt, insbesondere mittels Zuordnung zu einer Kennung wie einem Namen, zu einer Kennnummer, zu Standortdaten, zu einer Online-Kennung oder zu einem oder mehreren besonderen Merkmalen, die Ausdruck der physischen, physiologischen, genetischen, psychischen, wirtschaftlichen, kulturellen oder sozialen Identität dieser natürlichen Person sind, identifiziert werden kann“ (Artikel 4 Nr. 1).

Das schweizerische Datenschutzgesetz (DSG) kommt zu einer inhaltlich ähnlichen Definition und bezeichnet als „Personendaten: alle Angaben, die sich auf eine bestimmte oder bestimmbare natürliche Person beziehen“. (Artikel 5 Buchstabe a)

Platform-as-a-service (PaaS) bezeichnet die cloudbasierte Bereitstellung von Laufzeitumgebungen im Kontext der IT-Entwicklung, meist gegen ein Nutzungsentgelt. Die Vor- und Nachteile von PaaS sind vergleichbar mit denen von Software-as-a-Service (SaaS): Auslagerung der Bereitstellung und Wartung der benötigten IT-Infrastruktur an externe Dienstleister sowie Entstehung einer potentiellen Abhängigkeit von diesem Dienstleister, der Erfordernis einer permanenten und stabilen Internetverbindung und eventuelle Hürden im Umgang mit sensiblen Daten.

Primärdaten (auch bekannt als Rohdaten oder Originaldaten) bezeichnen direkt aus Datenerhebungen gewonnene beziehungsweise aus Untersuchungen oder Beobachtungen erhobene Daten (z. B. unbearbeitete, ungeprüfte oder unkommentierte Messdaten oder Audio- und Videoaufzeichnungen). Aus Primärdaten abgeleitete bzw. prozessierte Daten werden als Sekundärdaten bezeichnet.

Proprietär bedeutet, dass etwas im Besitz einer bestimmten Firma, Person oder Organisation ist. Proprietäre Dinge sind nicht frei zugänglich, unterliegen Nutzungsbeschränkungen und ihre Nutzung ist abhängig vom Anbietenden. Dies betrifft häufig Software, Dateiformate oder Schnittstellen. Für Nachnutzbarkeit und Archivierung sind insbesondere proprietäre Dateiformate problematisch und sollten daher, wo möglich, durch quelloffene Alternativen ersetzt werden.

Eine Prüfsumme ist ein aus einem digitalen Objekt (z. B. Datei oder Datensatz) berechneter (Zahlen-)Wert zur Kontrolle der Integrität des digitalen Objekts. Dabei wird der Algorithmus zur Berechnung der Prüfsumme so gewählt, dass eine Veränderung des digitalen Objekts auch zu einer Veränderung der Prüfsumme führt. Wird das digitale Objekt kopiert, so können die Prüfsummen von Ursprungsdatei und kopierter Datei berechnet und verglichen werden. Weichen die Prüfsummen voneinander ab, so wurde beim Kopieren ein Fehler gemacht. Eine einfache Form der Prüfsumme sind die Prüfziffern von IBAN oder ISBN. Die Prüfsummen für Dateien, die beispielsweise von Datenrepositorien berechnet werden, um die Unverändertheit der Daten zu überprüfen, basieren meist auf sogenannten kryptographischen Hash-Funktionen, die auf den Bitstream angewendet werden. Diese Funktionen reagieren auf kleinste Änderungen der Ausgangsdaten mit nahezu vollständig anderen Prüfsummen. Ein Beispiel für eine solche Hash-Funktion ist die MD5-Funktion, die von Zenodo oder RADAR genutzt wird. Die Prüfsumme ist hierbei eine 32-stellige Hexadezimalzahl.

Bei der Pseudonymisierung personenbezogener Daten werden direkte oder indirekte Indikatoren (z. B. Name, Alter, Wohnort) durch Pseudonyme (z. B. Buchstaben- und/oder Zahlencode) ersetzt, um die Identifizierung der den Daten zugrundeliegenden Personen zu erschweren oder auszuschließen. Schlüsseldateien, in denen die originalen Werte den jeweils ersetzenden Werten zugeordnet werden, erlauben es, Pseudonymisierungen rückgängig zu machen. Um den Schutz der Forschungsteilnehmer*innen zu gewährleisten, muss beim Forschungsdatenmanagement darauf geachtet werden, pseudonymisierte Daten und Schlüsseldateien getrennt aufzubewahren. Anders als anonymisierte Daten unterliegen pseudonymisierte Daten nach wie vor Datenschutzbestimmungen, da Personenbezüge über Pseudonymisierungsschlüssel wiederhergestellt werden können.

R

ReadMe-Dateien enthalten kompakte und strukturierte Informationen zu digitalen Medien wie Forschungsdaten und Software, um bei der Orientierung über diese Medien sowie bei deren Nutzung zu unterstützen. Zu diesem Zweck versammeln ReadMe-Dateien z. B. zentrale Metadaten, stellen Informationen zu verwendeten Benennungsstandards bereit, nennen Ordnerstrukturen, Abkürzungen und Normdaten und zeichnen Änderungen an sowie Versionierungen von Forschungsdaten auf. Sie liegen häufig als einfache Textdatei oder in xml-Form vor (.txt; .md; .xml) und können so bei der strukturierten Ablage von Forschungsdaten unterstützen oder begleitend zu etwa Forschungsdaten archiviert sowie publiziert werden.

Weitere Informationen im Text “Datendokumentation”

Rechte an bzw. über Daten können aus zwei Blickwinkeln definiert werden. Aus Sicht der Forschenden sind dies Entscheidungsbefugnisse über die Daten, die sich aus der Erzeugung ergeben. Aus Sicht von Nutzerinnen und Nutzern handelt es sich um die Rechte, welche bei Nachnutzung von Daten zu beachten sind. Rechte können in Form von Lizenzen und zugehörigen Lizenztexten sowie Vereinbarungen in rechtlich verbindlicher Form festgelegt und kommuniziert werden.

Für die Nachnutzung von Daten  gelten mindestens die Regeln der Guten Wissenschaftlichen Praxis, d. h. im Wesentlichen die Pflicht, Urheber korrekt zu zitieren (Urheberrecht). Mit Vergabe der Creative-Commons-Lizenz CC-BY lässt sich diese Regel durch den Datenerzeuger auch lizenzrechtlich weitgehend nachbilden. Datenschutz-, patent- und persönlichkeitsrechtliche Einschränkungen können die Nachnutzung erschweren.

Eine Replikationsstudie ist eine wissenschaftliche Untersuchung, die überprüft, ob die Ergebnisse einer vorangegangenen Untersuchung reproduzierbar ist.

Der Begriff Replizierbarkeit bezeichnet in der Wissenschaft den Prozess, bei dem eine Studie mit neuen Daten wiederholt wird, wobei jedoch das ursprüngliche Forschungsdesign und die ursprüngliche Analyse verwendet werden, um ähnliche Ergebnisse zu erzielen. Die Replizierbarkeit ist von zentraler Bedeutung für die Bestätigung von Forschungsergebnissen und die Glaubwürdigkeit der Wissenschaft, da sie Fehler und Abweichungen in der ursprünglichen Forschung aufdeckt und zur Integrität der Wissenschaft beiträgt.

Reproduzierbarkeit bezeichnet die Möglichkeit, mit denselben Daten und Methoden das gleiche Ergebnis erzielen zu können. Dies ist wichtig für die Prüfung bzw. das Nachvollziehen von Forschungsergebnissen. Voraussetzung für reproduzierbare Ergebnisse ist eine gute Dokumentation, die sowohl die Ausgangssituation als auch die Analyse ordnungsgemäß beschreibt, sowie der Zugang zu (Roh-)Daten, Werkzeugen und Ergebnissen.

Der Begriff Repositorium bezeichnet einen Speicher- und Publikationsort für digitale Objekte. Generell wird zwischen Repositorien für Textpublikationen und Repositorien für Forschungsdaten unterschieden – es existieren allerdings auch hybride Repositorien, die beide Publikationstypen aufnehmen. Repositorien untergliedern sich ferner in generische, disziplinspezifische und institutionelle Repositorien: Während generische Repositorien disziplinübergreifend ausgerichtet sind, widmen sich disziplinspezifische Repositorien fachlich enger zugeschnittenen Datentypen oder Textpublikationen; institutionelle Repositorien stehen ausschließlich Mitarbeitenden einzelner Institutionen oder Institutionsverbände offen. Repositorien eignen sich nicht nur zur Ablage von Daten, sondern verschreiben sich auch deren Auffindbarkeit und Nachnutzbarkeit durch Dritte, indem sie im Falle von Forschungsdatenrepositorien entweder Daten als solche oder deren Metadaten zugänglich machen. Für Forschungsdaten spielen Repositorien damit eine zentrale Rolle, da sie die Umsetzung der FAIR-Prinzipien unterstützen. Dies geschieht insbesondere durch die Vergabe von Metadaten, persistenten Identifikatoren und standardisierten Schnittstellen.

Zum Artikel

S

Bei der Schaffung eines Objektes bzw. Projektes kann die Persönlichkeit der erschaffenden Person im Ergebnis zum Ausdruck kommen. Das Ausmaß davon definiert die geistige Schöpfungshöhe (auch Gestaltungshöhe oder Werkhöhe), die in vielen Rechtsordnungen für die urheberrechtliche Schutzwürdigkeit entscheidend ist. In Deutschland kommt es wesentlich darauf an, dass kein äußerer Zwang (Zielstellung, Funktionalität, Objektivität usw.), sondern der Mensch das Ergebnis individuell gestaltet. Erreicht ein wahrnehmbares Schaffen eines Menschen die nötige Schöpfungshöhe, spricht man von einem Werk.

Werke sind in der Regel bis 70 Jahre nach dem Tod der Urhebenden urheberrechtlich geschützt. Das kann bspw. für korpuslinguistische oder diskursanalytische Forschungsdaten relevant sein, wo zeitgenössische Texte Forschungsdaten darstellen können, die aber nicht unbedingt frei geteilt werden dürfen. Dasselbe kann aber auch schon für komplexe Fragebögen gelten, die manchmal bereits die Schöpfungshöhe erreichen.

In Liechtenstein, Österreich und der Schweiz spielt die Schöpfungshöhe keine Rolle, hier wird nur geistige Schöpfung und ein gewisses Maß an Individualität (also Abgrenzung von zuvor Vorhandenem) verlangt.

Sekundärdaten bezeichnen aus Primärdaten abgeleitete bzw. prozessierte Daten und sind somit Ergebnis der Primärdatenverarbeitung. Die Verwendung von Sekundärdaten kann Ressourcen sparen, wobei jedoch im konkreten eigenen Forschungs- bzw. Projektfall kritisch darauf geachtet werden sollte, wie relevant und spezifisch die Daten für das eigene Forschungsvorhaben sind und wie diese Daten rechtlich nachgenutzt werden dürfen.

Semantic Web bezeichnet Aktivitäten mit dem Ziel, das World Wide Web um eine semantische Schicht zu erweitern. Diese ermöglicht den maschinellen Austausch von Informationen und beinhaltet die Kontextualisierung zentraler Begriffe einer Webseite um Metadaten, sodass bspw. klar wird, ob es sich bei ‚Berlin‘ um die Hauptstadt Deutschlands, eine andere Stadt oder einen Namen handelt. Um Maschinen den Kontext eines Begriffes zu vermitteln, wird auf maschinenlesbare Metadatenstandards zurückgegriffen.

Unter sensiblen Daten versteht man Daten, die aus bestimmten Gründen besonders schützenswert erscheinen. Zum Teil handelt es sich dabei um eine Unterkategorie personenbezogener Daten und bezeichnet solche Daten, die besonders intime Details zur Identität einer Person enthalten. Diese Daten können beispielsweise für die soziologische, psychologische und medizinische Forschung sehr wertvoll sein, unterliegen aber im DACH-Raum noch stärkerem Schutz als personenbezogene Daten ohnehin.

Sensible Forschungsdaten können beispielsweise Folgendes umfassen:

  • Geschäftsgeheimnisse
  • Geodaten (bspw. zu Vorkommen gefährdeter Arten, z. B. seltene Pflanzen, Wanderrouten von Tieren wie Wale/Elefanten; zu Orten von Kultur- oder Ausgrabungsstätten, Satellitendaten in Bezug auf mögliche militärische Nutzung)
  • weitere Informationen zur nationalen Sicherheit
  • „Besondere Kategorien personenbezogener Daten“ / „sensible Personendaten“: Wenn Personen betroffen sind, können personenbezogene Daten Folgendes offenlegen:
    • Ethnie oder ethnische Herkunft
    • politische Meinungen
    • Gewerkschaftsmitgliedschaft
    • religiöse oder philosophische Überzeugungen
    • genetische, biometrische oder Gesundheitsdaten
    • Sexualleben oder sexuelle Orientierung
    • Geschlechtsidentität

Software-as-a-Service (SaaS) bezeichnet Software, die meist gegen ein Nutzungsentgelt durch einen IT-Dienstleister in einer Cloudinfrastruktur bereitgestellt wird und die der Kunde üblicherweise über einen Webbrowser nutzt. Der wichtigste Vorteil dieses Geschäftsmodells ist, dass die für das Betreiben der Software notwendige IT-Infrastruktur vom externen Dienstleister zur Verfügung gestellt wird und dieser die Software aktualisiert sowie weiterentwickelt. Wichtige Nachteile von SaaS sind, dass die Software nur gegen Nutzungsentgelt zur Verfügung steht und dadurch Abhängigkeiten entstehen können. Darüber hinaus kann der Umgang von SaaS insbesondere mit sensiblen Daten problematisch ein, da deren Verarbeitung - und oft auch Speicherung - auf den Servern des externen Dienstleisters erfolgt. Überdies erfordert die Nutzung von SaaS-Produkten eine permanente und stabile Internetverbindung. 

Laut Definition der DINI/nestor AG Forschungsdaten beinhaltet ein Softwaremanagementplan (SMP) allgemeine und technische Informationen zum Softwareprojekt, Angaben zur Qualitätssicherung, zum Release und zur öffentlichen Verfügbarkeit sowie rechtliche und ethische Aspekte, die die Software betreffen.

Der SMP fasst Informationen zusammen, die die Erstellung, Dokumentation, Speicherung, Versionierung, Lizenzierung, Archivierung und/oder Veröffentlichung der in einem Projekt erzeugten oder verwendeten Software hinreichend beschreiben und dokumentieren. Dazugehörige Hardware und notwendige andere Ressourcen, aber auch damit verbundene weitere Software und Softwarebibliotheken, Text- und Datenpublikationen sind ebenfalls zu beschreiben und stellen eine Besonderheit des SMP dar.

Zweck eines SMPs ist zunächst die Nachvollziehbarkeit sowie ggf. die langfristige Nutzbarkeit der Software (zur direkten Anwendung sowie zur Weiterverarbeitung) zu unterstützen und den Support der Nutzer*innen bei Rückfragen zu erleichtern. Der SMP dient folglich auch der Qualitätssicherung (vgl. hierzu FAIR4RS Principles).

Der SMP kann in Verbindung zu einem oder mehreren Datenmanagementplänen (DMP) stehen, falls die Software zur Datengenerierung oder -verarbeitung genutzt wird. SMP und DMP können als Output-Pläne zusammengefasst werden (vgl. Software Sustainability Institute).

Zum Artikel

T

Unter diesem Begriff versteht man die Anwendung automatisierter, statistischer Analysemethoden auf große Datenbestände. Die Auswertung wird computergestützt meist mit Hilfe von komplexen Algorithmen in Datenbanken vorgenommen. Im Rahmen von Data Mining kommen häufig auch künstliche Intelligenz (KI) und zunehmend Visualisierungstechniken zum Einsatz. Das Ziel ist, bislang unbekannte Muster im Datenmaterial zu entdecken und automatisiert Hypothesen zu generieren. Der Begriff Text Mining wird verwendet, wenn die Daten unstrukturiert vorliegen, insbesondere als Text. Manchmal wird die Bezeichnung Data Mining auch ungenau als Schlagwort für die Erfassung, Speicherung und Verarbeitung großer Datenmengen verwendet.

Ein Thesaurus ist ein kontrolliertes Vokabular, das Wörter nach Themenbereichen ordnet. Dabei werden Verbindungen zu Synonymen, Antonymen und thematisch verbundene Wörter aufgezeigt. Es werden bevorzugte Begriffe hervorgehoben, sowie über- und untergeordnete Begriffe aufgelistet. Deutlich weitergehende Möglichkeiten, Beziehungen zwischen Begriffen zu beschreiben, bieten Ontologien.

U

In Kontinentaleuropa unterliegt die Nutzung von literarischen, künstlerischen und wissenschaftlichen Werken (also urheberrechtlich geschützten Erzeugnissen), den Beschränkungen des jeweiligen nationalen Urheberrechts. Sofern den Nutzenden dieser Werke nicht weitere Nutzungsrechte durch eine weiterführende Lizenz (z. B. durch eine Creative-Commons-Lizenz) eingeräumt werden, ist die Nachnutzung der Werke nur im Rahmen der restriktiven Erlaubnisregelungen des jeweiligen Gesetzes möglich.

Ob Forschungsdaten urheberrechtlich geschützt sind oder nicht, ist davon abhängig, ob die Anforderungen an die geistige Schöpfungshöhe erfüllt werden. Die genaue Anforderung unterscheidet sich von Staat zu Staat und wird ggf. durch verwandte Schutzrechte ergänzt: So kann in Deutschland für Datensätze, an denen kein Urheberrecht besteht, immer noch Leistungsschutz oder das Datenbankschutzrechts bestehen. Da das Vorliegen der Voraussetzungen im Einzelfall geprüft werden muss, ist im Zweifelsfall die Beratung durch einen Fachanwalt/eine Fachanwältin empfehlenswert.

Um eine maximale Nachnutzbarkeit wissenschaftlicher Forschungsdaten zu gewährleisten, die prinzipiell dem Urheberrechtsgesetz unterliegen können, sollte die Vergabe von zusätzlichen Nutzungsrechten, z. B. durch eine entsprechende Lizenzierung der Daten, in Betracht gezogen werden. Die Vergabe solcher Lizenzen führt meist zu einer höheren Nutzung der Daten in der wissenschaftlichen Forschung und kann so zu einem Reputationsgewinn der Forschenden, auch über die Grenzen der jeweiligen Fachcommunity hinaus, beitragen.

Zum Artikel

URN ist die Bezeichnung eines Identifizierungs- und Adressierungssystems. Dieses wird ähnlich wie ein DOI zur persistenten Identifikation digitaler Objekte (z. B. Textpublikationen oder Datensätze) verwendet. Er ist vor allem im deutschsprachigen Raum sehr verbreitet, da die Deutsche Nationalbibliothek im Rahmen des URN-Services URNs zur persistenten Identifikation und Adressierung anwendet, administriert und auflöst.

V

Da sich Daten verändern, wenn man mit ihnen arbeitet, empfiehlt sich die Kennzeichnung einzelner Arbeitsstände und damit verbundener Veränderungen mithilfe von Versionierungen. Hierfür sollte ein vorab mit weiteren Beteiligten abgesprochenes, festgelegtes sowie einfach verständliches Versionierungsschema (z. B. Version 1.3 oder Version 2.1.4) genutzt werden. Versionierungen sollten während des Forschungsprozesses selbst stattfinden, etwa um verschiedene Arbeitsversionen von Daten zu kennzeichnen, sowie bei Veränderungen an bereits veröffentlichten Forschungsdatensätzen, um Nachnutzenden bei der Arbeit mit Daten Orientierung zu bieten sowie ihnen korrekte Zitationen zu ermöglichen. Die Versionierung von Daten kann entweder manuell oder mittels Versionierungssoftware wie Git erfolgen.

Virtuelle Forschungsumgebungen (VFU) sind Softwarelösungen bzw. Plattformen zur ortsunabhängigen Zusammenarbeit zwischen Wissenschaftler*innen. Hierbei handelt es sich primär um anwendungsorientierte Dienste institutioneller Infrastruktureinrichtungen für bestimmte Forschungsverbünde oder -communitys. VFUs vereinen vor allem fachspezifische Tools, Toolsammlungen und Arbeitsumgebungen.

X

XML ist eine Auszeichnungssprache zur Speicherung hierarchisch strukturierter Informationen als einfache Textdatei. Diese Sprache wird hauptsächlich im plattformunabhängigen Datenaustausch zwischen Anwendungen bzw. Computern benutzt. Die Kodierung ist sowohl maschinen- als auch menschenlesbar - dadurch kann Gestalt und Inhalt kodierter Informationen sehr genau beschrieben werden. Mithilfe von XSL (XML Stylesheet Language) ist es möglich, die gespeicherten Informationen zu interpretieren und in andere Dateiformate umzuwandeln.

Z

Zertifizierung bezeichnet im Forschungsdatenmanagement in der Regel das Kennzeichnen von bestimmte Standards erfüllenden Repositorien. So ist von außen ersichtlich, dass ein Repositorium vertrauenswürdig und qualitativ hochwertig ist – die Abwesenheit eines Zertifikats bedeutet allerdings nicht automatisch, dass ein Repositorium qualitativ minderwertig ist.

Beim Zertifizierungsprozess wird durch ein unabhängiges Gremium anhand verschiedener Kriterien (z. B. organisatorische und technische Maßnahmen) geprüft, ob die langfristige Kuration und Bereitstellung der Daten bzw. der Erhalt deren Nutzbarkeit für das Repositorium sichergestellt sind. Ein Zertifikat wird jeweils nur für einen zeitlich begrenzten Zeitraum (beispielsweise drei Jahre) vergeben, dann muss sich das Repositorium einer erneuten Prüfung unterziehen.

Ein international anerkanntes Zertifikat für Forschungsdatenrepositorien ist beispielsweise das CoreTrustSeal (CTS).

Je nach Fachbereich und Forschungsdisziplin bestehen für das Zitieren wissenschaftlicher Datenpublikationen unterschiedliche Zitationsgewohnheiten bzw. -vorgaben. Für die Zitation von Forschungsdaten existiert derzeit (noch) kein einheitlicher Standard, allerdings hat die Data Citation Synthesis Group in ihrer Joint Declaration of Data Citation Principles fachübergreifende Empfehlungen formuliert. Entscheidend ist etwa der Einbezug persistenter Identifikatoren in Zitationen.

Zum Artikel