Core Ontology

Einleitung

Die Erfassung strukturierter digitaler Daten nimmt in Forschungsprojekten der Digitalen Geisteswissenschaften immer häufiger eine zentrale Rolle ein. Diese Entwicklung ist zu begrüßen, ermöglicht sie doch eine niedrigschwelligere Nachnutzung der Forschungsergebnisse. In der Praxis stehen unter anderem eine Vielzahl unterschiedlicher Datenformate und Schemata, in denen die Daten beschrieben bzw. abgespeichert sind, einer Nachnutzung oder gar einer einfachen Integration mit anderen Datensätzen im Weg - in DIKUSA gehen wir deshalb mehrere Schritte weiter.

Datenerfassung und Datenintegration in DIKUSA

Die sechs Teilprojekte von DIKUSA bearbeiten jeweils ihre eigenen Forschungsfragen und erfassen dabei ihre Daten in einem individuellen Datenmodell. Dieses Modell ist an die Bedürfnisse der spezifischen Ausgangsdaten und an die geplanten Analyseprozesse angepasst und ermöglicht es, Feinheiten der jeweiligen wissenschaftlichen Fragestellungen korrekt zu beschreiben. Allein auf dieser Basis wäre eine Datenintegration ein mühsamer und manueller Prozess. Zentraler Aspekt und Ziel von DIKUSA ist jedoch die Ermöglichung des Datenabgleichs und der Datenintegration zwischen den beteiligten Projekten bzw. Institutionen. Daher wurden die infrastrukturellen Grundlagen geschaffen, um dies zu ermöglichen und im Projekt praktisch umzusetzen.

In DIKUSA spielen daher zwei Aspekte eine zentrale Rolle, die den Prozess der Datenintegration ermöglichen und unterstützen:

  1. eine Identifikation von Entitäten (wie Personen oder Orten) über persistente Identifikatoren (wie GND, Wikidata, HOV): dies ermöglicht eine direkte Zuordnung von Entitäten wie Personen, Orten oder Events auf der Objektebene.
  2. eine Bereitstellung der Daten in einer festgelegten Beschreibungssprache und einem gemeinsamen, standardisierten Datenmodell, der RDF-basierten DIKUSA Core Ontology: die in die Core Ontology überführten Daten erlauben es, auch die Beschreibungen der Entitäten (wie Namen oder Lebensdaten) oder Beziehungen zwischen ihnen (wie private oder arbeitsbezogene zwischenmenschliche Beziehungen, Teilnahmen an Veranstaltungen und vieles mehr) zu vereinheitlichen und aufeinander abzubilden.

Die Core Ontology:

Die zentralen Klassen der Ontologie sind dabei orientiert an den in den Projekten erfassten Forschungsdaten. Als typische Entitäten stellten sich dabei heraus:

Die einzelnen Klassen sind dabei so angelegt, dass sie typische Eigenschaften der jeweiligen Entität beschreiben können (eine Person hat beispielsweise einen Namen und ein Geburtsdatum) sowie die typischen Relationen zu anderne Entitäten (eine Person lebt an einem Ort, wurde in einem Ort geboren, steht in Beziehungen zu anderen Personen). Dabei wurde auf möglichst große Systematik und Universalität beim Anlegen der Ontologie geachtet.

Verfügbarkeit

Die Ontologie in ihrer aktuellen Version wird auf github bereitgestellt. Neben der Schema-Beschreibung in RDFS mit integrierten SHACL-Constraints finden Interessierte dort Beispieldaten und eine erste Dokumentation. Mittlerweile ist Version 1.0 der Ontologie finalisiert, die im Sinne möglichst breiter Nachnutzbarkeit entsprechend der FAIR-Prinzipien zusätzlich im Forschungsdatenrepositorium RADAR4Culture unter https://dx.doi.org/10.22000/xxDiXtLrXbLCedbS zur Verfügung steht. Ergänzend steht ein Toolkit zur Validierung bereit, um RDF-Daten auf ihre formale Korrektheit zu überprüfen.

Verwendung

Die Core Ontology bildet die Grundlage eines gemeinsamen RDF-basierten Wissensgraphen, der auf die in den Teilprojekten gesammelten Daten aufbaut und diese zusammenführt. Dieser zentrale Wissensgraph wiederum ist Ausgangspunkt für mögliche Anwendungen, die die Daten zugänglich, recherchierbar und nachnutzbar machen, so wie das in DIKUSA auzfgebaute Forschungsdatenregister.

Verfügbarkeit

Die Ontologie in ihrer aktuellen Version wird auf github bereitgestellt. Neben der Schema-Beschreibung in RDFS mit integrierten SHACL-Constraints finden Interessierte dort Beispieldaten und eine erste Dokumentation. Mittlerweile ist Version 1.0 der Ontologie finalisiert, die im Sinne möglichst breiter Nachnutzbarkeit entsprechend der FAIR-Prinzipien zusätzlich im Forschungsdatenrepositorium RADAR4Culture unter https://dx.doi.org/10.22000/xxDiXtLrXbLCedbS zur Verfügung steht.

Ergänzend steht ein Toolkit zur Validierung und zur Konvertierung bereit, um RDF-Daten auf ihre formale Korrektheit zu überprüfen.