Projektebene

In den DIKUSA-Projekten sind durch Aufarbeitung wissenschaftlicher Quellen digitale Wissensbasen entstanden. Dies ist unter Verwendung unterschiedlicher Lösungen zur Datenerfassung - wie dem im Projekt entstandenen Tool Weedata - in an die jeweilige Forschungsfrage angepassten Datenmodellen erfolgt. Um eine spätere Integration der Datensätze zu erleichtern, wurde verstärkt auf den Einsatz von Normdaten wie GND oder Wikidata geachtet.

Datenitegrationsworkflow
Datenitegrationsworkflow
Datenebene / Austauschebene

Um dem Ziel des Zusammenführens der in den Projekten entstehenden Daten näher zu kommen, wurde die DIKUSA Core Ontology (DCO) als gemeinsames Datenmodell entwickelt, in das die Daten aus den Wissensbasen der DIKUSA-Projekte konvertiert wurden. Dabei wurden zentrale Kategorien sowie typische Eigenschaften von Entitäten und übliche Beziehungen zwischen ihnen abgebildet. Die Datensätze sind über das gitlab-System der Sächsischen Akademie der Wissenschaften zu Leipzig abrufbar und werdne auch von dort für die Datenintegration bezogen. Gleichzeitig wurden kontrollierte Vokabulare von zentraler Bedeutung identifiziert, mit persistenten Identifikatoren versehen und in einem gemeinsamen Skosmos-System abgelegt, umd die enthaltenen Konzepte auflösbar zu machen und eine Recherchierbarkeit zu gewährleiosten.

Diensteebene

Um nun zentrale Dienste anbieten zu können, erfolgt ein Zusammenführen der Daten der DIKUSA-Projekte. Die Integration wird auf der Ebene der Entitäten (wie Orte, Personen, Institutionen) durchgeführt, indem Normdatenverknüpfungen berücksichtigt werden. Provinienzangaben werden übernommen bzw. ergänzt, um später alle Aussagen möglichst auf ihren Ursprung zurückführen zu können. Schließlich erfolgt eine Vergabe von persistenten Identifikatoren, um eine dauerhafte Referenzierbarkeit zu gewährleisten und für die erfassten Kulturdaten einen eigenen Referenzindex aufbauen zu können.

DIKUSA Foschungsdaten im SAW Gitlab Publikation: Vernetzung von Kulturdaten in Sachsen - Auf dem Weg zum DIKUSA-Forschungsdatenregister als Schlüssel zur Datenintegration
Zentraler Wissensgraph

So entsteht zunächst ein zentraler Wissensgraph, der sich aus den Daten der Projekte speist und diese integriert bereitstellt. Der Graph basiert auf RDF, folgt dem Schema der DIKUSA Core Ontology und wird mittels Apache Jena Fuseki, eines Speichers für Wissensgraphen mit SPARQL-Schnittstelle, entsprechend der Linked Open Data-Prinzipien frei zugänglich gemacht.

Fakten zum Graph
  • Datenliefernde Projekte: derzeit 3
  • Anzahl Kanten (Aussagen): 832799
  • DIKUSA Wissensgraph SPARQL Frontend
    Forschungsdatenregister

    Zur Darstellung der Inhalte des zentralen Wissensgraphen wurde ein Prototyp eines Forschungsdatenregisters erstellt.

    Das Register soll eine Übersicht zu in Projekten entstandenen Datensätzen ermöglichen und Einblick geben, in welchen Projekten zu spezifischen Entitäten geforscht wurde. Die Umsetzung erfolgt auf Basis von Wikibase. Das Wikibase-System erlaubt eine übersichtliche Darstellung strukturierter und verknüpfter Daten und ermöglicht deren Recherchierbarkeit – zentrale Anliegen des Registers.

    Im Gegensatz zum Wissensgraph mit seinem universellen, aber komplexen und verschachtelten Datenmodell setzt das Register dabei auf eine flache, kompakte und übersichtliche Struktur mit dem Fokus auf Menschenlesbarkeit. Dabei werden für Entitäten der Hauptkategorien wie Personen, Orte und Institutionen jeweils auf eigenen Unterseiten zentrale Relationen und Attribute dargestellt und stets mit Provenienzinformationen unterlegt.

    Fakten zum Register
  • Anzahl Personen: 178
  • Anzahl Institutionen: 250
  • Anzahl Orte: 6889
  • Anzahl Objekte: 719
  • Anzahl Schriften: 303
  • Absehbar soll der zentrale Wissensgraph bzw. das Register als Basis für einen Reconciliationdienst dienen und in die bestehende Dikúdex-Infrastruktur integriert werden. Dies soll eine Referenzierbarkeit sicherstellen und eine Integration zukünftiger Forschungsdaten ermöglichen.

    Durch das beschriebene Vorgehen entsteht eine erweiterbare Infrastruktur, die es den geisteswissenschaftlichen Forschungseinrichtungen in Sachsen erleichtert, digitale Forschungsprojekte durchzuführen, Daten zu erfassen und zu verknüpfen, ohne für jeden Einzelaspekt individuelle Lösungen konzipieren zu müssen.

    DIKUSA Forschungsdatenregister
    Skosmos Vokabularverwaltung

    In den Teilprojekten sind bei der Erstellung der Wissensbasen vielfach Sammlungen von Bezeichnern - sogenannte kontrollierte Vokabulare - entstanden. Derartige Begriffslisten bzw. -hierarchien sind wertvolle Ressourcen zur Beschreibung von Daten, auch in zukünftigen Projekten. Daher wurden derartige Vokabulare aus den Wissensbasen extrahiert und in der verbreiteten Beschreibungssprache skos zunächst über github zugänglich gemacht.

    cUm die kontrollierten Vokabulare auch offen zugänglich in menschenlesbarer Form anbieten zu können, wurde zusätzlich ein Skosmos eingerichtet, ein System zur Darstellung und Verwaltung von Vokabularen. Auf diese Weise wird eine Recherchierbarkeit in den mit ihren Metadaten abgelegten Ressourcen gewährleistet. Gleichzeitig bietet sich skosmos an, um die enthaltenen Konzepte auflösbar zu machen, ihnen also eine feste URL zuzuordnen unter der sie gefunden werden können. Durch die Verwendung von PIDs (auf purl-Basis) wird diese Referenzierbarkeit dauerhaft gewährleistet und durch Verweise auf die Originaldaten ist auch diese Verbindung hergestellt.