Scribe ID AI

Automatische Schreiber-Erkennung in Manuskripten aus dem 12. Jahrhundert durch Anwendung Künstlicher Intelligenz

Buchseite aus dem Datensatz
Buchseite aus dem Datensatz

Monastische Schriftlichkeit im hochmittelalterlichen Österreich

Niederösterreichs Klöster verfügen über umfangreiche Sammlungen mittelalterlicher Handschriften. Durch ein umfassenderes Wissen über die Schreiber wird ein besseres Verständnis der monastischen Schriftlichkeit im hochmittelalterlichen Österreich möglich. Es gibt jedoch keine Hinweise darauf, wie viele Schreiber in einem Kloster tätig waren und ob diese zwischen Klöstern wechselten. Eine Möglichkeit, diese Faktoren zu bestimmen, besteht darin, die Schreibweisen zu analysieren und verschiedene Schreiber durch inhärente stilistische Merkmale ihrer Schriften zu identifizieren. Dies ermöglicht in weiterer Folge, die Aufenthaltsorte der Schreiber und die Organisation der Schreibsäle abzuleiten. 

Einsatz von Active Machine Learning zur Schreibstilanalyse

Die klassische Vorgangsweise der manuellen Schreibstilanalyse erfolgt durch einzelne Expert*innen und ist ein langwieriger und zeitaufwendiger Prozess. Zudem besteht die Gefahr, dass die Ergebnisse subjektiv durch individuelle Eindrücke beeinflusst werden. Es gibt erste Ansätze, die Handschriften mittelalterlicher Schreiber durch maschinelles Lernen zu identifizieren. Diese sind jedoch für große Korpora nicht verwendbar. Die größte Herausforderung ist das Fehlen einer umfassenden Grundreferenz (Ground Truth)

Ziel

In diesem interdisziplinären Projekt arbeiten Historiker*innen und Informatiker*innen gemeinsam daran, eine zeiteffiziente Kennzeichnung von Schreibern in großen Korpora zu ermöglichen.  Dabei wird ein Active Machine Learing Ansatz verwendet, zur Unterstützung werden Expert*innen einbezogen. Grundlage für die Untersuchung sind alle in der Stiftsbibliothek Klosterneuburg aufbewahrten und mittlerweile digitalisierten Handschriften.

Methodik 

Aus diesem Korpus wird ein mit Schreiberzuweisungen annotierter Datensatz (Ground Truth) erstellt. Dieser umfasst etwa 3150 Textseiten. Basierend auf dieser Ground Truth wird in weiterer Folge ein Klassifikationsmodell zur Schreiberidentifikation entwickelt und trainiert. Als Erweiterung des Stands der Technik werden die klassischen Deskriptoren durch automatisch gelernte Deskriptoren (Deep Learning) ergänzt oder ersetzt. Zusätzlich liegt ein Korpus von ca. 40.000 digitalen Manuskriptseiten mit noch unbekannter Schreiberidentifikation vor. Diese Bestände werden als Datensatz aufbereitet und einem Active Learning Ansatz unterzogen. 

Der auf Basis der Ground Truth trainierte Klassifikator kann nun eine vorläufige Schreiberidentifikation vornehmen und mögliche Treffer über ein Interface paläographisch geschulten Expert*innen vorlegen. Basierend auf der Expert*innenbewertung wird das Modell iterativ verbessert. 

Ergebnis

Dieses Projekt hilft nicht nur, ein bedeutendes Desiderat der Geschichtsforschung interaktiv zu bearbeiten, sondern schafft auch neue Analysemöglichkeiten und -werkzeuge, die ein tieferes Wissen über alle anderen mittelalterlichen Schreibsäle im heutigen Niederösterreich ermöglichen. Basierend auf dem Studium des Klosterneuburger Skriptoriums im letzten Drittel des 12. Jahrhunderts können größere ungelöste Fragen zur Organisation der Schreibsäle in den hochmittelalterlichen (nieder)österreichischen Klöstern mithilfe weiterer Erkenntnissen und Interpretationen beantwortet werden.

Publikationen

PartnerInnen
  • Stift Klosterneuburg
  • TU Wien
Finanzierung
Gesellschaft für Forschungsförderung Niederösterreich (vormals NFB – FTI Call 2018 Digitalisierung)
Laufzeit
01.03.2020 – 28.02.2023
Projektstatus
abgeschlossen
Beteiligte Institute, Gruppen und Zentren
Forschungsgruppe Media Computing
Institut für Creative\Media/Technologies