Literatur

Tagung "Möglichkeiten der automatischen Manuskriptanalyse"

24./25. Februar 2014, Universität Trier, Raum N2

Bei der Tagung „Möglichkeiten der automatischen Manuskriptanalyse“ werden verschiedene Projekte vorgestellt, deren Ziel es ist, handschriftliche Bestände insbesondere mit computergestützten Methoden zu erschließen. Es werden Verfahren zur Unterstützung bei der Transkription handschriftlicher Texte und Untersuchung ihrer Gestalt vorgestellt. Wissenschaftliche Fragestellungen an größere Sammlungen werden ebenso ein Schwerpunkt sein wie die automatische Analyse von Bildern und ihre Verwendung in den historisch orientierten Kulturwissenschaften.

Die Tagung ist die erste in einer Reihe zum thematischen Feld „Maschinen und Manuskripte“, die im Rahmen des Projektes „eCodicology“ veranstaltet wird. Dieses Projekt wird vom Bundesministerium für Bildung und Forschung gefördert und von der Technischen Universität Darmstadt, dem Karlsruher Institut für Technologie sowie dem Trier Center for Digital Humanities realisiert.

Programm am 24. Februar 2014

Begrüßung

14:00 – 14:15: Grußwort von Dr. Ulrike Graßnick
14:15 – 14:30: Begrüßung und Eröffnung durch Prof. Dr. Claudine Moulin

Sektion I: Forschungsfragen an Manuskripte

Moderation: Prof. Dr. Claudine Moulin

14:30 – 15:00: Das Layout päpstlicher Urkunden im 12. Jahrhundert und Probleme seiner Analyse

(Dr. Otfried Krafft, Philipps-Universität Marburg)

Um das Jahr 1100 verfestigte sich das Aussehen der von den Päpsten ausgestellten Urkunden merklich. Verantwortlich dafür waren bestimmte Schreiber, die ihre Vorstellungen vom Layout in den eigenen Stücken verwirklichten, die bald für andere vorbildhaft wurden. So sind hier zunächst die Komponenten zu erläutern, die das Gesamtbild ausmachten, wobei neben den für alle Buch- und Urkundenseiten zu nennenden Elementen auf die Besonderheiten der Papstprivilegien einzugehen ist.

Zu fragen ist dabei nach den maßgeblichen Konstruktionsprinzipien und der Variationsbreite, die innerhalb der Urkundenart und bei einzelnen Schreibern erkennbar wird. Anzureißen sind zudem Authentizitätsprobleme und Fragen der wechselseitigen Abhängigkeiten zwischen solchen Urkunden und anderen Gattungen. Der Stellenwert dieser einzelnen Faktoren ist dabei zu prüfen im Blick auf Möglichkeiten einer automatisierten Analyse.

15:00 – 15:30: Transcribo: Ein Werkzeug – viele Möglichkeiten

(Dr. Thomas Burch; Frank Queens, Universität Trier)

Weitere Informationen finden sich auf der Webseite des Projektes.

Sektion II: Forschungsfragen an Sammlungen

Moderation: Prof. Dr. Michael Embach

16:00 – 16:30: The Library as a Digital Research Infrastructure: Digital Initiatives and Digital Manuscripts at the National Library of Wales

(Prof. Dr. Lorna Hughes, University of Wales)

Memory institutions have built up expertise and taken the lead in all aspects of digital humanities, especially the development and implementation of digital methods for the capture, analysis and dissemination of archives and special collections, including manuscripts. In recent years, these initiatives have become embedded into Digital Humanities Initiatives, Centres and Programmes within research libraries, adding value to the existing relationships between libraries and scholarly initiatives. These activities have fostered the development of new projects that bring into collaboration the skills and expertise of academics, librarians, and digital humanists, making the Library increasingly a “digital research infrastructure”. This presentation will discuss these developments based on the experience of the Research Programme in Digital Collections at the National Library of Wales, specifically discussing some recent experimentation with new methods for manuscript digitization and dissemination, including hyperspectral digitization of the Library’s Chaucer manuscripts. The presentation will also discuss the wider embedding of this work within the European Digital Humanities Context, through collaborations with the ESF Research Network Programme NeDiMAH (Network for Digital Methods in the Arts and Humanities).

16:30 – 17:00: DigiPal to ScandiPal: Applying the DigiPal Framework to 11th-century Medieval Manuscript Fragments from Scandinavia

(Matilda Watson, King’s College London)

Over the past four years, the Digital Resource for Palaeography, Manuscripts and Diplomatic (DigiPal) has developed a digital framework for the study of script. In this paper, I will explain why I have chosen to apply DigiPal’s framework to a corpus of 11th-century manuscript fragments from Norway and Sweden. I will describe some of the changes which have been made in order to model and analyse script on small fragments of manuscripts in my own database (ScandiPal).

17:00 – 17:30: Using Images of Medieval Manuscripts: Historical Perspectives and Future Possibilities

(Prof. Dr. Andrew Prescott, King’s College London)

Our approaches to the digitisation of manuscript have been shaped by the early experiences of creating photographic facsmiles of manuscripts. However, unlike photographic facsmiles which present only one single view of a manuscript, digital projects frequently incorporate a range of different kinds of evidence about the transmission of a particular text. A digitisation project may include, as well as 'vanilla' shots of manuscript, multispectral images, shots with raking light and even images made with such specialist equipment as densitometers and cyclotrons. The resulting image archives are very different to conventional editions and facsimiles, and require methods of storage and presentation which are less dependent on print precedents.

Programm am 25. Februar 2014

Sektion III: Automatische Verfahren in der Bilderverarbeitung

Moderation: Danah Tonne

09:00 – 09:30: Computer Vision & Computational Humanities

(Prof. Dr. Björn Ommer, Universität Heidelberg)

Geisteswissenschaftliche und informatische bildwissenschaftliche Forschung stehen trotz unterschiedlicher Ausgangslage vor ähnlichen erkenntnistheoretischen und anwendungs-orientierten Problemen. Insbesondere das Verhältnis zwischen formbasierter visueller und semantischer Ähnlichkeit ist von großem wissenschaftlichen Interesse, da es sowohl eine große Herausforderung für die geisteswissenschaftliche Bildinterpretation als auch für die informatische Bildanalyse darstellt. Mit den großen Digitalisierungsprojekten der letzten Jahre sind zwar enorme Mengen an Bildern in einfach zugänglicher digitaler Form vorhanden. Ihre inhaltliche Erschließung erfolgt aber primär über manuelle Verschlagwortung und weitere Metadaten. Eine automatische inhaltliche Bildsuche und -erschließung ist jedoch mit den gängigen Verfahren nicht verfügbar.

Der Vortrag soll das Potential aufzeigen, das kürzlich entwickelte Algorithmen aus dem Bereich der Computer Vision für die geisteswissenschaftliche Erschließung großer Bilddatensätze haben. Damit eröffnet diese Kooperation zwischen Geistes- und Naturwissenschaften Möglichkeiten für neue interdisziplinäre Forschungsarbeiten im Bereich der Computational Humanities.

09:30 – 10:00: Analyse historischer arabischer Handschriften – das HADARA-Projekt

(Dr. Volker Märgner, Technische Universität Braunschweig)

Anders als die historischen Dokumente westlicher Gesellschaften ist die große Mehrzahl arabischer historischer Handschriften auch heute noch weder digitalisiert noch katalogisiert. Darüber hinaus sind viele Standorte für Wissenschaftler nicht oder nur schwer zugänglich. Ziel des HADARA-Projektes (ein trilaterales DFG-Projekt mit Partnern aus Israel und Palästina) ist es daher zum einen, ein mobiles System zur Digitalisierung arabischer historischer Dokumente bereitzustellen, das bereits während des Projekts zum Einsatz kommt, zum anderen ein System zur Archivierung, Bearbeitung (Annotation und Transkription) und Suche in digitalisierten Dokumenten zu entwickeln. Dieses System wird neben einer Stichwortsuche auch Kategorien wie Schreiber und Zeitepoche bzw. Region als Suchmerkmal ermöglichen.

In dem Beitrag wird kurz das Projekt vorgestellt. Anschließend werden bereits realisierte Lösungsansätze aus den Bereichen Dokumentanalyse (Textblockerkennung), Vorverarbeitung (Binarisierung, Segmentierung) und Klassifikation (Texterkennung, Word Spotting, Schreibererkennung) beschrieben und anhand von Beispielen präsentiert. Der Beitrag schließt mit einem Ausblick weiterer geplanter Schritte.

10:00 – 10:30: Algorithmische Geometrie zur Extraktion von Schrift in 3D

(Dr. Hubert Mara, Universität Heidelberg)

Keilschrift ist eine dreidimensionale Handschrift, die fast vier Jahrtausende im alten Orient benutzt wurde, um alle denkbaren Arten von Texten auf Tontafeln festzuhalten. Trotz der robusten Natur der Keilschrifttafeln sind diese oft stark beschädigt und die Autopsie ist für Experten schwierig und zeitaufwändig. Da die Menge der Texte in Keilschriftsprachen vergleichbar mit Latein oder Altgriechisch ist, gab es in der Assyriologie immer wieder Versuche 3D-Messtechnik einzusetzen, um die Bearbeitung der Tafeln zu erleichtern. Mit den immer besser werdenden 3D-Scannern ist die Datenakquise mittlerweile ausreichend, um kleinste Details zu erfassen – die Auswertung dieser wertvollen Daten ist meistens auf die Darstellungsmöglichkeiten der Computergraphik beschränkt. In diesem Beitrag wird eine neue Methode basierend auf Mehr-Skalen Integral Invarianten (MSII) vorgestellt, mit der es möglich ist Keilschriftzeichen als standardisierte Vektorgrafik (Scalable Vector Graphic – SVG) aus 3D-Messdaten zu extrahieren. Diese Vektorgrafiken eignen sich zur Publikation als Zeichnung und für Optical Character Recognition (OCR). Da MSII Filter allgemein zur Bestimmung von Merkmalen einsetzbar sind, werden weitere Anwendungsbeispiele für Papyri und den verwitterten mittelalterlichen Epitaphe des „Heiligen Sand“ in Worms gezeigt.

Sektion IV: Automatische Verfahren in der Paläographie und Kodikologie

Moderation: Prof. Dr. Andrea Rapp

11:00 – 11:30: Encoding Writer Variability for Automatic Writer Identification

(Vincent Christlein, Friedrich-Alexander-Universität Erlangen-Nürnberg)

Ähnlich zu Gesichtern oder Sprache kann handgeschriebener Text als ein Identifikationsmerkmal dienen. Gerade im Bereich der Analyse von historischen Dokumenten findet die automatische Schreiberidentifikation seit einigen Jahren große Beachtung. Welche automatischen Methoden gibt es zur Schreiberidentifizierung? Wie kodiert man Schreiberhände? Anhand von Methoden der Mustererkennung werden verschiedene Möglichkeiten zur Schreiberidentifizierung vorgestellt und beispielhaft auf hochmittelalterlichen Papsturkunden angewandt.

11:30 – 12:00: eCodicology – Algorithmen zur automatischen Auszeichnung mittelalterlicher Handschriften

(Hannah Busch, Universität Trier; Swati Chandna, Karlsruher Institut für Technologie; Celia Krause, Technische Universität Darmstadt; Philipp Vanscheidt, Universität Trier/Technische Universität Darmstadt)

Das Ziel des Projektes eCodicology ist die Entwicklung, Überprüfung und Verbesserung von neuen Algorithmen, die makro- und mikrostrukturelle Gestaltungsmerkmale auf mittelalterlichen Handschriftenseiten erkennen, um deren Metadaten im XML-Format gemäß TEI P5 anzureichern. Das Vorhaben wird unterstützt durch Verfahren der Bildverarbeitung, die es erlauben, einfache Layoutmerkmale auf den gescannten Handschriftenseiten zu erkennen und zu extrahieren. Die an den Beständen der Trierer Abtei St. Matthias erprobten Algorithmen können so als Ausgangspunkt für die Untersuchung weiterer Handschriftenbestände dienen. Die Beschreibungen aus den früheren Handschriftenkatalogen können auf diese Weise automatisiert ergänzt werden. In dem Vortrag werden die Hintergründe, die einzelnen Arbeitsschritte und erste Ergebnisse des Projektes vorgestellt.

12:00 – 12:30: Abschlussdiskussion

Flyer Tagungsprogramm

Anmeldungen sind nicht erforderlich, aber erwünscht. Schreiben Sie hierzu bitte möglichst bis zum 19. Februar an Philipp Vanscheidt