Heike Cosson, Daniel Pachurka, Rebecca Wache: Annotiertes Referenzkorpus Mittelhochdeutsch
Ruhr-Universität Bochum
Annotiertes Referenzkorpus Mittelhochdeutsch
Abstract:
Das „Annotierte Referenzkorpus Mittelhochdeutsch” (1050-1350) ist ein Gemeinschaftsprojekt der Lehrstühle „Computerlinguistik” und „Altgermanistik I” der Ruhr-Universität Bochum sowie des Lehrstuhls für „Deutsche Sprache und Ältere Literatur” der Rheinischen Friedrich-Wilhelms-Universität Bonn.
In diesem Rahmen wird in den nächsten Jahren ein Referenzkorpus für die mittelhochdeutsche Sprachstufe entstehen. Das Korpus wird die hochdeutschen Sprachdenkmäler von ca. 1050 bis 1200 nahezu vollständig und von 1200 bis 1350 in strukturierter Auswahl beinhalten und soll einer breiten Nutzergemeinde verfügbar gemacht werden. Ziel ist eine verläßliche und handschriftengetreue Datenbasis des Mittelhochdeutschen, die historiolinguistische und mediävistische Recherchen in einem Maße erlaubt, das weit über das bisher Mögliche hinausgeht. Einer der Wege dahin ist die vollständige Digitalisierung und grammatische Erschließung der überlieferten Textzeugen aus dem gewählten Zeitraum. Insgesamt wird das Referenzkorpus nach der ersten Projektphase etwa 210 mhd. Texte von annähernd 2 Mio. Wortformen enthalten.
Neben einer allgemeinen Vorstellung des Projekts soll in der Präsentation auf das Arbeitsprogramm eingegangen und anfallende Aufgaben wie etwa Textbeschaffung, Transkription bzw. Digitalisierung und Kollation vorgestellt werden. Bisher angefallene Probleme und Fragestellungen zum weiteren Vorgehen sollen ebenfalls diskutiert werden.
