Zeitungen werden seit ihrem Entstehen von den Meinungen und Geschehnissen geprägt, denen ihre Leser in ihrer jeweiligen Zeit ausgesetzt sind. Artikel aus alten Zeitungen können so zu Zeitfenstern für Forscher und Interessierte werden. Doch die Zeit, in der diese Forschung still und leise in einem dunklen Kämmerchen in irgendeinem Archiv passiert, ist längst vorbei.
Die Digitalisierung hat die Nationalarchive schon seit Jahren im Griff. Doch finden sich immer wieder neue Herausforderungen. Mit dem neuen Projekt «Impresso: Media Monitoring of the past. Mining 200 years of historical newspapers» sollen nun digitalisierte Sammlungen von Zeitungstexten in der Schweiz, Luxemburg, Frankreich und Deutschland miteinander verknüpft und neue Methoden für deren Auswertung entwickelt werden.
Verbesserte digitale Technologien für die Forschung
Die Werkzeuge dafür sollen im «Luxembourg Centre for Contemporary and Digital History» (C2DH) der Universität Luxemburg zusammen mit dem DHLAB der «École polytechnique fédérale de Lausanne» (EPFL) und dem Institut für Computerlinguistik der Universität Zürich entstehen. Das Projekt wird mit 1,55 Millionen Euro (1,7 Mil. Schweizer Franken) vom Schweizer Nationalfonds (SNF) gefördert.
«Ziel dabei ist es, ein Interface zu entwickeln, das sich konkret an den Bedürfnissen der Forscher orientiert, und gleichzeitig die wissenschaftliche Forschung über die Zeitungen voranzubringen», erklärt Dr. Marten Düring von der Universität Luxemburg. Dabei kommen auf die Computerlinguisten bei der Interface-Entwicklung und der Entity Recognition (einem Textanalysetool, das zusätzliche Informationen wie Orte und Personen in Texten erkennt) viele Herausforderungen zu.
Mehrsprachigkeit, Rechtschreibung und Qualität
«Natürlich stellt uns die Mehrsprachigkeit der Zeitungen einige Probleme. Besonders in Luxemburg wechselt die Sprache in den Zeitungen häufig, manchmal sogar im Artikel oder in einem bestimmten Satz», gibt Dr. Marten Düring zu, «doch unsere Computerlinguisten freuen sich schon auf die Challenge.»
Die Forscher und Entwickler sehen sich zudem mit ganz unterschiedlichen Schriftarten und Rechtschreibungen konfrontiert. Auch das Zeitungspapier selbst wird manchmal zum Problem: «Je nach Unterlage ist die Texterkennung nicht ideal. Das müssen wir korrigieren oder den Nutzer zumindest auf die Schwierigkeiten hinweisen.»
Ein umfassendes und kollaboratives Projekt
Das Interface wird im ständigen Kontakt mit den Geschichts-, Geistes- und Sozialwissenschaften entwickelt. Ein direkter Austausch zwischen Nutzern und Entwicklern soll besonders in Workshops gefördert werden. «Damit können wir Probleme mit dem Interface schneller erkennen und das Projekt besser den Bedürfnissen anpassen», erklärt Dr. Marten Düring. Deswegen werden auch konkrete Forschungen an die Entwicklung des Untersuchungstools geknüpft: „Ein vom C2DH geleitetes Forschungsprojekt wird sich mit den Widerständen gegen die Idee einer europäischen Einigung im späten 19. und frühen 20. Jahrhundert befassen, und damit für eine zusätzliche Verzahnung von Geschichtswissenschaft, Informatik und Design sorgen.“
Am Ende des Projekts sollen neben wissenschaftlichen Publikationen auch die einzelnen Systeme für die Aufbereitung, Analyse und Speicherung als Open-Source-Dokument für die freie Nachnutzung und Weiterentwicklung zur Verfügung stehen. Europaweit könnte das System interessant sein, doch das Projekt wird sich erstmal nur auf die direkten Partner konzentrieren. «Aber wenn weitere sich anschließen wollen, dann werden von unserer Seite sicher keine Steine in den Weg gelegt», erklärt Dr. Düring.
Zu den assoziierten Projektpartnern gehören neben der Luxemburger Nationalbibliothek auch die Schweizer Nationalbibliothek, Le Temps, Neue Zürcher Zeitung, schweizerische Archive sowie Forscher der Universität Lausanne. Auf Luxemburger Seite wird das Projekt von Dr. Marten Düring, Dr. Lars Wieneke und Prof. Dr. Andreas Fickers koordiniert, in Zusammenarbeit mit Daniele Guido und Estelle Bunout.
Sie müssen angemeldet sein um kommentieren zu können