Ziel des Projekt "Codices Electronici Sangallenses" (Digitale Stiftsbibliothek St. Gallen) ist es, die mittelalterlichen Handschriften der Stiftsbibliothek St. Gallen durch eine virtuelle Bibliothek zu erschliessen. Geplant ist in einem zweijährigen Pilotprojekt die integrale digitale Reproduktion von insgesamt 130 illuminierten Handschriften in einer Auflösung, die für die praktische Arbeit mit Manuskripten ausreicht. Metadaten zu den Handschriften (in erster Linie wissenschaftliche Handschriftenbeschreibung) werden in einem Datenbanksystem verwaltet und durch verschiedene Zugriffsinstrumente mit den Digitalisaten verknüpft. Dadurch soll ein Arbeitsinstrument für die handschriftenorientierte Forschung erstellt werden, das langfristig angelegt ist und potentiell alle Informationen zu den einzelnen Handschriften einbinden kann. [aus der Projektskizze]
Dem Projekt kann man nur den allerbesten Erfolg wünschen. Unterstützung verdienen auch einige der Kommentare, die darauf hinweisen, dass ein derartiges Projekt natürlich nicht bei den für den Anfang ausgewählten spektakulären illuminierten Handschriften stehenbleiben darf, sondern dass zumindest die frühmittelalterlichen Handschriften geschlossen digitalisiert werden sollten (in diese Richtung tendieren die Äußerungen von Walter Haas, Karl Ubl, Gerhard Schmitz und Walter Pohl).
[via netbib]
Weiteres Material zum Thema z. B. bei Archivschachtel.
Ebenfalls zum Thema Archivierung und Zitierbarkeit von Online-Quellen dieser Rotula-Beitrag.
[via Handakte]
Während bei Publikationssystemen die Aufgabe in der Regel darin besteht, aus strukturierten, stark sachlich beschriebenen Daten (XML-Dateien, Datenbanken, ...) eine im Layout ansprechende Präsentation zu erstellen (HTML, PDF, ...), wird bei dem vorgestellten System der umgekehrte Weg gegangen: aus den HTML-Daten von Webseiten wird versucht, die sachlich relevanten Informationen zu extrahieren. Als Beispiel kann man den HTML-Quellcode einer netbib-Seite nehmen. Wenn es einer Suchmaschine darum ginge, aus dieser Seite zu extrahieren, aus welchen Bestandteilen der Blogeintrag besteht, könnte man ihr in etwa die folgenden Anweisungen geben: "Finde einen Text, der zwischen h3-Tags (ohne weitere Attribute) eingeschlossen ist, diesen Text als 'Datum' speichern, gehe dann weiter zu einem Tag 'div' mit dem Attribut class='post', darin befindet sich der Inhalt des Posts, ...". Auf diese Weise könnte man aus den HTML-Daten, die ja nicht mehr nur primär sachlich ausgezeichnet sind, die Elemente des Blogeintrages extrahieren und auf Datenbankfelder abbilden. (Dieses Vorgehen ist in diesem Beispielfall natürlich überflüssig, weil es ja RSS gibt.)
Das Problem an sich taucht in der Informatik immer wieder auf. Ein befreundeter Informatiker (Dieter Bühler) hat für seine Diplomarbeit ein derartiges, frei konfigurierbares System entwickelt, das es ermöglicht, aus HTML-Daten XML-Daten zu gewinnen (html2xml).
In anderem, viel kleinerem Maßstab haben wir sowas mal für die Webseite unserer Mittelalter-Abteilung gemacht. Wir hatten eine Rubrik "Mittelalter im TV", die jetzt leider nicht mehr weitergepflegt werden kann. Für diese Rubrik haben wir einfach automatisch die Webseiten von TV-Programm-Anbietern nach einschlägigen Begriffen durchsucht und (ebenfalls automatisch) die Suchergebnisse, die ja als layout-orientierte HTML-Seiten vorliegen, nach der oben beschriebenen Methode durchsucht und die relevanten Informatione (Sendezeit, Titel, ...) extrahiert und in einer Datenbank abgelegt. Aus dieser konnte dann unsere Webseite erstellt werden.
Das in dem Artikel vorgestellte System scheint gut fundiert und plausibel. Die verwendeten Komponenten (etwa Apache Webserver, Perl, MySQL, Wget, Java, ...) sind derzeit sicherlich genau diejenigen Tools, die man für die jeweiligen Aufgaben heranziehen würde. Durch die vielzahl an verschiedenen verwendeten Bestandteilen entsteht natürlich ein recht heterogenes System, aber das ist nuneinmal so, wenn man in diesem Bereich relativ schnell und effektiv ein Ziel erreichen will. Langfristig kommt vielleicht die Überlegung auf, die Einzelkomponenten besser zu integrieren und ein System "aus einem Guss" zu schaffen. Ein verständlicher Wunsch, für den man in diesem Fall allerdings nicht unbedingt plädieren sollte, denn wirklich viel wäre damit nicht zu gewinnen. Der Programmieraufwand wäre sicherlich enorm, allein um die Funktionen abzubilden, die man jetzt in dem heterogenen System bereits realisiert hat. Der mögliche Vorteil bestünde dann natürlich evtl. in einer leichteren Wartbarkeit und Erweiterbarkeit. Aber der Beschreibung in dem Artikel zufolge, wurde das System so modular und erweiterbar wie unter den beschriebenen Gegebenheiten möglich angelegt. Man kann also den Verantwortlichen gratulieren, dass sie ein funktionierendes System auf die Beine gestellt haben, das sicherlich einerseits signifikant mehr wissenschaftliche Publikationen über ein OAI-Interface zugänglich machen wird und andererseits auch mehr Institutionen dazu bewegen wird, ihre Publikationen dem OAI-Standard entsprechend zu gestalten. Beide Ziele sind bislang offensichtlich allein durch Überzeugungsarbeit nicht zu erreichen gewesen (wie in dem Artikel ja erwähnt wird).
Abschließend ist natürlich auf die kritischen Bemerkungen am Schluss des Artikels hinzuweisen:
First, the parsers are site-specific and must be developed for each resource to be integrated. This requires considerable labor and in-depth knowledge of regular expressions or other text-matching techniques. It is a reasonable approach for large, consistently structured sites such as PMC, in which a single parser can extract the metadata for hundreds of articles. For smaller sites, or sites with very inconsistent HTML coding, this approach will likely require too much labor to justify the expenditure of the required development time. Second, such an approach is very sensitive to any design change at the remote resource. Even small changes to the HTML structure of a site can require extensive modification or complete refactoring of a parser.
Diese Äußerungen, die direkt von der oben verlinkten Webseite stammen, geben ziemlich klar, die Probleme wieder, die auch meiner Erfahrung nach bei ähnlichen Ansätzen auftauchen. Auch das spricht letztlich für die Autoren, dass sie diese Probleme deutlich erkennen und ansprechen.
Langfristig wird die Betreuung und Weiterentwicklung eines solchen Systems immer relativ teuer und aufwändig bleiben, sodass es natürlich besser wäre, möglichst viele Institutionen würden sich an den OAI-Standard halten. Aber vielleicht gelingt ja mit derartigen Initiativen mehr als durch reine Überzeugungsarbeit und Appelle zu erreichen ist.
Von einem Nicht-OAI-Experten noch die Nachfrage: Gibt es eigentlich andere Standards oder Ansätze, die in Konkurrenz zu OAI stehen? Gibt es klare Schwächen, die gegen OAI sprechen? Oder liegt es eher an mangelndem Interesse oder Knowhow der Institutionen, sich auf diesen Standard einzulassen?
[via Ted Leung]
[via Handakte]
[Der Hinweis auf das Projekt stammt aus einer Mail von Patrick Sahle an dm-l vom 2004-07-04]
Aus der Ankündigung auf der Webseite der Bibelgesellschaft:
Mit der Stuttgarter elektronischen Studienbibel (SESB) wird erstmals für den deutschen Sprachraum ein Programm vorliegen, das alle für das wissenschaftliche Bibelstudium nötigen Texte und Hilfsmittel enthält. Es bietet die weltweit anerkannten originalsprachlichen Bibelausgaben der Deutschen Bibelgesellschaft mit den textkritischen Apparaten, erschlossen durch hochwertige linguistische Datenbanken und ergänzt um teilweise neu entwickelte Wörterbücher. Dazu kommen moderne Bibelübersetzungen in verschiedenen europäischen Sprachen.Unter den enthaltenen Ausgaben befinden sich selbstverständlich auch die Stuttgarter Ausgabe der Vulgata.
Auf den Seiten des Religionspädagogischen Instituts Loccum findet sich ein (älterer) Text, der Hinweise auf elektronische Bibelausgaben bietet. Diese Seite wiederum verlinkt unter anderem auch zu Bibel Online, wo besonders das Werbebanner rechts oben ganz nett ist ;-)
Hier gibt es noch weitere Links zur Bibelarbeit.
[Meldung bei Heise]
[via pixelgraphix]