Während bei Publikationssystemen die Aufgabe in der Regel darin besteht, aus strukturierten, stark sachlich beschriebenen Daten (XML-Dateien, Datenbanken, ...) eine im Layout ansprechende Präsentation zu erstellen (HTML, PDF, ...), wird bei dem vorgestellten System der umgekehrte Weg gegangen: aus den HTML-Daten von Webseiten wird versucht, die sachlich relevanten Informationen zu extrahieren. Als Beispiel kann man den HTML-Quellcode einer netbib-Seite nehmen. Wenn es einer Suchmaschine darum ginge, aus dieser Seite zu extrahieren, aus welchen Bestandteilen der Blogeintrag besteht, könnte man ihr in etwa die folgenden Anweisungen geben: "Finde einen Text, der zwischen h3-Tags (ohne weitere Attribute) eingeschlossen ist, diesen Text als 'Datum' speichern, gehe dann weiter zu einem Tag 'div' mit dem Attribut class='post', darin befindet sich der Inhalt des Posts, ...". Auf diese Weise könnte man aus den HTML-Daten, die ja nicht mehr nur primär sachlich ausgezeichnet sind, die Elemente des Blogeintrages extrahieren und auf Datenbankfelder abbilden. (Dieses Vorgehen ist in diesem Beispielfall natürlich überflüssig, weil es ja RSS gibt.)
Das Problem an sich taucht in der Informatik immer wieder auf. Ein befreundeter Informatiker (Dieter Bühler) hat für seine Diplomarbeit ein derartiges, frei konfigurierbares System entwickelt, das es ermöglicht, aus HTML-Daten XML-Daten zu gewinnen (html2xml).
In anderem, viel kleinerem Maßstab haben wir sowas mal für die Webseite unserer Mittelalter-Abteilung gemacht. Wir hatten eine Rubrik "Mittelalter im TV", die jetzt leider nicht mehr weitergepflegt werden kann. Für diese Rubrik haben wir einfach automatisch die Webseiten von TV-Programm-Anbietern nach einschlägigen Begriffen durchsucht und (ebenfalls automatisch) die Suchergebnisse, die ja als layout-orientierte HTML-Seiten vorliegen, nach der oben beschriebenen Methode durchsucht und die relevanten Informatione (Sendezeit, Titel, ...) extrahiert und in einer Datenbank abgelegt. Aus dieser konnte dann unsere Webseite erstellt werden.
Das in dem Artikel vorgestellte System scheint gut fundiert und plausibel. Die verwendeten Komponenten (etwa Apache Webserver, Perl, MySQL, Wget, Java, ...) sind derzeit sicherlich genau diejenigen Tools, die man für die jeweiligen Aufgaben heranziehen würde. Durch die vielzahl an verschiedenen verwendeten Bestandteilen entsteht natürlich ein recht heterogenes System, aber das ist nuneinmal so, wenn man in diesem Bereich relativ schnell und effektiv ein Ziel erreichen will. Langfristig kommt vielleicht die Überlegung auf, die Einzelkomponenten besser zu integrieren und ein System "aus einem Guss" zu schaffen. Ein verständlicher Wunsch, für den man in diesem Fall allerdings nicht unbedingt plädieren sollte, denn wirklich viel wäre damit nicht zu gewinnen. Der Programmieraufwand wäre sicherlich enorm, allein um die Funktionen abzubilden, die man jetzt in dem heterogenen System bereits realisiert hat. Der mögliche Vorteil bestünde dann natürlich evtl. in einer leichteren Wartbarkeit und Erweiterbarkeit. Aber der Beschreibung in dem Artikel zufolge, wurde das System so modular und erweiterbar wie unter den beschriebenen Gegebenheiten möglich angelegt. Man kann also den Verantwortlichen gratulieren, dass sie ein funktionierendes System auf die Beine gestellt haben, das sicherlich einerseits signifikant mehr wissenschaftliche Publikationen über ein OAI-Interface zugänglich machen wird und andererseits auch mehr Institutionen dazu bewegen wird, ihre Publikationen dem OAI-Standard entsprechend zu gestalten. Beide Ziele sind bislang offensichtlich allein durch Überzeugungsarbeit nicht zu erreichen gewesen (wie in dem Artikel ja erwähnt wird).
Abschließend ist natürlich auf die kritischen Bemerkungen am Schluss des Artikels hinzuweisen:
First, the parsers are site-specific and must be developed for each resource to be integrated. This requires considerable labor and in-depth knowledge of regular expressions or other text-matching techniques. It is a reasonable approach for large, consistently structured sites such as PMC, in which a single parser can extract the metadata for hundreds of articles. For smaller sites, or sites with very inconsistent HTML coding, this approach will likely require too much labor to justify the expenditure of the required development time. Second, such an approach is very sensitive to any design change at the remote resource. Even small changes to the HTML structure of a site can require extensive modification or complete refactoring of a parser.
Diese Äußerungen, die direkt von der oben verlinkten Webseite stammen, geben ziemlich klar, die Probleme wieder, die auch meiner Erfahrung nach bei ähnlichen Ansätzen auftauchen. Auch das spricht letztlich für die Autoren, dass sie diese Probleme deutlich erkennen und ansprechen.
Langfristig wird die Betreuung und Weiterentwicklung eines solchen Systems immer relativ teuer und aufwändig bleiben, sodass es natürlich besser wäre, möglichst viele Institutionen würden sich an den OAI-Standard halten. Aber vielleicht gelingt ja mit derartigen Initiativen mehr als durch reine Überzeugungsarbeit und Appelle zu erreichen ist.
Von einem Nicht-OAI-Experten noch die Nachfrage: Gibt es eigentlich andere Standards oder Ansätze, die in Konkurrenz zu OAI stehen? Gibt es klare Schwächen, die gegen OAI sprechen? Oder liegt es eher an mangelndem Interesse oder Knowhow der Institutionen, sich auf diesen Standard einzulassen?
http://www.philological.bham.ac.uk/bibliography/
via OAIster suchbar wäre, desgleichen andere Digitalisierungsunternehmen. Mr. Sutton hat für solche Sperenzchen aber keine Zeit, er muss zusehen, dass er die Masse des Stoffs bewältigt. Wie könnte man mit einfachen Mitteln erreichen, dass solche und andere Daten über digitalisierte Werke ebenfalls OAI-suchbar sind? HUMBUL-Daten sind ja auch in OAIster, zum Harvesten bereitgestellt sind neuerdings auch die auf http://www.doaj.org eingestellten suchbaren Artikel.
Alternative Standards: da muss ich passen. Ich glaube aber nicht, dass es so etwas gibt. OAI ist wohl derzeit DER verbindliche Standard.
Schwächen: mir nicht bekannt. Die Open Access Bewegung setzt eindeutig auf OAI. Da sie stark naturwiss. ausgerichtet ist, dürfte man davon ausgehen, dass man sich gründlich aus technischer Sicht damit befasst hat.
Interesse und Knowhow: Das meiste dürfte in den Bibliotheken Trägheit sein, auch wenn ich mich an eine Äußerung von Heinrich C. Kuhn erinnere, der von einem grossen Aufwand für OAI-Compliance sprach. Müsste er aber selbst besser sagen können (falls er hier mitliest).
... link
... comment