Rotula: Computer

Samstag, 11. September 2004

Codices Electronici Sangallenses (CESG)

rotula, 12:47h

In Anlehnung an das bekannte Kölner Projekt zur Digitalisierung der Handschriften der Dombibliothek (CEEC), plant die Sitftsbibliothek St. Gallen ähnliches:

Ziel des Projekt "Codices Electronici Sangallenses" (Digitale Stiftsbibliothek St. Gallen) ist es, die mittelalterlichen Handschriften der Stiftsbibliothek St. Gallen durch eine virtuelle Bibliothek zu erschliessen. Geplant ist in einem zweijährigen Pilotprojekt die integrale digitale Reproduktion von insgesamt 130 illuminierten Handschriften in einer Auflösung, die für die praktische Arbeit mit Manuskripten ausreicht. Metadaten zu den Handschriften (in erster Linie wissenschaftliche Handschriftenbeschreibung) werden in einem Datenbanksystem verwaltet und durch verschiedene Zugriffsinstrumente mit den Digitalisaten verknüpft. Dadurch soll ein Arbeitsinstrument für die handschriftenorientierte Forschung erstellt werden, das langfristig angelegt ist und potentiell alle Informationen zu den einzelnen Handschriften einbinden kann. [aus der Projektskizze]

Dem Projekt kann man nur den allerbesten Erfolg wünschen. Unterstützung verdienen auch einige der Kommentare, die darauf hinweisen, dass ein derartiges Projekt natürlich nicht bei den für den Anfang ausgewählten spektakulären illuminierten Handschriften stehenbleiben darf, sondern dass zumindest die frühmittelalterlichen Handschriften geschlossen digitalisiert werden sollten (in diese Richtung tendieren die Äußerungen von Walter Haas, Karl Ubl, Gerhard Schmitz und Walter Pohl).

[via netbib]

Von rotula um 12:47h| 0 Kommentare |comment | Thema: Computer

Samstag, 7. August 2004

Zitieren von Online-Quellen

rotula, 23:09h

Eine nützliche Zusammenstellung, wie man Online-Quellen zitiert (zwar vor allem am angelsächsischen Bereich orientiert, aber auch sonst mit entsprechenden Veränderungen einsetzbar).

Weiteres Material zum Thema z. B. bei Archivschachtel.

Ebenfalls zum Thema Archivierung und Zitierbarkeit von Online-Quellen dieser Rotula-Beitrag.

[via Handakte]

Von rotula um 23:09h| 0 Kommentare |comment | Thema: Computer

Von Nicht-OAI zu OAI?

rotula, 12:31h

In netbib verweist Klaus Graf auf einen Artikel, der sich mit der Integration von nicht-OAI-konformen Ressourcen in OAI-Suchstrukturen beschäftigt und bittet um Stellungnahmen. Da ich nicht einen derart langen Text in die netbib-Kommentare posten wollte, findet sich der Text hier:

Während bei Publikationssystemen die Aufgabe in der Regel darin besteht, aus strukturierten, stark sachlich beschriebenen Daten (XML-Dateien, Datenbanken, ...) eine im Layout ansprechende Präsentation zu erstellen (HTML, PDF, ...), wird bei dem vorgestellten System der umgekehrte Weg gegangen: aus den HTML-Daten von Webseiten wird versucht, die sachlich relevanten Informationen zu extrahieren. Als Beispiel kann man den HTML-Quellcode einer netbib-Seite nehmen. Wenn es einer Suchmaschine darum ginge, aus dieser Seite zu extrahieren, aus welchen Bestandteilen der Blogeintrag besteht, könnte man ihr in etwa die folgenden Anweisungen geben: "Finde einen Text, der zwischen h3-Tags (ohne weitere Attribute) eingeschlossen ist, diesen Text als 'Datum' speichern, gehe dann weiter zu einem Tag 'div' mit dem Attribut class='post', darin befindet sich der Inhalt des Posts, ...". Auf diese Weise könnte man aus den HTML-Daten, die ja nicht mehr nur primär sachlich ausgezeichnet sind, die Elemente des Blogeintrages extrahieren und auf Datenbankfelder abbilden. (Dieses Vorgehen ist in diesem Beispielfall natürlich überflüssig, weil es ja RSS gibt.)

Das Problem an sich taucht in der Informatik immer wieder auf. Ein befreundeter Informatiker (Dieter Bühler) hat für seine Diplomarbeit ein derartiges, frei konfigurierbares System entwickelt, das es ermöglicht, aus HTML-Daten XML-Daten zu gewinnen (html2xml).

In anderem, viel kleinerem Maßstab haben wir sowas mal für die Webseite unserer Mittelalter-Abteilung gemacht. Wir hatten eine Rubrik "Mittelalter im TV", die jetzt leider nicht mehr weitergepflegt werden kann. Für diese Rubrik haben wir einfach automatisch die Webseiten von TV-Programm-Anbietern nach einschlägigen Begriffen durchsucht und (ebenfalls automatisch) die Suchergebnisse, die ja als layout-orientierte HTML-Seiten vorliegen, nach der oben beschriebenen Methode durchsucht und die relevanten Informatione (Sendezeit, Titel, ...) extrahiert und in einer Datenbank abgelegt. Aus dieser konnte dann unsere Webseite erstellt werden.

Das in dem Artikel vorgestellte System scheint gut fundiert und plausibel. Die verwendeten Komponenten (etwa Apache Webserver, Perl, MySQL, Wget, Java, ...) sind derzeit sicherlich genau diejenigen Tools, die man für die jeweiligen Aufgaben heranziehen würde. Durch die vielzahl an verschiedenen verwendeten Bestandteilen entsteht natürlich ein recht heterogenes System, aber das ist nuneinmal so, wenn man in diesem Bereich relativ schnell und effektiv ein Ziel erreichen will. Langfristig kommt vielleicht die Überlegung auf, die Einzelkomponenten besser zu integrieren und ein System "aus einem Guss" zu schaffen. Ein verständlicher Wunsch, für den man in diesem Fall allerdings nicht unbedingt plädieren sollte, denn wirklich viel wäre damit nicht zu gewinnen. Der Programmieraufwand wäre sicherlich enorm, allein um die Funktionen abzubilden, die man jetzt in dem heterogenen System bereits realisiert hat. Der mögliche Vorteil bestünde dann natürlich evtl. in einer leichteren Wartbarkeit und Erweiterbarkeit. Aber der Beschreibung in dem Artikel zufolge, wurde das System so modular und erweiterbar wie unter den beschriebenen Gegebenheiten möglich angelegt. Man kann also den Verantwortlichen gratulieren, dass sie ein funktionierendes System auf die Beine gestellt haben, das sicherlich einerseits signifikant mehr wissenschaftliche Publikationen über ein OAI-Interface zugänglich machen wird und andererseits auch mehr Institutionen dazu bewegen wird, ihre Publikationen dem OAI-Standard entsprechend zu gestalten. Beide Ziele sind bislang offensichtlich allein durch Überzeugungsarbeit nicht zu erreichen gewesen (wie in dem Artikel ja erwähnt wird).

Abschließend ist natürlich auf die kritischen Bemerkungen am Schluss des Artikels hinzuweisen:

First, the parsers are site-specific and must be developed for each resource to be integrated. This requires considerable labor and in-depth knowledge of regular expressions or other text-matching techniques. It is a reasonable approach for large, consistently structured sites such as PMC, in which a single parser can extract the metadata for hundreds of articles. For smaller sites, or sites with very inconsistent HTML coding, this approach will likely require too much labor to justify the expenditure of the required development time. Second, such an approach is very sensitive to any design change at the remote resource. Even small changes to the HTML structure of a site can require extensive modification or complete refactoring of a parser.

Diese Äußerungen, die direkt von der oben verlinkten Webseite stammen, geben ziemlich klar, die Probleme wieder, die auch meiner Erfahrung nach bei ähnlichen Ansätzen auftauchen. Auch das spricht letztlich für die Autoren, dass sie diese Probleme deutlich erkennen und ansprechen.

Langfristig wird die Betreuung und Weiterentwicklung eines solchen Systems immer relativ teuer und aufwändig bleiben, sodass es natürlich besser wäre, möglichst viele Institutionen würden sich an den OAI-Standard halten. Aber vielleicht gelingt ja mit derartigen Initiativen mehr als durch reine Überzeugungsarbeit und Appelle zu erreichen ist.

Von einem Nicht-OAI-Experten noch die Nachfrage: Gibt es eigentlich andere Standards oder Ansätze, die in Konkurrenz zu OAI stehen? Gibt es klare Schwächen, die gegen OAI sprechen? Oder liegt es eher an mangelndem Interesse oder Knowhow der Institutionen, sich auf diesen Standard einzulassen?

Von rotula um 12:31h| 1 Kommentar |comment | Thema: Computer

Dienstag, 13. Juli 2004

Unterstützung für Mozilla Firefox

rotula, 05:37h

Die vorgesehene Zeitspanne für die Aktion, möglichst viele Reviews bei download.com zu Mozilla Firefox zu verfassen, ist zwar schon abgelaufen, aber trotzdem ist es sinnvoll, den Aufruf weiterzugeben. Wer Mozilla Firefox verwendet, sollte überlegen, dies auch auf einschlägigen Downloadseiten und Foren kundzutun. Ein wachsender Anteil an Aufmerksamkeit ist zumindest ein erster Schritt in Richtung auf einen größeren Marktanteil für Firefox und damit für mehr Vielfalt, Stabilität und Sicherheit im Netz.

[via Ted Leung]

Von rotula um 05:37h| 0 Kommentare |comment | Thema: Computer

Montag, 12. Juli 2004

Blogarchiv als PDF?

rotula, 13:12h

Dennis Kennedy hat sein Blogarchiv als PDF-Datei (derzeit ca. 700 kB) zusammengefasst. Eine Idee, die ich gar nicht mal schlecht finde. Unterschiedliche Menschen haben unterschiedliche Lesegewohnheiten. Wenn das Archiv – neben der normalen Archivrecherche und der üblichen Blätterfunktion – noch anderweitig zugänglich ist (z. B. als eine große HTML-Datei, am besten als gzip-Archiv, oder eben als eine große PDF-Datei), dann finde ich das sehr sinnvoll. Mit einem vernünftigen Content Management System bzw. mit vernünftiger Datenstrukturierung im Hintergrund, sollte es auch nicht allzu schwer sein, mehrere verschiedene Ausgabeformate relativ bequem zu erzeugen. Wenn man ein wirklich gutes System im Hintergrund hat, müsste es auch möglich sein, dass der Leser sich on-the-fly PDF-Dateien erstellt, die seinen Suchkriterien entsprechen (z. B. alle Beiträge des Monats Juli oder alle Beiträge zu einem bestimmten Thema oder alle Beiträge, die zu einer bestimmten Suchanfrage aus dem Archiv zurückgeliefert werden). Den Möglichkeiten sind keine Grenzen gesetzt!

[via Handakte]

Von rotula um 13:12h| 0 Kommentare |comment | Thema: Computer

Sonntag, 11. Juli 2004

Multimediarecht für die Hochschulpraxis

rotula, 23:23h

"Der von Michael Veddern geschriebene Ratgeber zum Urheberrecht liegt in zweiter Auflage (an die 300 Seiten PDF, 1,4 M) vor – unbedingt verlinken!" schreibt netbib.

Von rotula um 23:23h| 0 Kommentare |comment | Thema: Computer

Samstag, 10. Juli 2004

Digital Medievalist Project

rotula, 12:56h

The Digital Medievalist Project: A Community of Practice for Medievalists Working with Digital Media. Bestandteile des Projekts sind eine Diskussionsliste (dm-l), eine Online-Zeitschrift (Call for papers) und eine Ressourcensammlung (im Aufbau).

Von rotula um 12:56h| 0 Kommentare |comment | Thema: Computer

Dienstag, 6. Juli 2004

Just In Time Markup

rotula, 01:12h

Just In Time Markup bietet die Möglichkeit, Text und Markup (bzw. sogar mehrere verschiedene Markups) separat zu halten und jederzeit zu ergänzen. Je nach Bedarf kann so der eine oder andere Satz von Auszeichnungen aktiviert werden und somit unterschiedliche Perspektiven auf den Text erlaubt werden. Das Problem bei der Sache: Der rohe Text darf sich im Laufe des Projektes nicht mehr verändern, da das Einfügen des Markups an bestimmten Zeichenpositionen im Text geschieht. Und daran krankt das System, denn niemals kann garantiert werden, dass ein langer, schwieriger Text komplett fehlerfrei transskribiert wurde. Außerdem kann man sicherlich die gleichen Ergebnisse erzielen, indem man viele der verschiedenen Perspektiven durch XSLT erzeugt oder indem man – falls die Perspektiven wirklich so unterschiedlich sind und sich gegenseitig ausschließen (was in der Praxis allerdings eher selten vorkommen dürfte) – eben den Text mehrfach mit dem kompletten Markup vorhält. Im schlimmsten Fall muss man dann bei einer Korrektur am Text in ein paar verschiedenen Dateien die gleiche Korrektur vornehmen. Das erscheint mir immer noch sicherer, als wenn man bei einer Korrektur den gesamten Prozess der Zuordnung von Markup zu Zeichenzahl wiederholen müsste. Allerdings muss ich mich in das Pradigma auch noch näher einlesen, denn bislang weiß ich auch noch nicht, wie eigentlich die Zuordnung von Markup zu Inhalt genau durchgeführt wird.

[Der Hinweis auf das Projekt stammt aus einer Mail von Patrick Sahle an dm-l vom 2004-07-04]

Von rotula um 01:12h| 0 Kommentare |comment | Thema: Computer

Stuttgarter Elektronische Studienbibel

rotula, 00:51h

Vor kurzem ist die Stuttgarter Elektronische Studienbibel (SESB) herausgegeben von der Deutschen Bibelgesellschaft (Stuttgart) erschienen.

Aus der Ankündigung auf der Webseite der Bibelgesellschaft:

Mit der Stuttgarter elektronischen Studienbibel (SESB) wird erstmals für den deutschen Sprachraum ein Programm vorliegen, das alle für das wissenschaftliche Bibelstudium nötigen Texte und Hilfsmittel enthält. Es bietet die weltweit anerkannten originalsprachlichen Bibelausgaben der Deutschen Bibelgesellschaft mit den textkritischen Apparaten, erschlossen durch hochwertige linguistische Datenbanken und ergänzt um teilweise neu entwickelte Wörterbücher. Dazu kommen moderne Bibelübersetzungen in verschiedenen europäischen Sprachen.

Unter den enthaltenen Ausgaben befinden sich selbstverständlich auch die Stuttgarter Ausgabe der Vulgata.

Auf den Seiten des Religionspädagogischen Instituts Loccum findet sich ein (älterer) Text, der Hinweise auf elektronische Bibelausgaben bietet. Diese Seite wiederum verlinkt unter anderem auch zu Bibel Online, wo besonders das Werbebanner rechts oben ganz nett ist ;-)

Hier gibt es noch weitere Links zur Bibelarbeit.

[Meldung bei Heise]

Von rotula um 00:51h| 0 Kommentare |comment | Thema: Computer

Dienstag, 25. Mai 2004

CSS-Dateien strukturieren

rotula, 12:05h

Rene Grassegger erklärt bei Dr. Web, wie er seine CSS-Dateien strukturiert. Hört sich ziemlich gut durchdacht an.

[via pixelgraphix]

Von rotula um 12:05h| 0 Kommentare |comment | Thema: Computer

... nächste Seite

Rotula

Navigation

Suche

Blogroll

Weitere Blogs

Statistik

Besucher

Archiv

Letzte Änderungen