Auch diese Vorlesung habe ich nachgeschaut, da ich die Inhalte nicht in umgekehrter Reihenfolge durchgehen wollte. Nach dem wir MarcEdit7 kennen gelernt hatten, folgte nun die zweite Software zur Transformation von Metadaten.

OpenRefine

OpenRefine ist eine Desktop-Anwendung, welche über den Webbrowser aufgerufen wird. Die Software «ist ein Powertool für die Arbeit mit chaotischen Daten» bzw. wird sie zur Datenlieferung, Vereinheitlichung und Bereinigung eingesetzt. Aber auch für die Datentransformation und das Identifizieren von verwendeten Metadatenstandard (Bspw. wenn Metadaten von einem Verlag übernommen werden, aber der Standard nicht bekannt ist) kann sie genutzt werden. OpenRefine ist besonders für tabellarische Daten (CSV, XLS) oder flache XML, wie MARCXML geeignet. Natürlich konnten wir auch hier praktische Übungen mit der Software machen. Dazu wurde sie wieder über die VM installiert und anstatt die Lehrmaterialien von Library Carpentry selbstständig durch zu arbeiten, erhielten wir eine kurze Einführungen zu den wichtigsten Basisfunktionen von unseren Dozenten. Dazu stellten sie uns Beispieldaten als CSV-Datei zur Verfügung, damit wir nicht selbst Beispieldaten erfassen mussten und dafür gleich mit dem Testen und Kennenlernen der Funktionen begonnen werden konnte.

OpenRefine

(Quelle: Eigener Screenshot von OpenRefine)

Den eingespielten Beispieldatensatz haben wir dann im Plenum auf Datenkonsistenz geprüft. Ein kurzes Beispiel einer Übung: Bei den Sprachangaben haben wir gesehen, dass Englisch sowohl ausgeschrieben als auch abgekürzt mit EN verwendet wurde. Da die restlichen Sprachen ebenfalls nur mit der Abkürzung angegeben waren, haben wir das angepasst. Und zwar nicht bei allen 107 Einträgen, sondern nur einmal und dann hat es diese Änderungen für alle Einträge mit der ausgeschriebenen Form automatisch übernommen. Wenn die Fehler aufgrund der hohen Anzahl an Werten nicht mehr manuell erkannt werden können, hilft der Algorithmus (Cluster-Funktion).

OpenRefine_Language_Cluster

(Quelle: Eigener Screenshot von OpenRefine und dem Filter Language)

Die Kernaufgabe der heutigen Lerneinheit ist die Konvertierung einer CSV-Datei zu MARCXML. Ähnlich wie bei der gestrigen Übung wurde ein Template mit dem Mapping verwendet, nur dass es dieses Mal bearbeitet werden kann und nicht schon fest vorgegeben ist. Ausserdem wird nicht XSLT sondern GREL als Programmiersprache verwendet. Wir mussten das Template nicht selbst erstellen, sondern konnten das Row Template der Dozierenden nutzen.

OpenRefine_Row_Template

(Quelle: Skript zum Kurs / Felix Lohmeier, Sebastian Meyer

Dazu gab es eine Gruppenübung, bei der wir herausfinden sollten, was das Template bei der Datei transformiert hat. Da ich es nachgeschaut habe, habe ich die Fragen für mich selbst beantwortet und sie dann mit den Antworten im HedgeDoc abgeglichen.

Die Software OpenRefine gefällt mir sehr gut, da ich mich persönlich sehr für die Bereinigung und den Austausch von Metadaten interessiere. Der heutige Unterricht war lehrreich und mit den Übungen interessant gestaltet.

Installation VuFind

Zur Hausaufgabe gibt es nicht besonders viel zu erzählen, ausser dass die Installation von VuFind mit der Anleitung sehr gut funktioniert hat und die Übung durchgeführt werden konnte. Mehr dazu im nächsten Eintrag.