Schnittstellen und Datenabzug
Zum Nutzen von Forschung und Lehre stellt e-rara.ch verschiedene Schnittstellen für den Abzug und die Weiterverwendung von Daten bereit. Diese Seite beschreibt den Abzug von standardisierten Metadaten inkl. Links zu Digitalisaten (OAI-PMH), Volltexten, PDFs, RIS-Dateien und die Möglichkeiten von IIIF.
OAI-Schnittstelle
Das Protokoll OAI-PMH enthält sechs Basisfunktionen, die an die baseURL https://www.e-rara.ch/oai
mit „?verb=
“ angefügt werden:
Identify: Anzeige von allgemeinen Informationen zum OAI-Repository
ListSets: Informationen zu allen im OAI-Repository zur Verfügung stehenden Datensets
ListMetadataFormats: Auflistung der verfügbaren Datenformate
GetRecord: Abruf eines einzelnen Datensatzes anhand des Identifiers
Parameter:
-
identifier: Identifikationsnummer des gewünschten Datensatzes
-
metadataPrefix: Bezeichnung des Datenformats, in dem der Datensatz geliefert werden soll. Die zur Auswahl stehenden Werte können über den Befehl ListMetadataFormats (siehe oben) abgefragt werden.
ListRecords: Harvesten von Datensätzen mittels Angabe des Zeitraums (from/until) und/oder Datensets. Die Zeitangabe erfolgt in koordinierter Weltzeit UTC. Dies ist die Kernfunktion von OAI. Es ermöglicht selektives Harvesting, das heisst der Harvester kann seine Anfrage auf Datensätze beschränken, die
-
aus einem bestimmten Katalog stammen und
-
in einem bestimmten Zeitraum erzeugt oder geändert wurden
Parameter:
-
from/until: Zeitpunkte, die den Zeitraum für das selektive Harvesting definieren. Diese können (je nach OAI-Repository) entweder Tagesgenauigkeit (YYYY-MM-DD) oder Sekundengenauigkeit haben (YYYY-MM-DDThh:mm:ss)
-
set: Katalog, aus dem die Datensätze stammen
-
metadataPrefix: siehe oben
-
resumptionToken: Pro Abfrage liefert der Server Pakete von jeweils 10 Records zurück zusammen mit einem Token. Dieses wird jeweils benötigt, um die nächste Anfrage zu generieren.
ListIdentifiers: Ausgabe von Identifiers
Parameter:
-
from/until: Zeitpunkte, die den Zeitraum für das selektive Harvesting definieren. Diese können (je nach OAI-Repository) entweder Tagesgenauigkeit (YYYY-MM-DD) oder Sekundengenauigkeit haben (YYYY-MM-DDThh:mm:ss)
-
set: Katalog, aus dem die Datensätze stammen
-
metadataPrefix: siehe oben
-
resumptionToken:* Pro Abfrage liefert der Server Pakete von jeweils 10 Records zurück zusammen mit einem Token. Dieses wird jeweils benötigt, um die nächste Anfrage zu generieren.
Beispiele:
OAI-Schnittstelle identifizieren
Ausgabe verfügbarer Sets
Ausgabe verfügbarer Metadatenformate
Abfrage der Records im Format oai_dc
Abfrage der Records mittels Token
Abfrage eines Records mittels Identifier
Abfrage von Identifiers in einem Zeitraum
Anmerkung: Es gibt z.T. sehr umfangreiche Titel in e-rara.ch. Werden Records solcher Titel im MetadataFormat=mets geharvestet, kann es sein, dass die Aktion fehlschlägt, da einfach die Datenmenge zu gross ist und die Übertragung in ein Timeout läuft.
Volltexte
Auf jeder Titelansicht findet sich im Bereich «DOWNLOAD» ein Link um den Volltext herunterzuladen, sofern dieser vorhanden ist. Aktuell wird der Volltext sowohl als Plaintext als auch als ALTO-XML angeboten.
Der Aufbau der Abfrage sieht folgendermassen aus:
https://www.e-rara.ch/[domain]/download/ftpack/[typ]/[VLID]
wobei [domain]
das Kürzel der Institution ist (diese Angabe ist nicht zwingend erforderlich). Der Parameter [typ]
gibt an, ob der Volltext als Plaintext oder ALTO-XML bezogen werden soll. Die beiden möglichen Werte sind «plain» oder «alto». Schlussendlich muss noch die [VLID]
des Titels mitgegeben werden. Diese ist jeweils in der URL ersichtlich. Für einen maschinellen Download bietet es sich an, die VLIDs in einem ersten Schritt via OAI zu harvesten und aus den Records zu lesen.
Beispiele:
www.e-rara.ch/zut/download/ftpack/plain/6341733
www.e-rara.ch/zut/download/ftpack/alto/6341733
Auf jeder Titelansicht findet sich im Bereich «DOWNLOAD» ein Link um das PDF des Titels herunterzuladen. Wurde der Titel strukturiert (dies ist ersichtlich am Reiter Inhaltsansicht), so sind auch einzelne PDFs der Strukturknoten vorhanden und können unter dem Reiter Inhaltsansicht heruntergeladen werden.
Der Aufbau der Abfrage sieht folgendermassen aus:
https://www.e-rara.ch/download/pdf/[VLID].pdf
Die [VLID]
des Titels ist jeweils in der URL ersichtlich. Für einen maschinellen Download des Titel-PDFs (nicht Strukturknoten-PDF) bietet es sich an, die VLIDs in einem ersten Schritt via OAI zu harvesten und aus den Records zu lesen.
Beispiel:
www.e-rara.ch/download/pdf/6341733.pdf
RIS
Auf jeder Titelansicht findet sich im Bereich «DOWNLOAD» ein Link um die Metadaten im Format RIS (Research Information System) herunterzuladen.
Der Aufbau der Abfrage sieht folgendermassen aus:
https://www.e-rara.ch/[domain]/download/format/ris/[VLID]
wobei [domain]
das Kürzel der Institution (diese Angabe ist nicht zwingend erforderlich) und [VLID]
der Identifier des Titels ist. Diese ist jeweils in der URL ersichtlich. Für einen maschinellen Download bietet es sich an, die VLIDs in einem ersten Schritt via OAI zu harvesten und aus den Records zu lesen.
IIIF
Auf jeder Titelseite findet sich im Bereich «IIIF» ein Link zum IIIF-Manifest. Diese Manifestadresse kann verwendet werden, um den Titel in einem externen IIIF-Viewer (Mirador oder Universalviewer) direkt zu laden.
Des Weiteren besteht auch die Möglichkeit, einzelne Bilder direkt via IIIFServer anzusteuern.
Der Aufbau der Abfrage sieht folgendermassen aus:
https://www.e-rara.ch/i3f/v21/[VLID]/full/0/0/default.jpg
Die [VLID]
ist der Identifier des entsprechenden Bildes und aus der URL auslesbar, wenn man sich auf der Seitenansicht befindet.
Weitere Informationen zu spezifischen Parametern entnehmen Sie bitte der Dokumentation hier: