OCR

Mit OCR bearbeitete Titel können im Volltext durchsucht und die Volltexte können als Plaintext, AltoXML oder als PDF zusammen mit den Bildern heruntergeladen werden (Titelseite → Rubrik «Downloads»). In der Facette lässt sich ein Trefferset auf Titel filtern, die im «Volltext durchsuchbar» sind (alle Inhalte mit Volltext).

Verwendete OCR-Lösung und Bearbeitungsstand
Bis 2023 wurde für die Erstellung von Volltexten auf e-rara ausschliesslich die Software Abbyy Finereader verwendet. Damit wurden Inhalte des 17. bis 20. Jahrhunderts bearbeitet. Seit 2024 wird ausserdem Tesseract Version 5 mit verschiedenen Sprachmodellen verwendet.

Suche im Volltext
Eine allgemeine Suche durchsucht Titelmetadaten und automatisch auch alle Volltexte. Ein mit Volltext versehener Titel lässt sich auch direkt durchsuchen (Button oben rechts auf Titelansicht). Bei der Suche im Volltext sollten folgende Punkte beachtet werden:

  • Es findet eine automatische Trunkierung statt: Die Suche nach london liefert auch den Treffer Londonderry. Für exakte Treffer wird der Suchbegriff in Anführungszeichen gesetzt: "london".
  • Je nach Vorlage ist OCR mehr oder weniger fehlerhaft. Eine Wortsuche liefert nicht immer jeden möglichen Treffer.
  • Je nach OCR-Lösung werden gedruckte Zeichen mit unterschiedlichen Zeichen wiedergegeben: Finereader gibt für das gedruckte Zeichen ſ (in Fraktur- und alten Antiqua-Texten) s aus, manche OCR-Lösungen hingegen das Zeichen ſ. Relevant ist dies für die Weiterverwendung eines heruntergeladenen Volltextes. Bei der Wortsuche auf e-rara werden ſ normalisiert: Die Suche nach august führt auch zum Treffer auguſt.
  • Grundsätzlich gibt die OCR den Text wie in der Vorlage wieder. Berücksichtigen Sie deshalb bei der Suche orthografische und typografische Besonderheiten. Dies gilt insbesondere für die Verwendung von u/v, i/j (im Gegensatz zu s/ſ) sowie Abbreviaturen und Ligaturen.

NER/NEL

Seit 2025 werden ausgewählte Volltexte mit Named Entity Recognition (NER) und Named Entity Linking (NEL) bearbeitet. Dabei werden Personen, Themen und Orte in den Volltexten automatisiert identifiziert und mit der Normdatenbank GND verlinkt. Entsprechende Sucheinstiege auf der Startseite ermöglichen die Suche nach diesen Entitäten und den Textstellen, an denen sie vorkommen. Die Listen Personen, Orte und Themen sind auch für einzelne Titel verfügbar und können in der Titelansicht angewählt werden.

NER/NEL auf e-rara basiert auf der Natural Language API von Google und liefert insgesamt gute Ergebnisse. Das KI-gestützte Verfahren ist jedoch nicht fehlerfrei und ein gewisser Anteil der Entitäten wird falsch oder nicht identifiziert und verlinkt.