- robots.txt:
Der Crawler beachtet den Robots Exclusion Standard. Interne Seiten, automatische Verzeichnisse etc. können so aus den Suchergebnissen ferngehalten werden. - Sprach- und Texterkennung:
Die Suche verwendet sprachspezifische Analyse für Inhalte in Deutsch und Englisch. Nicht erkannte Seite erfahren neutrale Textanalyse. Die korrekte Sprachdeklaration via <html lang="de"> oder Metatags führt daher in der Regel zu einer Verbesserung der Auffindbarkeit. - Indexierungszyklen:
Bereits bekannte Seiten werden frühestens nach 3 Std und spätestens alle 14 Tage für eine erneute Indexierung markiert. Der genaue Zeitpunkt hängt von Seite selbst, der Anzahl auf diesem Server zu holenden URLs, der Antwortzeit des Servers usw ab.
Die Suche kann über die Endpunkte /results/html und /results/json auch als reine Ergebnisliste aufgerufen werden und so für dezentrale Seiten genutzt werden. Die Parameter entsprechen denen der normalen Suche:
Parameter
q | Query/Suchanfrage/Eingabefeld. Syntax wie auf Hauptseite beschrieben. |
n | Ab Ergebnis n ausgeben. Ergebnisse werden in Seiten von 10 Einträgen geliefert. |
restrict | Suche auf diese Domäne/Teilurl beschränken. | trennt mehrere Definitionen. rub.de/ruhr-uni-bochum.de alias wird automatisch miteinbezogen. |
GET https://search.rub.de/results/html?q=beispiel&restrict=example.rub.de|beispiele.rub.de
<div class="row">
<div class="link">
<a href="http://example.rub.de" target="_blank">Beispiel</a>
</div>
<div class="text"><em>Beispieltext</em> für ein Ergebnis
<br /><a class="result-url" href="http://example.rub.de">http://example.rub.de</a>
</div>
</div>
GET https://search.rub.de/results/json?q=beispiel&n=10
{
"total": 167,
"from": 10,
"next": 20,
"hits": [
{
"url": "http://beispiel.rub.de",
"title": "Beispieltitel",
"text": "<em>Beispieltext</em> für ein Ergebnis"
}
]
}