Distributed Search Technologies

Distributed Search Technologies sind Suchmaschinen, die nicht auf einem einzigen Rechner sondern verteilt über viele Computer und ganze Netzwerke arbeiten. Zu Deutsch bedeutet ihr Name sinngemäß „verteilte Suchmaschinen“. Demgemäß können verschiedene Cluster, also Netzwerke von Computern, die einzelnen Aufgaben der Suchmaschine erfüllen.

Um einen Index zu erzeugen, benutzen Suchmaschinen sogenannte Webcrawler (auch bekannt als Spider, Searchbot oder Robot). Nachdem die Crawler das World Wide Web durchsucht haben, liefern sie die gefundenen Seiten zurück an die Suchmaschine. Diese versieht die gefundenen Seiten dann mit einem Index. Dabei steht im Vordergrund, wie relevant die Seite für bestimmte Suchwörter ist. Aufgrund dieser Indexe liefern eingehende Suchanfragen entsprechende Ergebnisse. Der Vorteil bei verteilten Suchmaschinen ist, dass unterschiedliche Netzwerke jenen Arbeitsschritt erledigen können, für den sie optimiert sind.

Wachsendes Internet verlangt Distributed Search Technologies

Zuvor waren Suchmaschinen in der Regel auf einem einzigen Supercomputer angesiedelt. Allerdings wechselten die meisten in den vergangenen Jahren auf ein verteiltes System. Immerhin ist bedingt durch die immens wachsende Größe des Internets schon das Crawling eine unlösbare Aufgabe für einzelne Computer geworden.

Vor allem im Bereich von Big Data ist der Einsatz von Suchmaschinen von essenzieller Bedeutung. Schließlich arbeitet man in diesem Umfeld mit einer großen Anzahl von Daten. Diese kann man oft nicht in die starre Form herkömmlicher Datenbanken eingliedern. Daher muss man sie unter Einsatz einer Suchmaschine nach konkreten Inhalten absuchen. Da Systeme im Big Data Umfeld im Regelfall ohnehin auf verteilten Systemen laufen, bieten sich hierbei Distributed Search Technologies besonders an.