Internet 12.03.1999, 17:20 Uhr

Erleuchtung im Datenkosmos

Neue Suchmaschinen versprechen, das Auffinden von Inhalten im überquellenden Web zu erleichtern. Jedoch können Werbestrategen Web-Surfer damit auch in die Irre führen.

In der Internet-Ökonomie spielen Suchmaschinen eine wichtige Rolle. Sie sollen im Wust der Web-Angebote genau das finden, was dem Internet-Surfer vorschwebt. Damit gehören sie zu den beliebtesten Sammelplätzen des Internet und sind in der Lage, über Werbe-Banner und den Verkauf von Suchworten die erheblichen Kosten bei der Programmierung und Datenaufbereitung wieder einzuspielen. Etwa 200 Mio. bis 300 Mio. referenzierbare Websites existieren nach neuesten Schätzungen des Suchspezialisten Greg Notess. Sie werden von den Roboter-Programmen der Suchmaschinen, den sogenannten Suchbots, durchgepflügt. Die Ergebnisse landen aufbereitet in einer Datenbank, der sich der suchende Mensch anvertraut.
Der Aufwand ist erheblich: wenn die Zahlen des Network Weather Reports stimmen, werden 15 % bis 20 % des gesamten Datenverkehrs im Internet durch Suchbots erzeugt. Jeder Webmaster kann ein Lied davon singen, wie die Abrufstatistik steil ansteigt, wenn der Suchbot einer neuen Maschine die Verzeichnisse abklappert.
Doch der ganze technische Aufwand führt zu Ergebnissen, die nachgerade kümmerlich sind. Wer Suchmaschinen befragt, bekommt Hunderte, mitunter Tausende von Fundstellen präsentiert, von denen vielleicht 5 oder 10 Nennungen zum Gesuchten führen. Der Rest ist Daten-Müll, nicht selten durch bewußte Tricks von Web-Anbietern erzeugt, die alles daran setzen, im Ranking einer Suchmaschine die vordersten Plätze zu belegen. Die für den Suchenden unbefriedigende Situation wollen Meta-Suchmaschinen kurieren, die ihrerseits eine Frage an mehrere Suchmaschinen weiterleiten. Die dann eintrudelnden Ergebnisse werden von der Meta-Machine gewichtet und gesäubert dem Surfer präsentiert. Auch dieser Aufwand überzeugt nicht.
Daß die herkömmlichen Suchmaschinen funktionieren, verdanken sie in erster Linie den Linklisten oder kommentierten Bookmark-Verzeichnissen, in denen geduldige Zeitgenossen alles zu einem Thema zusammentragen, was referenzierbar ist. Solche Listen werden in der Regel von ihrem Besitzer bei den Suchmaschinen angemeldet. Ob Sammlungen zu Ameisenforschungen, zum mittelalterlichen Webstuhlbau oder zur Sprengtechnik von Gemüsesorten: es gibt wenig auf der Welt, was noch nicht von der digitalen Sammelleidenschaft erfaßt worden wäre. Die Technik der Informations-Vorauswahl durch ausgebildete Spezialisten macht die besondere Attraktivität von Yahoo aus, das in seiner Popularität so manche Suchmaschine hinter sich läßt.
Google, wie Yahoo an der Universität Stanford entwickelt, macht sich die Technik der Linklisten zunutze.
Statt einfach nur nach den gesuchten Begriffen, ihrer Häufigkeit und Position auf einer Website zu fragen, untersucht Google die Links, die von dieser Website auf andere Fundstellen verweisen und vice versa. Der Effekt: In dem Maße, in dem eine Website mit thematisch ähnlichen Seite verknüpft ist, hat sie mit dem gesuchten Thema zu tun. Google stellt dabei sicher, daß niemand durch das Einrichten von Schwindelsites mit vielen Links auf eigene Produkte seine Internet-Inhalte auf die vordersten Plätze drücken kann. Zusätzlich legt Google einen Cache der besuchten Seiten in der Form ab, wie sie vom Google-Bot vorgefunden wurde. In diesem Punkt beschränkt sich das als „Beta“ betriebene System zur Zeit noch auf US-Inhalte.
Einen Schritt weiter als Google geht das von IBM entwickelte Clever. Es wichtet nach bekannten, glaubwürdigen Websites. Clever, das etwas bemüht als Kürzel von Clientside EigenVector Enhanced Retrieval einherkommt (eine frühere Version hieß Hits, Hypertext Induced Topic Search), ist ein Suchsystem, das keine unmittelbaren Resultate liefert. Wer clever sucht, kann immer wieder zu den Ergebnissen zurückkehren.
Clever untersucht nicht nur die Links, sondern auch die Textstellen, die in der Nähe von Links stehen. Steht ein gesuchter Begriff in unmittelbarer Nähe des Links, wird der Link aufgewertet. Neben der Gewichtung durch „wichtige“ Websites analysiert Clever das Umfeld, in dem ein Link steht und die mögliche „Verwandtschaft“ zu anderen Fundstellen. Dieses clevere Modell ist offensichtlich der akademischen Welt entlehnt: Ein Professor, der viel von den Kollegen an der eigenen Universität zitiert wird, hätte auf diese Weise zwar viele „Links“. Gegenüber einem Professor, dessen Werke vielfach von Kollegen in der ganzen Welt zitiert werden (viele externe „Links“), würde seine Reputation jedoch abfallen.
Während Google und Clever noch spürbar den Charakter eines Forschungsprojektes tragen, ist DirectHit eine kommerzielle Angelegenheit, die an die Betreiber von Suchmaschinen verkauft wird. DirectHit zeichnet auf, was die Surfer im Internet suchen und welche Seiten sie aus einer Suche heraus ansteuern. Startet ein weiterer Surfer exakt die gleiche oder eine ähnliche Suche, kann er das Resultat seiner Vorgänger benutzen und die Websites aufsuchen, die diese gewählt haben. Als einer der ersten Anwender hat die Suchmaschine HotBot (http://www.hotbot.com) das Verfahren von DirectHit lizenziert; dort findet man es unter der Schlagzeile „Top 10 Most Visited Links“.
Nach der Vorstellung vom vernünftigen Surfer ist GlobalBrain programmiert. Die Software setzt auf eine KI-Technologie der Microsoft-Tochter FireFly, die sich „collaborative Filtering“ (gemeinschaftliches Auswählen) oder „Profile Searching“ nennt: Wenn zwei Menschen bei gleicher Interessenslage einen ähnlichen Geschmack haben, sollten ihre Urteile beim Surfen übereinstimmen.
Aus diesem Grunde muß der Surfer bei GlobalBrain detailliert Auskünfte über seine Vorlieben erteilen, ehe das System funktioniert. Es arbeitet besser als die anderen Suchmaschinen, wenn nationale Eigenheiten oder andere einfache „Identifier“ greifen: Ein Amerikaner, der nach „Football“ sucht, bekommt etwas anderes präsentiert als ein Deutscher.
Das große Problem von GlobalBrain ist der Verlust des privaten Hirns, trotz aller Versicherungen, die Daten geheim zu halten. Welche Möglichkeiten es gibt, die intern gehorteten Daten auszuwerten oder gar die AI-Technik des Programmes zu beeinflussen, gibt die Firma nicht an. Ein gut lancierter Verweis auf eine Website, getarnt als Empfehlung der Mitsurfer, könnte ausreichen, das ganze Modell von GlobalBrain zum Einsturz zu bringen. Daß solche Gedanken nicht abwegig sind, zeigt der Prozeß von Esthee Lauder gegen die Suchmaschine Excite, die einige Warennamen der Parfümfirma als linkbare Suchbegriffe an die Konkurrenz verhökerte.
DETLEF BORCHERS
Speziell für Interessenten von industrierelevanten Informationen versprechen Suchmaschinen wie Aeneid, strukturierte und katalogisierte Angebote aufzubereiten.
Der korrekte Suchbegriff ist nicht immer geläufig. Eine Suchmaschine wie Realnames soll daher auch bei umgangssprachlicher Umschreibung der Anfrage zum gewünschten Ergebnis führen.

Von Detlef Borchers
Von Detlef Borchers

Themen im Artikel

Stellenangebote im Bereich Softwareentwicklung

in-tech GmbH-Firmenlogo
in-tech GmbH Informatiker als Softwareentwickler C++/Qt für industrielle Systeme (m/w/d) Garching bei München, München
Pixida-Firmenlogo
Pixida Functional Owner – Digital Services und Connected Devices (m/w/d) München
Porsche AG-Firmenlogo
Porsche AG Softwareingenieur (m/w/d) ASPICE für Entwicklungsprozesse Weissach
Porsche AG-Firmenlogo
Porsche AG IT Security Expert (m/w/d) Digital Workplace Weilimdorf
Jungheinrich Aktiengesellschaft-Firmenlogo
Jungheinrich Aktiengesellschaft Embedded Softwareentwickler (m/w/d) Norderstedt
XTRONIC GmbH-Firmenlogo
XTRONIC GmbH Embedded Software Developer (w/m/d) Böblingen
SimonsVoss Technologies GmbH-Firmenlogo
SimonsVoss Technologies GmbH Senior Middleware Stack Architect (m/w/d) Unterföhring bei München
DIgSILENT GmbH-Firmenlogo
DIgSILENT GmbH Ingenieur Elektrotechnik (w/m/d) Anwendungsentwickler C++ Gomaringen
Porsche AG-Firmenlogo
Porsche AG Service-Experte (w/m/d) Data-Streaming Weilimdorf
XTRONIC GmbH-Firmenlogo
XTRONIC GmbH Requirements Engineer Bereich Kombiinstrumente (m/w/d) Böblingen

Alle Softwareentwicklung Jobs

Top 5 IT & T…

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.